Analyse des fraudes sur la carte France Télécom Vincent Lemaire FTR&D/DTL/TIC Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de
Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de
Description du problème Création Liste des cartes suivies carte FT seuils de consommation Beaucoup d alertes! journaliers, mensuels, Alertes traitées! Historique, La communication de ce document est soumise à autorisation de
Description du problème Ce double but nécessite une intervention humaine : pour pouvoir prévenir le possesseur de la carte d'un usage anormal pour s'assurer qu'une carte n'est pas mise en opposition abusivement. Ainsi, le système ne peut et ne doit pas être entièrement automatique. En accord avec nos partenaires de l'ugc, l'objectif visé est l'ordonnancement automatique des dossiers à traiter selon la probabilité de fraude calculée par le système, et ce pour augmenter le rendement du traitement final qui reste lui réalisé par les opérateurs humains. La communication de ce document est soumise à autorisation de
Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de
Étape 1 : Acquérir une compréhension du domaine où va s'exercer le processus de data mining de manière à identifier les informations a priori importantes en ayant présent à l'esprit le but du processus de data mining vis à vis du point de vue du client. dans un projet le temps passé à la découverte d'informations 20 % plus de 80% du temps est dédié à la compréhension du domaine et aux opérations de sélection, nettoyage, codage, etc. La présence à l'ugc de Nancy, dans le cadre d'un stage terrain, a permise : d'acquérir une connaissance du domaine, les cartes France Télécom de comprendre qu'elle est la connaissance que les agents de l'ugc utilisent pour déterminer si une alarme (dépassement de seuils commerciaux, parallélisme,...) correspond ou non à une fraude La communication de ce document est soumise à autorisation de
Étape 2 : Extraction ou échantillonnage On ne peut résoudre un problème que si l'on dispose des données nécessaires : consiste à récupérer les données à analyser depuis le système d'information. L'échantillonnage consiste à ne conserver pour l'analyse qu'un sous ensemble tiré au hasard (un pour N) des données disponibles. Cette technique statistique permet de limiter le temps de traitement. L'échantillonnage entraîne une perte d'informations qui peut être gênante lors de la recherche de segment de ``niche''. Après concertation avec l'ugc il est apparu que le problème à traiter n'était pas la recherche de segment de niche : 14% des dossiers sont des dossiers douteux et 8.2% des dossiers sont des dossiers de fraudes; parmi les dossiers suivis par l'ugc. Un échantillonnage des dossiers traités par les agents de l'ugc à alors été réalisé. Le jeu de données porte sur 12267 dossiers datant de janvier à 2000. mai La communication de ce document est soumise à autorisation de
Étape 3 : Nettoyage consiste à améliorer la qualité des données essentielle car elle conditionne le succès de l'exploration. Il s'agit de traiter de manière appropriée : les données aberrantes, les données incomplètes, les valeurs nulles,... etc. L'UGC avait fourni une première base de données à FTR\&D. Suite à des discussions menées, il a été décidé conjointement par les différentes parties de réaliser une nouvelle campagne de mesure. Cette nouvelle campagne de mesure a permis de collecter davantage d'informations concernant les alarmes dues à des dépassements de seuils commerciaux et de définir un format de ticket de consommation de taille unique. Les variables à échantillonner ont été définies. Ces dernières ont été choisies en fonction de l'expertise des agents de l'ugc. La communication de ce document est soumise à autorisation de
Étape 4 : Enrichissement On peut avoir recours à d'autres bases, achetées (exemple à l'insee) ou produites en un autre lieu, pour enrichir les données. L'opération va se traduire par l'ajout de nouveaux champs en conservant souvent le même nombre d'enregistrements. Une première difficulté ici est de pouvoir relier des données qui parfois sont hétérogènes. Des problèmes de format de données apparaissent et des conversions sont souvent nécessaires. Une deuxième difficulté est l'introduction de nouvelles valeurs manquantes ou aberrantes et la phase de nettoyage sera certainement de nouveau utile. Après étude et concertation aucune base n'a été adjointe à celle fournie par l'ugc. La communication de ce document est soumise à autorisation de
Étape 5 : Transformation, codage, normalisation Certaines variables doivent être transformées, agrégées ou calculées afin de mieux interpréter leur signification. Certains attributs prennent un très grand nombre de valeurs discrètes. Lorsqu'il est important de considérer ces attributs pour la fouille de données il est important d'opérer des regroupements et ainsi obtenir un nombre de valeurs raisonnable. Certains modèles (exemple réseaux bayésiens) nécessitent de discrétiser les variables continues il est alors important d'utiliser soit une discrétisation manuelle réalisée par un expert soit une discrétisation automatique ciblée sur le but à réaliser. On peut encore citer d'autres opérations nécessaires comme le changement de type des variables, l'uniformisation d'échelle, etc. La communication de ce document est soumise à autorisation de
Étape 5 : Transformation, codage, normalisation Lorsqu'une alarme parvient à l'ugc elle est accompagnée d'un ticket de consommation. Ce ticket est de taille variable, taille qui dépend du type d'alarme. De manière à agréger ces tickets de consommation les variables ont été calculées sur 5 tailles de fenêtre d'observation (1, 5, 10, 20, 30 jour(s)). Des informations, sur «générale» ont été crées. les statistiques du trafic écoulé, plus Pour chaque variables une discrétisation ``métier'' a été proposée par les agents de l'ugc. La communication de ce document est soumise à autorisation de
Étape 5 : Que veut-on réaliser? Classification Estimation Prédiction Segmentation Détection de variation Agrégation Description La communication de ce document est soumise à autorisation de
Étape 6 : Modélisation Quelles que soient les méthodes employées, la démarche de data mining aboutit très souvent à la construction d'un modèle : c'est-àdire d'un système permettant plus ou moins bien de décrire expliquer prévoir une variable de sortie correspondant à un phénomène observé, en fonction des mesures de variables d'entrée liées à ce phénomène. La communication de ce document est soumise à autorisation de
Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de
Innovation FTR&D CHA ou K-means... La communication de ce document est soumise à autorisation de
Sélection - Recodage de variables Choix d une variable par feuille Nommée «parangon» Utilisation des parangons seuls N Classes de variables Recodage des variables de chaque feuille d après leur parangon respectif La communication de ce document est soumise à autorisation de
Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de
Performances obtenues La communication de ce document est soumise à autorisation de
Interprétations : Exemple de résultats sur 4 variables : SURVPLL : plus le parallélisme est fort, plus l'individu a un comportement frauduleux, CADMOB3 : plus le chiffre d'affaire vers les mobiles est important,plus le comportement est frauduleux, MOYNAT : plus la moyenne nationale est élevée, moins le comportement est frauduleux, CAOPUB3 : plus le nombre d'appels via les publiphones est grand, plus le comportement est frauduleux. Le seuil! La communication de ce document est soumise à autorisation de
Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de
Au sein de l UGC Réalisation d une fonction logicielle insérée dans l application informatique temps réel de l UGC Contrat (maintenance, mise à jour, ) Probabilité de Fraude La communication de ce document est soumise à autorisation de