Analyse des fraudes sur la carte France

Documents pareils

GUIDE DE DÉMARRAGE SOMMAIRE INTRODUCTION 1. SUIVI DE CAISSE PRÉSENTATION DU CALENDRIER PRINCIPES DE SAISIE N GESTIONSAISIE D'UNE JOURNÉE DE CAISSE

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Il n'existe pas de contrat "type", mais des types de contrat. Nous pouvons instruire ensemble ces différents types de contrat.

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

1. Pourquoi? Les avantages d un bon référencement

Solution de jeu concours «Scratch2Win»

SÉCURISEZ LE TRAITEMENT DES PAIEMENTS AVEC KASPERSKY FRAUD PREVENTION. #EnterpriseSec

La carte d'achat dans les organisations françaises

La fraude à la carte bancaire

DECLARATION ISO/CEI SUR LA PARTICIPATION DES CONSOMMATEURS AUX TRAVAUX DE NORMALISATION

L'attribution marketing :

CONDITIONS GENERALES DE VENTE ET D UTILISATION

Convention Beobank Online et Beobank Mobile

Auchan Consumer Zoom clients pour mesurer et optimiser vos actions marketing. Une offre unique au service des industriels.

Conditions générales d utilisation de la «Carte de Fidélité» Carrefour, Carrefour Market et Carrefour Express

Conditions de participation campagne WoM BASE B-39

CONSEIL DE L'EUROPE COMITÉ DES MINISTRES RECOMMANDATION N R (87) 15 DU COMITÉ DES MINISTRES AUX ÉTATS MEMBRES

Systèmes de transport public guidés urbains de personnes

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Sommaire. Les lotissements à partir du 1er mars Février Caractéristiques d un lotissement...2. Constitue un lotissement...

SPÉCIFICATION DE L'API VERISIGN OPENHYBRID CLOUD SIGNALING

TD 3 : suites réelles : application économique et nancière

GUIDE MEMBRE ESPACE COLLABORATIF. Février 2012

POLITIQUE DE GESTION DES DOCUMENTS ADMINISTRATIFS

Les crédits à la consommation

DÉVELOPPEMENT DES OPTIONS DE GESTION Aire Marine Protégée envisagée de Barra Fan et du mont sous-marin de la Terrasse des Hébrides

CONTRAT D ENREGISTREMENT DE NOM DE DOMAINE

GUIDE DE PARTICIPATION DES JOURNALISTES AFP AUX RESEAUX SOCIAUX

Gérer ses comptes bancaires

» Conditions Particulières

PUBLICITÉ ET CRÉDIT À LA CONSOMMATION. Les modifications apportées par la Loi du 1 er juillet 2010

MANUEL POUR LES UTILISATEURS MODULE VENTES/MARKETING OpenERP v.6.1

CONDITIONS PARTICULIERES NUMEROS SVA

POLITIQUE EN MATIERE DE CONTROLE DE L'ACCES

REGLEMENT DU PROGRAMME DE FIDELITE COFFEA

CONTRAT D ENREGISTREMENT DE NOM DE DOMAINE

Projet de Protocole d'accord du 28 octobre traduction du texte original rédigé et signé en néerlandais

DES RESSOURCES INFORMATIQUES DE L'IFMA

Copropriété: 31, rue des Abondances Boulogne-Billancourt

LES REGLES DE VOL VFR

Les obligations juridiques et fiscales des entreprises étrangères réalisant des opérations en France

Conditions générales.

La procédure d'achat du présent avis est couverte par l'accord sur les marchés publics de l'omc :Oui

13 conseils pour bien choisir son prestataire de référencement

[ Sécurisation des canaux de communication

Article 1 : Champ d'application

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

GE Security. KILSEN série KSA700 Centrale de détection et d alarme Incendie analogique adressable. Manuel d utilisation

P our appeler : Décrochez le combiné et composez le numéro OU Composez le numéro et décrochez le combiné

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

1 EVALUATION DES OFFRES ET NEGOCIATIONS

CODE PROFESSIONNEL. déontologie. Code de déontologie sur les bases de données comportementales

25 October 2013 Dossier Confidentiel MTS CONSULTING ORCA. ORCA est une suite d outils d informatique décisionnel dédiée aux télécoms.

Contrôlez et Maîtrisez votre environnement de messagerie Lotus Notes Domino

Sécurité et «Cloud computing»

RÉPUBLIQUE FRANÇAISE AU NOM DU PEUPLE FRANçAIS

Spam Manager. Guide de l'utilisateur

LOGICIEL ALARM MONITORING

JSSI - Sécurité d'une offre de nomadisme

Pourquoi l analytique web devrait être importante pour vous

XTRADE TRADING CFD EN LIGNE. XTRADE - XFR Financial Ltd. CIF 108/10 1

Accélérer l agilité de votre site de e-commerce. Cas client

CHARTE INFORMATIQUE. Usage de ressources informatiques et de service Internet

PARTIE 4 PROCESSUS DE SURVEILLANCE DES PRODUITS CERTIFIES MODIFICATIONS ET EVOLUTION

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

Comprendre ITIL 2011

CONTRAT D'ACCEPTATION EN PAIEMENT DE PROXIMITE DES CARTES "CB" OU AGREEES "CB" VERSION 7.2

SÉCURITÉ, BANQUE ET ENTREPRISES. Prévention des risques de fraudes

FileSender par RENATER - Guide utilisateur

CONDITIONS GENERALES MONTE PASCHI BANQUE SA EN LIGNE

AdWords Faites la promotion de votre entreprise sur Google avec MidiMédia

QUESTIONS/REPONSES SUR LE STATUT D'EXPORTATEUR AGREE DGDDI Bureau E1- septembre 2011 Statut d'exportateur agréé (EA)

Compte Courant Rémunéré

Introduction au Data-Mining

FICHE PRATIQUE. CLP : Classification, étiquetage et emballage des produits chimiques. Contexte : classifier et identifier les substances chimiques

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Sage CRM. 7.2 Guide de Portail Client

Avenant technologique à la Description commune des services RMS de gestion à distance de Cisco

Observation des modalités et performances d'accès à Internet

Une lutte active contre la fraude

... Adresse à laquelle les offres ou demandes de participation doivent être envoyées : point(s) de contact susmentionné(s).

ACCORD INTERNATIONAL SUR LA VIANDE BOVINE

Risques liés aux systèmes informatiques et de télécommunications

L'insertion professionnelle des diplômés DNSEP 2003 trois ans après le diplôme

La fonction Conformité dans l assurance

Politique d'utilisation (PU)

La situation de la sécurité des clés USB en France

Les menaces sur internet, comment les reconnait-on? Sommaire

37, rue d Amsterdam Paris Tél. : Fax :

AVIS DE MARCHE. Marché de services de nettoyage de bâtiments et services de gestion de propriétés

Politique en matière de traitement des demandes d'information et des réclamations

Crédit à la consommation: Principes généraux

Entrepôt de données 1. Introduction

Découvrir rapidement la création d'une entreprise

Acropole Acropole Gestion du courrier - Archivage

Domaine 1 : S approprier un environnement informatique de travail. Domaine 3 : Créer, produire, traiter et exploiter des données.

Transformation de l'expérience clients par l'amélioration de l'engagement et les communications mobiles

Transcription:

Analyse des fraudes sur la carte France Télécom Vincent Lemaire FTR&D/DTL/TIC Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de

Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de

Description du problème Création Liste des cartes suivies carte FT seuils de consommation Beaucoup d alertes! journaliers, mensuels, Alertes traitées! Historique, La communication de ce document est soumise à autorisation de

Description du problème Ce double but nécessite une intervention humaine : pour pouvoir prévenir le possesseur de la carte d'un usage anormal pour s'assurer qu'une carte n'est pas mise en opposition abusivement. Ainsi, le système ne peut et ne doit pas être entièrement automatique. En accord avec nos partenaires de l'ugc, l'objectif visé est l'ordonnancement automatique des dossiers à traiter selon la probabilité de fraude calculée par le système, et ce pour augmenter le rendement du traitement final qui reste lui réalisé par les opérateurs humains. La communication de ce document est soumise à autorisation de

Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de

Étape 1 : Acquérir une compréhension du domaine où va s'exercer le processus de data mining de manière à identifier les informations a priori importantes en ayant présent à l'esprit le but du processus de data mining vis à vis du point de vue du client. dans un projet le temps passé à la découverte d'informations 20 % plus de 80% du temps est dédié à la compréhension du domaine et aux opérations de sélection, nettoyage, codage, etc. La présence à l'ugc de Nancy, dans le cadre d'un stage terrain, a permise : d'acquérir une connaissance du domaine, les cartes France Télécom de comprendre qu'elle est la connaissance que les agents de l'ugc utilisent pour déterminer si une alarme (dépassement de seuils commerciaux, parallélisme,...) correspond ou non à une fraude La communication de ce document est soumise à autorisation de

Étape 2 : Extraction ou échantillonnage On ne peut résoudre un problème que si l'on dispose des données nécessaires : consiste à récupérer les données à analyser depuis le système d'information. L'échantillonnage consiste à ne conserver pour l'analyse qu'un sous ensemble tiré au hasard (un pour N) des données disponibles. Cette technique statistique permet de limiter le temps de traitement. L'échantillonnage entraîne une perte d'informations qui peut être gênante lors de la recherche de segment de ``niche''. Après concertation avec l'ugc il est apparu que le problème à traiter n'était pas la recherche de segment de niche : 14% des dossiers sont des dossiers douteux et 8.2% des dossiers sont des dossiers de fraudes; parmi les dossiers suivis par l'ugc. Un échantillonnage des dossiers traités par les agents de l'ugc à alors été réalisé. Le jeu de données porte sur 12267 dossiers datant de janvier à 2000. mai La communication de ce document est soumise à autorisation de

Étape 3 : Nettoyage consiste à améliorer la qualité des données essentielle car elle conditionne le succès de l'exploration. Il s'agit de traiter de manière appropriée : les données aberrantes, les données incomplètes, les valeurs nulles,... etc. L'UGC avait fourni une première base de données à FTR\&D. Suite à des discussions menées, il a été décidé conjointement par les différentes parties de réaliser une nouvelle campagne de mesure. Cette nouvelle campagne de mesure a permis de collecter davantage d'informations concernant les alarmes dues à des dépassements de seuils commerciaux et de définir un format de ticket de consommation de taille unique. Les variables à échantillonner ont été définies. Ces dernières ont été choisies en fonction de l'expertise des agents de l'ugc. La communication de ce document est soumise à autorisation de

Étape 4 : Enrichissement On peut avoir recours à d'autres bases, achetées (exemple à l'insee) ou produites en un autre lieu, pour enrichir les données. L'opération va se traduire par l'ajout de nouveaux champs en conservant souvent le même nombre d'enregistrements. Une première difficulté ici est de pouvoir relier des données qui parfois sont hétérogènes. Des problèmes de format de données apparaissent et des conversions sont souvent nécessaires. Une deuxième difficulté est l'introduction de nouvelles valeurs manquantes ou aberrantes et la phase de nettoyage sera certainement de nouveau utile. Après étude et concertation aucune base n'a été adjointe à celle fournie par l'ugc. La communication de ce document est soumise à autorisation de

Étape 5 : Transformation, codage, normalisation Certaines variables doivent être transformées, agrégées ou calculées afin de mieux interpréter leur signification. Certains attributs prennent un très grand nombre de valeurs discrètes. Lorsqu'il est important de considérer ces attributs pour la fouille de données il est important d'opérer des regroupements et ainsi obtenir un nombre de valeurs raisonnable. Certains modèles (exemple réseaux bayésiens) nécessitent de discrétiser les variables continues il est alors important d'utiliser soit une discrétisation manuelle réalisée par un expert soit une discrétisation automatique ciblée sur le but à réaliser. On peut encore citer d'autres opérations nécessaires comme le changement de type des variables, l'uniformisation d'échelle, etc. La communication de ce document est soumise à autorisation de

Étape 5 : Transformation, codage, normalisation Lorsqu'une alarme parvient à l'ugc elle est accompagnée d'un ticket de consommation. Ce ticket est de taille variable, taille qui dépend du type d'alarme. De manière à agréger ces tickets de consommation les variables ont été calculées sur 5 tailles de fenêtre d'observation (1, 5, 10, 20, 30 jour(s)). Des informations, sur «générale» ont été crées. les statistiques du trafic écoulé, plus Pour chaque variables une discrétisation ``métier'' a été proposée par les agents de l'ugc. La communication de ce document est soumise à autorisation de

Étape 5 : Que veut-on réaliser? Classification Estimation Prédiction Segmentation Détection de variation Agrégation Description La communication de ce document est soumise à autorisation de

Étape 6 : Modélisation Quelles que soient les méthodes employées, la démarche de data mining aboutit très souvent à la construction d'un modèle : c'est-àdire d'un système permettant plus ou moins bien de décrire expliquer prévoir une variable de sortie correspondant à un phénomène observé, en fonction des mesures de variables d'entrée liées à ce phénomène. La communication de ce document est soumise à autorisation de

Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de

Innovation FTR&D CHA ou K-means... La communication de ce document est soumise à autorisation de

Sélection - Recodage de variables Choix d une variable par feuille Nommée «parangon» Utilisation des parangons seuls N Classes de variables Recodage des variables de chaque feuille d après leur parangon respectif La communication de ce document est soumise à autorisation de

Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de

Performances obtenues La communication de ce document est soumise à autorisation de

Interprétations : Exemple de résultats sur 4 variables : SURVPLL : plus le parallélisme est fort, plus l'individu a un comportement frauduleux, CADMOB3 : plus le chiffre d'affaire vers les mobiles est important,plus le comportement est frauduleux, MOYNAT : plus la moyenne nationale est élevée, moins le comportement est frauduleux, CAOPUB3 : plus le nombre d'appels via les publiphones est grand, plus le comportement est frauduleux. Le seuil! La communication de ce document est soumise à autorisation de

Plan de la présentation Description du problème Un processus complet de data mining Innovation FTR&D Recherche du meilleur modèle Discussion - Conclusion La communication de ce document est soumise à autorisation de

Au sein de l UGC Réalisation d une fonction logicielle insérée dans l application informatique temps réel de l UGC Contrat (maintenance, mise à jour, ) Probabilité de Fraude La communication de ce document est soumise à autorisation de