Agenda Utilisation des réseaux sociaux dans la lutte contre la fraude Françoise Soulié Fogelman VP Innovation francoise@kxen.com 1. La fraude à la carte bancaire 2. La question des volumes 3. La création de nouvelles variables 4. L apport des réseaux sociaux 5. L investigation de la fraude 6. Conclusion 2 La fraude à la carte bancaire Le commerce en ligne augmente partout Exemple : US http://www.comscore.com/press_events/presentations_whitepapers/2011/2010_us_digital _Year_in_Review Et donc la fraude aussi En taux & en montant Exemple : France absente = poste / téléphone/ en ligne http://www.banque-france.fr/observatoire/telechar/gb/2009/rapport-annuel-oscp-2009-gb-fraudstatistics-for-2009.pdf Taux Montant M 4 Le commerce électronique en France (2009) 5 D après la FEVAD Réglé à 90% par carte bancaire Taux de tentatives de fraude 2,82 % (+5 % / 2008) Montant des tentatives de fraude > 705 millions en 2009 Montant total détourné > 36 millions Estimation Fia-Net À la charge des commerçants en France Fraude réalisée par le grand banditisme Vol de numéros de cartes En France, le GIE s Bancaires gère le processus d autorisation des transactions L analyse de la fraude a donc un double objectif couvert par deux types d analyse Éviter les pertes financières : détection Identifier les gangs responsables : investigation Pour cela, on exploite les données disponibles Données de transactions Données clients & Données produits Données Banques & Données Marchands Projet ANR efraudbox Avec Thales, Altic, GIE CB, LIP6 et LIPN LIPN-UMR 7030 6 12_06_29_Fraude & Réseaux Sociaux 1
Détecter la fraude En temps réel Bloquer une transaction au moment de la demande d autorisation : bloquer la transaction qu on soupçonne d être frauduleuse (sans perturber l achat normal) A posteriori Constater qu une transaction passée (la veille) était frauduleuse: éviter la fraude future sur la même carte Les transactions «en alerte» sont signalées à la banque Pour inspection par un agent Investiguer la fraude Extraire d un ensemble de transactions frauduleuses des sous-ensembles attribuables à un même groupe criminel 7 Évaluation des performances de détection On utilise deux indicateurs Couverture (ou Rappel) C est le taux de cas de fraude identifiés On veut peu de Faux Négatifs Couv s = Ces fraudeurs ne seront pas investigués Pertinence (ou Précision) P ert s = C est le taux d alertes réellement frauduleuses On veut peu de Faux Positifs Ces dossiers seront investigués pour rien Difficultés Le taux de fraude est très faible Le taux d alertes doit être très faible Et les volumétries sont très fortes 8 ( ) VP F ( ) VP A Le processus de détection Données de transaction cartes Incluant l information de fraude (si elle est disponible) Détection Le processus de détection Construire un modèle prédictif Analyser à j+1 et prévoir si la transaction i est frauduleuse Historique des transactions de la carte X Fraude 0 0 0 0 1 1 0 0 1 0 1 1 ère transaction frauduleuse 4 ème transaction frauduleuse, détectée Opposition 1ère fraude scorée Faux Faux positive négatif positif Modèle 0 0 0 0 0 1 0 0 0 1 1 Détection Historique des transactions de la carte X Opposition Fraude 0 0 0 0 1 1 0 0 1 0 1 Fraude évitée 9 10 Les données du e-commerce La question des volumes Les volumes sont massifs Plus de 300 M de transactions par an en France Plus de 40 M de cartes bancaires en France Le commerce électronique est mondial La fraude change rapidement Un modèle doit être produit Tous les mois / ans? Sur un grand volume (1 mois de transactions?) Un modèle doit être appliqué À chaque transaction On a donc des contraintes fortes de temps de calcul liées aux volumes 12 12_06_29_Fraude & Réseaux Sociaux 2
Construire un modèle de détection Sur un mois (par exemple) 30 M de transactions 3% de fraude (Fia-Net, 2010) Deux problèmes pour les techniques de data mining Nombre de transactions Classe Fraude très sous-représentée Modèle baseline Modèle entraîné sur avril et testé en mai Avec KXEN InfiniteInsight TM 6.0 Sur toutes les transactions du mois AUC Loin du but! Pertinence : 70% Couverture : 30 % 13 14 Échantillonner Comparaison de méthodes Stabilité Performance Échantillon stratifié souséchantillonné Simple Rapide Performant Stable Couverture La création de nouvelles variables 15 La détection de la fraude Pour améliorer les performances de détection, on génère des variables supplémentaires Profils Marchand Agrégats glissants Jour, semaine, mois Nombre / montant Transactions, fraudes Moyenne, taux, déviation + environ 700 variables Résultats Sur un échantillon à 1% Rappel baseline 8,19% Pertinence : 70% Couverture : 30 % 1,41% Mieux, mais encore loin! 17 18 12_06_29_Fraude & Réseaux Sociaux 3
L apport des réseaux sociaux Détection On construit des réseaux bipartites Sur un mois de transactions Différentes sémantiques de liens 1. Toutes les transactions ou 2. Transactions acceptées On projette Marchan dmarchan dmarchan dmarchan d K M =2 K c =1 2 Marchands sont connectés Marchand s ils ont vu au moins K c cartes 2 s sont connectées si Marchand Marchandelles ont acheté chez au moins K M marchands On extrait les variables sociales dans chaque graphe Degré, communauté, agrégats dans le cercle/ communauté Agrégats sociaux glissants dans la communauté 20 Modèle de classification On utilise toutes les données disponibles On a donc 304 agrégats cartes & 17 scores et agrégats scores cartes 370 agrégats marchands & 17 scores et agrégats scores marchands 38 scores OCSVM 140 variables sociales cartes 41 variables sociales marchands Performances Mieux, mais pas encore assez Rappel baseline 8,19% 1,41% Avec agrégats 10,53% 11,04% Pertinence : 70% Couverture : 30 % 964 variables 21 22 Variables Contribution des variables Segmentation Il y a beaucoup de types de fraude Faire une segmentation cartes, avec les agrégats cartes 19 segments Différents types de fraude 23 24 12_06_29_Fraude & Réseaux Sociaux 4
Segmentation Faire un modèle par segment Cible Pertinence : 70% Couverture : 30 % L investigation de la fraude 25 Banque Investigation On construit le réseau bipartite s-marchands À partir du fichier des transactions acceptées d un mois donné On récupère la liste de toutes les cartes qui ont été fraudées Pour chacune de ces cartes on extrait l intégralité de ses transactions On projette côté Marchands On obtient à la fois des marchands fraudés et non fraudés Reliés entre eux quand ils ont des cartes en commun On détecte les communautés Les groupes de marchands plus connectés entre eux qu avec le reste du graphe Ils sont visités par les mêmes cartes Banque Zoom sur une communauté Rouge : fraude Vert : pas fraude La taille d un nœud correspond au nombre de transactions traitées par le marchand L épaisseur des liens correspond au nombre de cartes en commun dans le graphe bipartite 27 28 Banque Voisinage complet du marchand dans sa communauté Sous-réseau autour du marchand Communauté 4, seuil à 30 Échelle de couleurs 0 1 2 3 4 5 QuintileMontantFraude QuintileTauxFraudeTransactions 29 30 12_06_29_Fraude & Réseaux Sociaux 5
Conclusion 12_06_29_Fraude & Réseaux Sociaux 6