Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le



Documents pareils
La fraude à la carte bancaire

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Travailler avec les télécommunications

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Entreprise et Big Data

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

INF6304 Interfaces Intelligentes

SMALL DATA DANS LA VEILLE

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Accélérer l agilité de votre site de e-commerce. Cas client

Intégration de la dimension sémantique dans les réseaux sociaux

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Diginnove, Agence Conseil E-commerce, vous accompagne dans votre apprentissage des principaux médias sociaux B2C et B2B

données en connaissance et en actions?

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

KIT DE DÉMARRAGE SHAREPOINT DANS MICROSOFT AZURE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Recommandation prédictive

LIVRE BLANC. Smart data, scoring et CRM automatisé : Comment acquérir, qualifier et convertir ses prospects en clients

PROGRAMME (Susceptible de modifications)

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Big Data et Graphes : Quelques pistes de recherche

Présentation de la majeure ISN. ESILV - 18 avril 2013

Introduction au Data-Mining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Agenda de la présentation

ANIMER. J ai un site internet et maintenant?

: seul le dossier dossier sera cherché, tous les sousdomaines

Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Cognit Ive Cas d utilisation

CAISSE REGIONALE DU CREDIT AGRICOLE MUTUEL D AQUITAINE

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

CRÉER UNE PAGE FACEBOOK POUR SON INSTITUTION

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

9 RÉFLEXES SÉCURITÉ

Le programme d'accompagnement E-tourisme des CCI de Provence Alpes Côte d'azur Parcours : «Approfondissement»

Votre outil pour vous démarquer sur le terrain de l interactivité. www. Moteurs de recherche. Médias Sociaux. Web. Mobilité. Assurance automobile

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Projet de Traitement du Signal Segmentation d images SAR

LIVRE BLANC. Les données sociales : De nouvelles perspectives pour les systèmes d information décisionnels?

marketing, scoring comportemental & analyse prédictive

La plateforme Cloud Supply Chain. Présentation de GT Nexus

INTRODUCTION AU DATA MINING

La classification automatique de données quantitatives


Fouillez facilement dans votre système Big Data. Olivier TAVARD

Développer sa stratégie sur les médias sociaux

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

La Révolution du Big Data Comment Extraire de la Valeur à partir des Big Data

BIG DATA et DONNéES SEO

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Ebauche Rapport finale

Marc SALLIERES CEO ALTIC

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Dailymotion: La performance dans le cloud

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

LIVRE BLANC Décembre 2014

E-commerce au Maroc : Plusieurs verrous à faire sauter

Entrepôt de données 1. Introduction

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Item 169 : Évaluation thérapeutique et niveau de preuve

1 Modélisation d être mauvais payeur

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Hervé Couturier EVP, SAP Technology Development

Panorama des solutions analytiques existantes

L interchange. Ce que c est. Comment ça fonctionne. Et pourquoi c est fondamental pour le système des paiements Visa.

Etude sur l équipement des TPE / PME. en complémentaire santé

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

Créer un tableau avec LibreOffice / Calc

Le e-commerce en France

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

FACEBOOK MARKETING Comment mieux tirer profit du ROI des médias sociaux

Conférence Gouvernance de la compliance et gestion des risques de corruption Mars 2015, Paris, France. business media VALIANT.

Spécificités, Applications et Outils

INTERNET, C'EST QUOI?

Modélisation de la réforme des pensions

Transcription:

Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée Mercredi 13 novembre 2013 KXEN 2 et mes centres d intérêt Domaines de la communauté KDD http://www.kdd.org/kdd2013 The darker the color, the more recent the trend Agenda Qu est ce qu un réseau social Analyse des réseaux sociaux & data mining Un exemple: la fraude à la carte bancaire Data Mining Focus Intérêt récent 3 4 Les données en réseau Qu est ce qu un réseau social Le Data mining repose sur une hypothèse fondamentale Les observations sont i.i.d. Indépendantes, identiquement distribuées Mais en pratiquece n est souvent pas le cas Les individus ne sont pas indépendants Réseau de relations sociales L analyse des réseaux sociaux ou Social Network Analysis vise à modéliser ces interactions A churné en Avril Mai Juin 6 F.Soulié Fogelman 1

Qu est ce qu un réseau social? Un réseau social est un graphe Entités : les nœuds Interactions : les liens entre nœuds Les nœuds liés sont dits amis ou voisins Les nœuds peuvent avoir des attributs (nom, tags ) Les liens aussi (poids) Tout réseau social est un graphe Avec des propriétés particulières Mais tout graphe n est pas un réseau social Il existe Des réseaux sociaux dirigés / non dirigés Des réseaux sociaux explicites / implicites (ou directs/indirects) Réseau social explicite Sites sociaux : Facebook http://www.facebook.com/notes/facebook-engineering/visualizing-friendships/469716398919 7 8 Réseau social explicite Réseau social explicite Sites sociaux : Skyrock http://fr.skyrock.com/ Appels téléphoniques CARPISTS MANGAS HORSE RIDING BOOKS TUNING TWILIGHT YOUNG MOMS HARRY POTTER WEDDING TOKIO HOTEL http://www.flickr.com/photos/squeaki/6181086582/ 9 10 Réseau social implicite Les graphes bipartites Deux sortes de nœuds url & tags de contenus, clients & produits, cartes de crédit & marchands par exemple Un lien ne relie que 2 nœuds de sortes différentes Projeter le graphe bipartite On obtient 2 graphes unipartites «implicites» Pondération Nombre de Cartes/Marchands communs Support, confiance # Marchands _ visités _ par _ a _ et _ u Supp( a u) = # Marchands Analyse des réseaux sociaux & data mining 11 F.Soulié Fogelman 2

Analyse de réseaux sociaux Social Network Analysis : beaucoup de domaines d étude Par exemple (cours de Lada Adamic) https://www.coursera.org/course/sna, http://open.umich.edu/education/si/si508/fall2008 Week 01: Introduction to Networks Week 02: Basic Network Metrics Week 03: Centrality Week 04: Prestige and Small World Networks Week 05: Power Laws and Growing Networks Week 06: Graph Traversal Week 07: Community Structure Week 08: Search Week 09: Networks in the Web and Information Retrieval Week 10: Information Diffusion Week 11: Networks Over Time Week 12: Network Resilience Graph mining(mining Networked data) Analyse de réseaux sociaux Le processus L analyse Descriptive Visualisation du réseau, des communautés Caractéristiques du réseau Diffusion Prédictive Extraction de «variables sociales» 13 14 Analyse de réseaux sociaux Pourquoi utiliser des variables sociales? Les variables sociales «résument» les interactions La non-indépendance est donc prise en compte Il serait bien sûr préférable de disposer d un cadre théorique complet Data mining sur échantillon (non i).i.d. Les modèles sont systématiquement meilleurs L information apportée par les variables sociales est toujours très significative Ce sont même quelques fois les variables les plus significatives Les difficultés Les données d interaction sont massives Facebook (>1 Md), Twitter(>500 M), LinkedIn(>200 M) 1 M d entités au pire 10 12 liens Comment tirer un échantillon aléatoire représentatif? La scalabilité est cruciale Les algorithmes doivent scaler(linéaire) L évolution au cours du temps est très rapide Les algorithmes doivent s exécuter rapidement 15 16 La fraude à la carte bancaire sur Internet Un exemple: la fraude à la carte bancaire Le commerce en ligne augmente partout Exemple : US http://www.comscore.com/press_events/presentations_whitepapers/2011/2010_us_digital _Year_in_Review Et donc la fraude aussi En taux & en montant Réalisée par le grand banditisme En France : Carte absente = poste / téléphone / en ligne http://www.banque-france.fr/observatoire/telechar/gb/2009/rapport-annuel-oscp-2009-gb-fraudstatistics-for-2009.pdf Taux Montant M 18 F.Soulié Fogelman 3

La fraude à la carte bancaire sur Internet L analyse de la fraude a un double objectif couvert par 2 types d analyse Détection : éviter les pertes financières Investigation : identifier les gangs responsables Pour cela, on exploite les données disponibles Données de transactions Données clients & Données produits Données Banques & Données Marchands Projet ANR efraudbox Avec Thales, Altic, GIE CB, LIP6 et LIPN LIPN-UMR 7030 19 Évaluation des performances de détection On utilise deux indicateurs Couverture (ou Rappel) C est le taux de cas de fraude identifiés On veut peu de Faux Négatifs Ces fraudeurs ne seront pas investigués Pertinence (ou Précision) Couv s P ert s = = C est le taux d alertes réellement frauduleuses On veut peu de Faux Positifs Ces dossiers seront investigués pour rien Difficultés Le taux de fraude esttrès faible Le taux d alertes doit être très faible Et les volumétries sont très fortes 20 ( ) VP F ( ) VP A Le processus de détection Données de transactions Incluant l information de fraude (si elle est disponible) Détection Le processus de détection Construire un modèle prédictif Analyser à j+1 et prévoir si la transaction iest frauduleuse Historique des transactions de la carte X Fraude 0 0 0 0 1 1 0 0 1 0 1 1 ère transaction frauduleuse 4 ème transaction frauduleuse, détectée Opposition Opposition 1ère fraude scorée Faux Faux positive négatif positif Modèle 0 0 0 0 0 1 0 0 0 1 1 Détection Historique des transactions de la carte X Fraude 0 0 0 0 1 1 0 0 1 0 1 Fraude évitée 21 22 Les difficultés Les volumes sont massifs Plus de 300 M de transactions par an en France Plus de 40 M de cartes bancaires en France Le commerce électronique est mondial Plusieurs centaines de milliers de marchands dans le monde La fraude change rapidement Un modèle doit être produit Tous les mois / ans? Sur un grand volume (1 mois / 1 an de transactions?) Un modèle doit être appliqué À chaque transaction On a donc des contraintes fortes de temps de calcul Mais «More data usually beats better algorithms»? Construire un modèle de détection Sur un mois (par exemple) 30 M de transactions 3% de fraude (Fia-Net, 2010) Deux problèmes pour les techniques de data mining Nombre de transactions Classe Fraude très sous-représentée 23 24 F.Soulié Fogelman 4

Modèle baseline Modèle entraîné sur avril et testé en mai Avec KXEN InfiniteInsight TM 6.0 Sur toutes les transactions du mois AUC Loin du but! Pertinence : 70% Couverture : 30 % Échantillonner Comparaison de méthodes Stabilité Performance Échantillon stratifié souséchantillonné Simple Rapide Performant Stable Couverture 25 26 Création de nouvelles variables (1) Pour améliorer les performances de détection, on génère des variables supplémentaires Profils Carte Marchand Agrégats glissants Jour, semaine, mois Nombre / montant Transactions, fraudes Moyenne, taux, déviation > 700 variables Création de nouvelles variables (1) Résultats Sur un échantillon à 1% Rappel baseline 8,19% 1,41% Mieux, mais encore loin! Pertinence : 70% Couverture : 30 % 27 28 Création de nouvelles variables (2) Ajouter des variables sociales On a donc 304 agrégats cartes &17scores et agrégats scores cartes 370 agrégats marchands & 17 scores et agrégats scores marchands 140 variables sociales cartes 41 variables sociales marchands Création de nouvelles variables (2) Résultats Beaucoup mieux, mais pas encore assez Pertinence x 3 Rappels Baseline 8,19% 1,41% Avec agrégats 10,53% 11,04% Pertinence : 70% Couverture : 30 % > 800 variables 29 30 F.Soulié Fogelman 5

Segmentation Il y a beaucoup de types de fraude Faire une segmentation cartes, avec les agrégats cartes Chaque segment est homogène pour un type de fraude 19 segments Différents types de fraude Segmentation 19 segments Segment 1 Segment 2 Segment 15 Segment 15 31 32 Segmentation Faire un modèle par segment Rappels Baseline 8,19% 1,41% Avec agrégats 10,53% 11,04% Cible Pertinence : 70% Couverture : 30 % Synthèse Modèle Couverture Pertinence Baseline 1,40% 8,18% Baseline + Agg 9,13% 19,00% Baseline + Agg + Agg Sociaux 9,09% 40,58% Seg 19 5,09% 28,21% Seg 19 + Ag. 7,38% 28,82% Seg 19 + Agg + Agg Sociaux 16,46% 60,89% Modèles Baseline ou segmenté Importance des variables Variables initiales Agrégats marchands Agrégats cartes Variables sociales Vert clair : réseau Cartes Vert foncé : réseau marchands 33 34 Echantillonnage Avec agrégats, mieux vaut éviter d échantillonner Couverture Sans agrégats Avec agrégats L investigation de la fraude On construit le réseau bipartite Cartes-Marchands À partir du fichier des transactions acceptées d un mois donné On récupère la liste de toutes les cartes qui ont été fraudées Pour chacune de ces cartes on extrait l intégralité de ses transactions On projette côté Marchands On obtient à la fois des marchands fraudés et non fraudés Reliés entre eux quand ils ont des cartes en commun On détecte les communautés Les groupes de marchands plus connectés entre eux qu avec le reste du graphe Ils sont visités par les mêmes cartes 35 36 F.Soulié Fogelman 6

L investigation de la fraude Zoom sur une communauté marchand La taille d un nœud correspond au nombre de transactions traitées par le marchand La fraude à la carte bancaire sur Internet Sous-réseau autour du marchand Communauté 4, seuil à 30 Échelle de couleurs 0 1 2 3 4 5 QuintileMontantFraude QuintileTauxFraudeTransactions Rouge : fraude Vert : pas fraude L épaisseur des liens correspond au nombre de cartes en commun dans le graphe bipartite 37 38 Questions? F.Soulié Fogelman 7