Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»



Documents pareils
Agenda de la présentation

Introduction au datamining

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La classification automatique de données quantitatives

Introduction au Data-Mining

Coup de Projecteur sur les Réseaux de Neurones

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Spécificités, Applications et Outils

IBM SPSS Direct Marketing

données en connaissance et en actions?

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Les algorithmes de fouille de données

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

QU EST-CE QUE LE DECISIONNEL?

Apprentissage Automatique

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Analyse de grandes bases de données en santé

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Travailler avec les télécommunications

L information et la technologie de l informationl

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Introduction à la B.I. Avec SQL Server 2008

Gestion de la Relation Client (GRC)

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

BUSINESS INTELLIGENCE

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Les Entrepôts de Données

Introduction au Data-Mining

Cybermarché et analyse comportementale

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Pourquoi l apprentissage?

Quels outils pour prévoir?

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Accélérer l agilité de votre site de e-commerce. Cas client

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

INF6304 Interfaces Intelligentes

Didier MOUNIEN Samantha MOINEAUX

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Les clients puissance cube

Méthodologie de conceptualisation BI

4.2 Unités d enseignement du M1

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Surabondance d information

Marketing comportemental. Guide méthodologique de mise en œuvre

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Arbres binaires de décision

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Chapitre 9 : Informatique décisionnelle

Business Intelligence : Informatique Décisionnelle

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

We make your. Data Smart. Data Smart

Le géomarketing - Page 1 sur 7

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

WHITE PAPER Une revue de solution par Talend & Infosense

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Groupe Eyrolles, 2004 ISBN :

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Développer une culture d efficience

Le décisionnel plus que jamais au sommet de l agenda des DSI

Ici, le titre de la. Tableaux de bords de conférence

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Une Démarche pour la sélection d outils de cartographie des processus métiers

Business & High Technology

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

(Customer Relationship Management, «Gestion de la Relation Client»)

Base de données clients outil de base du CRM

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

L analyse de la gestion de la clientèle

Atelier Symposium MicroStrategy

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Le risque Idiosyncrasique

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Transcription:

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 : Présentation de la plate-forme de Data Mining PASW Modeler Partie 3 : Ateliers de manipulation de base de PASW Modeler 2

Partie 1 : Introduction au Data Mining 1- Qu est ce que le Data Mining? 2- Domaines d applications 3- Principales techniques 3.1 Techniques non supervisées 3.2 Techniques supervisées 4- Méthodologie de Projets 3 Contexte économique Les entreprises doivent améliorer La qualité des produits & services La connaissance des marchés et leur dynamique Leur position face à la concurrence Les coûts de production La connaissance des technologies pour en tirer profit La maîtrise de l information par un processus d intelligence La collecte de l information, Le traitement de l information, La diffusion de l information à des fins stratégiques D où l importance du «Data Mining» 4

Plate-forme analytique et opérationnelle pour l entreprise Intégration des canaux de communication et des processus métiers Finances Marketing Ventes Organisation Credit Scoring Notation Interne & Risque (ex. Bâle II, Patriot Act) Optimisation des grilles tarifaires Valorisation des sinistres Détection de Fraude (sinistres, cartes, prêt) Blanchiment d Argent Acquisition client, ventes croisées et rétention Optimisation des campagnes Marketing Segmentation Client Valeur Comportement Simulation tarifaire Optimisation des interactions Web Analyse du portefeuille client Ventes croisées et rétention sur le point de contact du client Affectation des prospects aux commerciaux Analyse de la performance Force de vente Secteurs géographiques Service Client pro-actif Call center monitoring et tuning Analyse automatique des emails Satisfaction Client Recrutement des employés Satisfaction des employés Rétention des employés Direction Générale : Analyses et Reporting Analyses Data mining Statistiques Sortantes Entrantes Actions Vision Client Unique Datamart Marketing Données déclaratives Données contrats Navigation Web Call Center Données opérationnelles 5 De l analyse historique à l analyse Predictive Analyse Historique (BI) Analyse Prédictive (DM) Valeur Business Combien de clients avons nous perdu? Query & Reporting Quelle est leur localisation? OLAP Data mining Quels clients type sont à risques et pourquoi? Real time distribution Que devons nous offrir à ce client aujourd hui? Temps Point de départ de la chaîne de prise de décision : le Reporting Soucis pour les entreprises : données incompatibles, lourdeur du traitement, difficultés de consolidations,. 6

Le Data Mining : Un champs multidisciplinaire Statistiques Régression logistique Analyse discriminante Arbre de décision : CHAID Classification : K-Means Intelligence Artificielle, Machine Learning Réseaux de neurones Règles d inductions Kohonen Data Mining Familles d algorithmes Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble Database Technology ETL, ROLAP, MOLAP Reporting I. BERRADA7 1 Qu est ce que le Data Mining? 8

Qu est ce que le Data Mining? Data Mining est un sujet qui dépasse le cercle restreint des scientifiques et suscite un vif intérêt dans le monde des affaires «l extraction d information originale, auparavant inconnues et potentiellement utiles, à partir de données» (Piateski-Shapiro). «la découverte de nouvelles corrélation (ou coefficient de coïncidence), tendances et modèles par tamisage d un large volume de données» (John Page). «un processus d aide à la décision où les utilisateurs cherchent des modèles d interprétation dans les données» (Kamran Parsaye). 9 Qu est ce que le Data Mining? «l exploration et l analyse, par des moyens automatiques ou semi-automatiques, d un large volume de données afin de découvrir des tendances ou des règles» (M. Berry). «un processus non élémentaire de mise à jour de relation, corrélation, dépendances, association, modèles, structure, tendance, classes, facteurs obtenus en naviguant à travers de grands ensembles de données» (M. Jambu). Avec poésie: «torturer l information disponible jusqu à ce qu elle avoue» (Dimitris Chorafas). Avec cynisme et réalisme «passer les données dans la machine à saucisses pour obtenir des Merguez douces ou épicées» (Moktar Outtas) 10

Le data mining : une définition Le data mining est un processus de gestion et de valorisation de l information client au service de la performance de l entreprise. Le data mining doit permettre de : 1. Décrire un phénomène «client» (choix, désaffection ). 2. Comprendre ce phénomène (relations, dépendances). 3. Modéliser (abstraire le phénomène dans un modèle). 4. Prédire (anticiper sur de nouvelles données à l aide du modèle). 11 Quelle Problématique du Data Mining? Comment gérer la grande quantité des données brutes provenant de plusieurs sources pour les rendre accessibles et lisibles par le décideur? 12

Définition du Data mining Extraction d information d intérêt (non triviale, implicite, inconnue à priori et potentiellement utile) à partir de données stockées dans de large entrepôts de données, en utilisant des procédures automatiques ou semi-automatiques pour une prise de décision. Appelé aussi KDD (Knowledge Discovery in Databases ) 13 De la donnée vers la connaissance Data mining: noyau du processus de découverte de la connaissance. Enrichissement des variables Data Mining Données sources Sélection des données Qualification des données Données validées Données cibles Information découverte Données Transformées Utilisation de la connaissance Information exploitée et diffusée 14

Processus de Data Mining : Etude de cas - ciblage Mk Périmètre d un projet DM pilote ACTION DATAMINING ENRICHISSEMENT DES VARIABLES TRANSFORMATION DES DONNEES Information Exploitée et diffusée BDI MARKETING Données Validées BD Développement Données Transformées Information Scoring Modélisation Reporting DW Données sources Données Marketing Plate-forme analytique d un projet DM 15 2 Domaines d applications 16

Applications clefs du Data Mining Marketing direct : identifier les profils des prospects ayant les meilleurs taux de réponses à une action marketing donnée (réponse / non réponse - réponse achat / réponse non achat / non réponse). Credit Scoring : identifier les profils des emprunteurs ou souscripteurs à risque en matière de crédit ou d'assurance (bon payeur/ mauvais payeur - client non risqué/client à risque moyen/client à risque élevé). Analyse de marché : identifier les segments les plus porteurs sur un marché - Déterminer les variables influant sur la vente d un produit ou d'un service - Identifier les profils des clients de tel ou tel produit ou tel ou tel service. Industrie Industrie Santé Utilisation des Ressources Qualité des Soins Satisfaction Clientèle le Contrôle Qualité Finance / Service Acquisition Clientèle le Détection des Fraudes Data mining Détection des Fraudes Analyse Base de Données Secteur Public Ventes Croisées, Ventes Additionnelles Fidélisation Fidélisation Analyse de Panier d Achat d Télécom Distributeur/VPC Distributeur/VPC Application Secteur Médical : déterminer les facteurs de risques liées à une maladie (développement / non développement) - identifier les profils des patients susceptibles de réagir favorablement à un traitement (guérison / non guérison). 17 Champs disciplinaire du CRM 4 1 2 4 champs disciplinaires Problématique d acquisition Problématique de fidélisation Problématique de rétention Problématique de migration 3 Migration Mouvement des clients dans les segments actifs de la pyramide de valeur Rétention/Attrition Mouvements des consommateurs depuis les segments actifs vers les segments inactifs. Acquisition/Fidélisation Basée notamment sur la segmentation et le profilage Sup Grands Moyens Petits Inactifs Actifs Inactifs I. BERRADA 18

L historique du Data Mining Ces techniques ne sont pas récentes Ce qui est nouveau Capacité de stockage et de calcul // (matériel puissant) Package de techniques de natures différentes qui peuvent s enchaîner les unes aux autres L intégration du DM dans le processus de production Elle permettent de traiter de grands volumes de données et font sortir le DM des Laboratoires de Recherche pour entrer dans les entreprises. Modélisation le noyau du data mining C est ce qui permet de différencier le DM de ces ancêtres Les requêtes, le reporting, la visualisation et les statistiques simples permettent de tester les hypothèses Les hypothèses, les idées, sont spécifiées par l utilisateur La Modélisation permet la génération des hypothèses Utiliser les outils de data mining pour suggérer de nouvelles idées et directions 19 Des statistiques.. Au Data Mining Statistiques Quelques centaines d individus Quelques variables recueillies avec protocole spécial (échantillonnage, plan d expérience, etc.) Fortes hypothèses sur les lois statistiques suivies Data Mining Quelques millions d individus Quelques centaines de variables Nombreuses var non numériques Données recueillies avant l étude et souvent à d autres fins Population constamment évolutive Données imparfaites avec erreur de codification Nécessité de calculs rapides On ne cherche pas l optimum mathématique mais le modèle le + facile à appréhender par les utilisateurs non statisticiens 20

Différence entre le Data Mining et la Statistique traditionnelle Les techniques de Data Mining remplacent-elles les statistiques? Les statistiques sont omniprésentes. On les utilise : Pour faire une analyse préalable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour évaluer la qualité des estimations, Après le processus pour mesurer les actions entreprises et faire un bilan. Statistiques et Data Mining sont tout à fait complémentaires 21 3 Principales techniques 3.1 Techniques descriptives Classification Typologie Règles d association 3.2 Techniques prédictives Classement Arbre de décision Réseau de neurone 22

Principales approches de modélisation Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble 23 Les 2 types de techniques de DM Les techniques descriptives visent à mettre en évidence des informations présentes mais cachées par le volume des données (ex: segmentation de clientèles et recherche d associations de produits sur les tickets de caisse) Réduisent, résument, synthétisent les données il n y a pas de var cible à expliquer Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes (ex. Scoring) Expliquent des données Il y a une variable cible à prédire. & & 24

Méthodes descriptives de DM Type Famille Sous famille Algorithme Modèles géométriques Méthodes descriptives Modèles à base de règles logiques Analyse factorielle (projection sur un espace de dimension inférieure) Détection de liens Analyse en composantes principales ACP (var. continues) Analyse des correspondances multiples ACM (var. catégorielle) Centre mobiles, k_means, nuées dynamiques Classification hiérarchique Classification neuronale (carte de Kohonen) Classification relationnelle Détection d associations Recherche de séries similaires 25 Méthodes prédictives de DM Type Famille Sous famille Algorithme Modèles à base de règles logiques Arbre de décision Arbre de décision (var. à expliquer continue ou catégorielle) Modèles à base de fonctions mathématique Réseaux de neurones Réseaux à apprentissage supervisé perceptron, réseau à fonction radiale de base Méthodes prédictives Modèles paramétriques ou semi paramétriques Régression linéaire (var. à expliquer continue) Modèle linéaire général (var. à expliquer continue) Régression logistique (var. à expliquer catégorielle) Analyse discriminante de Fisher (var. àexpliquer catégorielle) Modèle log-linéaire (var. à expliquer discrète) Prédiction sans modèle Modèles linéaire généralisé (var. à expliquer continue, discrète ou catégorielle) Modèle additif généralisé (var. à expliquer continue, discrète ou catégorielle) K plus proche voisin (K-NN) 26

Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations 27 3.1 Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations 28

Pourquoi et Quand utiliser la classification? Quand on souhaite trouver des patterns sans cible Pour trouver des anomalies / cas atypiques Ex. détection de fraude Plusieurs terminologies Clustering Attention, il est employé par les anglo-saxons (classification désigne la technique prédictive Classement en français) Segmentation : employé en Marketing Typologie Taxinomie (Biologie) Nosologie (Médecine) 29 Plusieurs algorithmes de classification Méthode hiérarchique Ascendantes (agglomérations) Basées sur une notion de distance Basée sur une notion de densité Descendante (divisives) Méthodes de partitionnement Centres mobiles : K-means Réseaux de Kohonen Méthodes Two Step 30

Comparatif entre les différentes méthodes de classification de partitions Méthode Hiérarchique Il n'est pas nécessaire de sélectionner à l'avance le nombre de classes. on rassemble les pairs de sous-classes avec la plus petite distance. Ceci est répété jusqu à obtenir une classe qui regroupe tout. Méthode K_Means Etant donné k entier, Partitionner les cas en k groupes. Calculer un centre ou point moyen de chaque groupe Affecter chaque cas (point) au groupe ayant le centre le plus proche Retour à l étape 2, stopper lorsqu il n y plus d affectation possible. Méthode Two Step Traite les données de grandes tailles. Utilisée pour les variables continues et catégorielles Constituée de deux étapes : Étape 1 : Regroupement préliminaire (sub-cluster). Etape 2 : Regroupement final (cluster) : l'utilisation de la méthode de classification hiérarchique pour fusionner progressivement les sousclasses de l étape 1 en classes de plus en plus importantes, sans qu'un nouvel examen des données soit nécessaire. Validité = inter intra 31 Principe du Réseau de Kohonen Il s agit d un algorithme original de classification qui a été défini par Teuvo Kohonen dans les années 80. L algorithme regroupe les observations en classes en respectant la topologie de l espace des observations. On se définit une notion de voisinage entre classes et les observations voisines dans l espace des variables. En général, on suppose que les classes sont disposées sur une grille rectangulaire qui définit naturellement les voisins de chaque classe. Couche cachée, lxm nœuds connectés avec un certain poids p ijk Principe de l algorithme L algorithme de classement est itératif L initialisation : associer à chaque classe un vecteur code dans l espace des observations choisi de manière aléatoire Ensuite, à chaque étape, on choisit une observation au hasard, on la compare à tous les vecteurs codes et on détermine la classe gagnante, i.e. celle dont le vecteur code est le plus proche au sens d une distance donnée à priori. On rapproche de l observation les codes de classe gagnante et des classes voisines On ne modifie à chaque étape que le code de la classe gagnante. C est un algorithme compétitif. Couche d entrée, 1 nœud par var (-> n nœuds) 32

Description de Kohonen L'analyse Kohonen est une méthode de classification non supervisée. Elle a les propriétés: de représenter les données en conservant la topologie. des données proches (dans l'espace d'entrée) vont avoir des représentations proches dans l'espace de sortie et vont donc être classés dans une même classe ou dans des classes voisines. Un réseau de Kohonen est constitué: d'une couche d'entrée: Tout individu à classer est représenté par un vecteur multidimensionnel (le vecteur d'entrée). A chaque individu est affecté un neurone qui représente le centre de la classe d'une couche de sortie (ou couche de compétition). Les neurones de cette couche entrent en compétition.seuls les meilleurs gagnent("wta ou Winner takes all") 33 Representation de kohonen A chaque neurone, on fait correspondre un espace de sortie qui, en général, est un espace 2D défini par une grille soit rectangulaire soit hexagonale. Chaque neurone posséde 8 plus proches voisins 34

Description de Kohonen Le neurone biologique Le neurone de Kohonen a une fonction d'activation qui ne prend que des valeurs positives. Compétition Chaque neurone reçoit les signaux de ses voisins. Son excitation (ou son inhibition) dépend de la distance et peut être représentée par la fonction ci-aprés. : + exitation :-inhibition Les neurones voisins ont une action d'excitation. Les neurones éloignés ont une action d'inhibition. La loi d'évolution de la couche fait que: le réseau s'organise de telle façon à créer un amas de neurones autour du neurone le plus stimulé par le signal d'entrée. Les autres neurones se stabilisent dans un état d'activation faible. 35 Algorithme 1) Prétraitement des données Chaque vecteur d'entrée V est normalisé de telle façon à ce que sa longueur soit égale à 1. Les poids initiaux W (générés aléatoirement) des neurones de compétition sont également normalisés à 1. 2) Présentation des données Les données d'entrée peuvent être présentées soit dans leur ordre initial soit de façon aléatoire. 3) Recherche du neurone gagnant Le programme recherche le neurone dit "gagnant" en minimisant(v-w). Les neurones voisins du gagnant sont modifiés, à chaque itération, comme suit: W=W+alpha(V-W) alpha est la vitesse d'apprentissage. Elle peut être linéaire (et décroissante en fonction du temps) ou gaussienne des distances (et décroissante en fonction du temps). 4) Visualisation de la couche de sortie La visualisation de la carte finale est en générale faite en projetant les neurones gagnants dans un espace 3D/2D("Non linear mapping"). 36

Algorithme d Apprentissage d un réseau Kohonen Initialisation aléatoire des poids p ijk Pour tout individu x=(x 1,x 2,, x n ) présenté au réseau sont calculées les distances le séparant de lxm nœuds : Nœud retenu pour représenter x est le nœud (i,j) pour n lequel d ij (x) est minimum. 2 dij( x) ( xk pijk ) k 1 Ce nœud et tous les nœuds voisins voient leurs poids ajustés p ijk + (x k -p ijk ) pour les rapprocher de x. [0,1] est le taux d apprentissage pendant l apprentissage. C est cet ajustement des poids dans tout le voisinage du nœud «gagnant» qui rapproche les nœuds voisins de (i,j) de l individu x. On diminue la taille du voisinage et on prend un autre individu (enregistrement) x. 37 Conseils d ordre général sur les solutions de classification Il existe un certain nombre de principes standard pouvant être appliqués à chaque solution de classification. Les plus critiques sont : Nombre d enregistrements par classe Les classes ne doivent pas être trop petites dans la pratique. Certains cas isolés peuvent constituer leur propre classe (5 ou 10 cas dans un jeu de données de 1 000 enregistrements). Nombre de classes Le nombre de classes étant arbitraire, il est courant d essayer des solutions avec différents nombres de classes en examinant chacune tour à tour pour déterminer laquelle est la plus utile. 38

3.2 Principales techniques Zoom sur les techniques prédictives Classement Arbre de décision Réseau de neurone 39 Techniques prédictives Passé pour prédire l avenir 40

Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie de Clementine) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 41 Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 42

Classification vs Classement Classification des données consiste regrouper les données en classes (non définie à priori) basées sur le principe conceptuel : maximiser la similarité intra classe et minimiser la similarité interclasse. Classement (affecter à un classe pré-définie, Analyse Discriminante, Rég. Logistique) est une méthode d apprentissage supervisée, alors que la classification est une méthode non supervisée. 43 Principe des arbres de décision Les méthodes de segmentation par Induction de Règles sont des techniques statistiques (CHAID, CART et non statistiques C5) multivariées et supervisées. Elles permettent : d'étudier plusieurs variables simultanément, et, plus précisément, la relation entre une variable dite dépendante (cible) et des variables dites indépendantes. Le résultat de la segmentation, décrit sous la forme d'un arbre dit arbre de décision: indique quels sont, parmi les variables indépendantes considérées, les meilleurs prédicteurs de la variable cible, et affiche les caractéristiques des groupes définis par ces prédicteurs. De partitionner de manière séquentielle, les données en des groupes (segments), en fonction des modalités des variables indépendantes retenues pour leur pouvoir explicatif sur la variable dépendante. 44

Exemple: Arbre de décision age : du chef du foyer, sexe : le sexe du chef du foyer, enfant : existence d enfants, revenu : revenu du ménage, carte : présence de carte bancaire, nbpers : # de personne dans le foyer, occup : type de profession I. BERRADA 45 Prédire le risque client par l arbre l de décisiond 46

Les individus entre 25 à 35 ans sont tous bons payeurs lorsqu ils perçoivent un salaire mensuel, mais majoritairement des mauvais payeurs lorsqu ils perçoivent un salaire hebdomadaire. Les individus de moins de 25 ans sont en majorité de mauvais payeurs lorsqu ils sont payés à la semaine et se répartissent entre bons et mauvais lorsqu ils sont payés au mois. Les individus de plus de 35 ans sont toujours des bons payeurs, quel que soit le mode de rémunération. I. BERRADA 47 Pourquoi / quand utiliser les règles d Association? Exploration Générale Ne sait pas exactement ce que je cherche, je veux juste savoir ce qui va avec quoi Pannier de la ménagère Analyse des transactions commerciales à l aide d un moteur d associations grande distribution, Analyse des mouvements dans les grandes banques, Analyse des incidents en assurance Analyse des associations des pages Web 48

Exemple de règles d association Analyse du panier de la ménagère Découverte d associations et de corrélations entre les articles achetés par clients en analysant les achats effectués (panier) Quels items tendent à se retrouver ensemble? Une règle est une expression de la forme : Si condition alors Résultat La règle Soda & Boucherie => Conserve légumes si vous avez Soda et Boucherie, vous achèteriez probablement Conserve légumes probablement = confiance, Combien de cas = couverture (ou support ). L indice de confiance = p(conditions et résultat) / p(condition) L indice de support = p(condition et résultat) 49 Exemple de calcul des indices de confiance et du support 50

Application des règles r d association d pour le choix des plans tarifaires par les clients Le Support correspond au pourcentage d'enregistrements contenus dans les données d'apprentissage pour lesquels les antécédents sont vrais (true). 13% des cas vérifient la règle Forfait maîtrisé Forfait plafonné est vraie avec une confiance de 89,7% 51 Les réseaux de neurones Simulation des neurones dans le cerveau humain par apprentissage de règles et généralisations Une classe d outils et d algorithmes très puissants pour : La prédiction La classification La segmentation ou Clustering Ils sont utilisés dans plusieurs domaines : Prévision des séries temporelles dans les finances Diagnostic médical Identification de segments de clients potentiels Détection de fraude Etc. 52

Qu est ce qu un réseau de neurones? Un réseau de neurone typique présente plusieurs neurones rangés en couches afin de créer un réseau. Chaque neurone peut être considéré comme un calculateur élémentaire à qui l on attribue une tâche simple et unique. Les connexions entre neurones donnent au réseau sa capacité à apprendre des caractéristiques et des relations. Une représentation simple d un réseau de neurones : Perceptron 53 Exemples de fonctions d activation x Sigmoïde ou logistique : e f ( x) 1 x e x 2e Tangente hyperbolique : f ( x) 1 x 1 e Linéaire : f ( x) x L unité ou neurone combine ses entrées (valeurs entre 0 et 1) en une seule valeur, qu elle transforme après pour produire la sortie (entre 0 et 1). Cette combinaison et cette transformation sont appelées la fonction d activation. Quand la fonction d activation est linéaire, le réseau de neurones n est autre qu une régression linéaire multiple avec comme entrées les variables indépendantes x i et comme sortie la variable dépendante y. Les poids w i ne sont autres que les coefficients β i du modèle de régression. Lorsque la fonction d activation est logistique, le réseau de neurones s assimile à un modèle de régression logistique. La différence avec le modèle de régression linéaire est que la variable dépendante y est binaire (valeurs : 0 ou 1). Quand la fonction d activation est la tangente hyperbolique, le réseau de neurones est un perceptron multi-couches (MLP), variante la plus fréquemment utilisée. On note ici que le modèle se complique avec la présence d une couche cachée. 54

Mise en œuvre d un réseau de neurone Les étapes pour la mise en œuvre d un réseau pour la prédiction ou le classement sont : Identification des données en entrée et en sortie Normalisation des données (entre 0 et 1) Constitution d un réseau avec une topologie adaptée (nb de couches, ) Apprentissage ou entraînement du réseau Test du réseau Application du modèle généré par l apprentissage Dénormalisation des données en sortie rétropropagation L entraînement est le processus de choisir les poids optimaux sur les arêtes minimisant SEC pour chaque observation: SEC = (données réelles données en sorties)² Utiliser l ensemble d apprentissage afin de calculer les poids et s approcher le possible de la sortie. w nouveau = w encours + w encours w encours = - η ( SEC/ w encours) + α W antérieur η : taux d apprentissage 0<η<1 contrôle l importance de la modification des poids. C est la vitesse de déplacement : plus il est élevé, plus l apprentissage est rapide mais plus le réseau risque de converger vers une solution globalement non optimale. α Le terme de moment aide à diminuer les oscillations autour de l optimum en encourageant les ajustements à rester On peut ne pas atteindre l optimum si α est petit dans la même direction 55 Forces et faiblesses des réseaux de neurones Un RN «apprend itérativement» les patterns dans les données : A chaque itération, le modèle est testé puis raffiné. Alors que les Analyses Statistiques supposent un type de modèle pour les données puis testent son adéquation aux données. Forces Aptitude à modéliser des structures complexes et des données irrégulières Prise en compte des relations non linéaires (interactions) entre les variables. Assez bonne robustesse aux données bruitées Aptitude à modéliser des problèmes très variés. Faiblesses Résultats totalement non explicites Sensibilité à un trop grand nombre de variables non discriminantes (contrairement aux arbres de décision) Convergence vers la meilleure solution globale pas toujours assurée Paramètres nombreux et délicats à régler (nb et taille des couches cachées, taux d apprentissage, moment, etc.) Ne s applique naturellement qu aux variables continues dans l intervalle (0,1) Nécessité de normaliser les données. 56

Quel modèle retenir? Plusieurs itérations Data Miners exécutent plusieurs modèles en utilisant les paramètres par défault. Affinent les paramètres ou reviennent à la phase de préparation pour effectuer des transformations requises par le modèle choisi. Courbe ROC 57 En guise de synthèse : Quels problèmes : Fiche technique La Segmentation (clustering) Rechercher des groupes homogènes dans une population d individus Par exemple, segmenter les comportements d achat des clients. Techniques: K-means, CAH (Classification Ascendante Hiérarchique), Nuées Dynamiques, Cartes de Kohonen... 58

Quels problèmes : Fiche technique L Association Rapprocher les caractéristiques, les comportements ou les préférences d un individu Un exemple particulièrement populaire est celui de l analyse du panier de la ménagère Techniques: Règles d associations, analyse des corrélations, analyse des correspondances (ACM) 59 Quels problèmes : Fiche technique La Classification Prévoir l appartenance d un individu à un groupe donné. = Expliquer une caractéristique qualitative à partir d autres variables qualitatives ou quantitatives Exemple: Un client donné fera t il parti des «churners»? Techniques: Arbres de décisions (CART, ChAID, C4.5, ID3,..), Analyse Factorielle Discriminante, Régression Logistique, Réseaux de neurones... 60

Quels problèmes : Fiche technique L Estimation Évaluer une caractéristique quantitative d un individu (taille, revenu, montant d achat, ) = Expliquer une caractéristique quantitative à partir d autres variables qualitatives ou quantitatives Exemple: Évaluer le montant d achat d un client? Techniques : Modèles linéaires ou non linéaire, Réseaux de neurones, GLM, Poursuite de projection en Régression... 61 Projet Data Mining Coût et Gain Facteurs Clés de succès et quelques freins 62

Principaux besoins décisionnels Systèmes sources enrichissement Fiabilisation des données Interrogation et Reporting OLAP Data Mining Requête sur des données de détail et peu consolidées Analyse, détection de problèmes et opportunités Découverte de tendances cachées, règles significatives Visualisation Combien de mouvements chaque client a-t-il effectué au cours du dernier mois? Analyse multidimensionnell e Quelle est l évolution sur 5 ans du nombre mensuel de mouvements pour chaque catégorie de clients? Connaissance et prévision Quels clients clôtureront leur compte au cours des 6 prochains mois? 63 Déroulement du projet de DM Selon le modèle CRISP-DM Principales interactions avec le Business Gestion et Coordination Techniques : IT & MRK Evaluation et Validation Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication 64

Méthodologie Data Mining Compréhension de la problématique Compréhension des données Préparation des données Modélisation Evaluation Déploiement Déterminer les objectifs Critères de réussite Situation Ressources Risques Couts et bénéfices attendus Déterminer les objectifs du DM Critères de réussite Planification des tâches Collecter les données Analyse descriptive Analyse exploratoire Vérifier la qualité des données Sélectionner des données Inclusion/Exclusion Nettoyer les données Construire de nouveaux agrégats Reformater les données Construction des échantillons Sélectionner les techniques de Modélisation Supervisé Non-supervisé Construire les modèles Choix des paramètres Description des modèles Evaluation des résultats Critères de réussite Choix des modèles Revoir le process Retourner à l étape de préparation des données Déterminer les prochaines étapes Liste des actions possibles Décision Plan de déploiement Maintenance du déploiement Production du rapport final Rapport final Présentation finale Clementine propose un support intégré de la méthodologie CRISP-DM (CRoss Industry Standard Process for Data Mining, http://www.crisp-dm.org/ ). 65 Répartition de la charge d éd étude 83% 66

Facteurs clés de succès d un projet décisionnel Des objectifs précis, stratégiques et réalistes La qualité et la richesse des informations collectées Stockage des informations relationnelles sur les clients (réponses aux sollicitations commerciales; aux enquêtes de satisfaction, etc. Collaboration des compétences métiers et statistiques Maîtrise des techniques de Data Mining utilisées Bonne restitution des résultats et implication de tous les partenaires chargés de leur mise en œuvre L analyse de retour de chaque action pour la suivante 67 Freins et blocages au développement d un Data Mining Au niveau «Business» Méconnaissance / crainte / scepticisme Manque de soutien du Top Management Engagement de la force de vente Difficulté à «vulgariser» certains résultats (neurones, ) Intégration des activités de Data Mining dans l entreprise Au niveau des données Disponibilité Mise à jour / qualité Structure / historisation 60% du projet de Data Mining 68

Freins et blocages au développement du Data Mining Au niveau des outils Complexité des logiciels Spécificités des outils (intégration, fonctionnalités, ) Coûts liés aux applications de Data Mining Au niveau des compétences Absence ou rareté de filière de formation «Marketing Intelligence» Profil complexe : Marketing, quantitatif, informatique, 69 Retour sur investissement Le RSI est difficile à évaluer : Les gains proviennent du Data Mining mais aussi d une bonne communication, d un marketing efficace, de commerciaux motivés Le RSI vient de : L augmentation des taux de réponse des actions marketing Augmentation de la productivité des commerciaux Meilleure utilisation des canaux Fidélisation des clients Réduction des impayés On peut tenter de l estimer avec un échantillon témoin. 70

Exemple de calcul RSI 71 RSI d un score d attrition 72

Impact du Data Mining sur cycle de vie d un d client le MORE Acquisition EFFICIENT ACQUISITION + Aquisition efficiente MORE Vente Plus Fréquent de FREQUENT Produits Prolonger Fin de la Relation UP/CROSS & Services SELL Plus MORE de PROFIT Profit Encore Plus profitable REVENU PROFIT Profit Coût moindre coût TEMPS 73 KDnuggets : Polls : Data Mining (Analytic) Tools (May 2006) I. BERRADA 74