1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI
2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage et mise en forme des données Étude statistique de la base d analyse Mise en oeuvre des algorithmes (classification, scoring ) Élaboration des modèles Validation et choix d un modèle Déploiement du modèle Formation des utilisateurs Suivi des modèles
3 Définition des objectifs Définir précisément le sujet et certains critères essentiels (variable cible). Exemple : «client à risque» et «client sans risque» Définir la population cible - tous les clients, les clients actifs, les prospects aussi - unité statistique : individu, famille, entreprise, groupe Déterminer la période à étudier Le sujet doit faire partie des objectifs de l entreprise et lui apporter un avantage réel Les objectifs doivent être réalistes (tenir compte des actions passées et de la saturation du marché) Prévoir l utilisation opérationnelle des modèles produits - forme de la restitution, périodicité de mise à jour, suivi
4 Inventaire des données utiles Recenser avec les spécialistes métier et les informaticiens, les données utiles : - accessibles raisonnablement - fiables - suffisamment à jour - légalement utilisables Il y a les données : - du système d information (SI) de l entreprise - stockées dans l entreprise, hors du SI (fichiers Excel...) - achetées ou récupérées à l extérieur de l entreprise - calculées à partir des données précédentes (indicateurs, ratios, évolutions au cours du temps)
5 Données à ne pas utiliser Non fiables - trop de valeurs aberrantes ou manquantes Disponibles sur une durée trop courte - soumises aux variations saisonnières Redondantes - dont le poids est artificiellement augmenté, ou dont la colinéarité rend instable les résultats de certaines méthodes Non pertinentes - qu il faut remplacer par de nouveaux indicateurs Trop peu corrélées à l objectif de l étude - qui créent du «bruit», des fluctuations aléatoires
6 Sélection des données à utiliser Choix des variables les plus discriminantes : test du χ², test de la variance paramétrique (ANOVA) Transformation des variables (recodage, normalisation par un logarithme ou une racine carrée) - permet de se rapprocher d une loi normale (var. quantitative) - permet de diminuer le nb de modalités (var. qualitative) Choix des discrétisations (découpage des var. continues) ex : en fonction de la variable cible, à la main. Choix des variables les moins corrélées entre elles : tests de multicolinéarité
7 Création de nouvelles variables Création d indicateurs pertinents (maxima, moyennes, présence/absence ) Calcul de ratios Calcul d évolutions temporelles de variables Création de durées, d anciennetés à partir de dates Croisement de variables, interactions Utilisation de coordonnées factorielles : pour obtenir presque autant d information avec moins de variables
8 Pour l élaboration des modèles prédictifs (Facultatif) Pré-segmentation (classification) de la population étudiée : - en groupes distincts selon les données disponibles (clients / prospects) - en groupes statistiquement pertinents vis-à-vis des objectifs de l étude - selon certaines caractéristiques sociodémographiques (âge, profession ) si elles correspondent à des offres marketing spécifiques Partition des données en : - un échantillon d apprentissage - un échantillon de test
9 Construction modèle : méthodes inductives Apprentissage : construction du modèle sur un premier échantillon pour lequel on connaît la valeur de la variable cible Test : vérification du modèle sur un deuxième échantillon pour lequel on connaît la valeur de la variable cible, que l on compare à la valeur prédite par le modèle : si le résultat du test est insuffisant (d après la matrice de confusion ou la courbe ROC), on recommence l apprentissage Validation du modèle sur un troisième échantillon, pour avoir une idée du taux d erreur non biaisé du modèle Application du modèle à l ensemble de la population
10 Validation modèle Etape très importante car des modèles peuvent : - donner de faux résultats (données non fiables) - mal se généraliser dans l espace (autre échantillon) ou le temps (échantillon postérieur) - être incompréhensibles ou inacceptables par les utilisateurs souvent en raison des variables utilisées - ne pas correspondre aux attentes Principaux outils de comparaison : matrices de confusion, courbes ROC, de lift, et indices associés
11 Préparation des données
12 Les différents formats de données Données continues (ou d échelle) dont les valeurs forment un sous-ensemble infini de R (exemple : salaire) Données discrètes dont les valeurs forment un sous-ensemble fini ou infini de N (exemple : nombre d enfants) Données catégorielles (ou qualitatives) dont l ensemble des valeurs est fini ces valeurs sont numériques ou alphanumériques, mais quand elles sont numériques, ce ne sont que des codes et non des quantités (ex : PCS, n de département) Données textuelles lettres de réclamation, rapports, dépêches AFP
13 Précisions sur les formats Les données continues et discrètes sont des quantités : - on peut effectuer sur elles des opérations arithmétiques, - elles sont ordonnées (on peut les comparer par la relation d ordre <) Les données catégorielles ne sont pas des quantités - mais sont parfois ordonnées : on parle de données catégorielles ordinales (exemple : «faible, moyen, fort») - données ordinales souvent traitées comme données discrètes - Les données catégorielles nominales ne sont pas ordonnées Les données textuelles contiennent : - des abréviations - des fautes d orthographe ou de syntaxe - des ambiguïtés (termes dont le sens dépend d un contexte non facilement détectable automatiquement)
14 Analyse exploratoire des données Explorer la distribution des variables Vérifier la fiabilité des variables - valeurs incohérentes ou manquantes imputation ou suppression Détecter les valeurs extrêmes : voir si valeurs aberrantes à éliminer Variables continues : tester la normalité des variables (surtout si petits effectifs) et les transformer pour augmenter la normalité : test de Kolmogorov-Smirnov, test Shapiro-Wilk,.. Variables discrètes : regrouper certaines modalités trop nombreuses ou avec des effectifs trop petits (poids trop grand)
15 Analyse exploratoire des données Créer des indicateurs pertinents d après les données brutes - prendre l avis des spécialistes du secteur étudié - exemple : date de naissance + date 1er achat âge du client au moment de son entrée en relation avec l entreprise Détecter les liaisons entre variables - entre variables explicatives et à expliquer (bon) - entre variables explicatives entre elles (multicolinéarité : mauvais dans certaines méthodes)
16 Analyse des données : Analyse factorielle
17 L analyse en composantes principales (ACP) On possède un tableau rectangulaire de mesure dont les colonnes sont des variables quantitatives (mensurations, taux, ) et dont les lignes représentent des individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années )
18 L analyse en composantes principales (ACP) Objectifs : extraire l essentiel de l information contenue dans le tableau de données et d en fournir une représentation se prêtant plus aisément à l interprétation. Principe de l ACP : - À partir de n variables initiales continues, construire m ( n) autres variables, appelées composantes principales, combinaisons linéaires des variables initiales, telles que : les CP sont ordonnées selon l information (variance) qu elles restituent, la 1ère étant celle qui restitue le plus d information les CP sont des vecteurs indépendants, c est-à-dire des variables non corrélées entre elles
19 Intérêt de l ACP Représentation assez fidèle des individus d une population en 2 ou 3 dimensions Localisation des grandes masses d individus Détection des individus exceptionnels et d éventuels groupes isolés d individus Détection des liaisons entre les variables Outil de réduction des dimensions d un problème - diminuer le nombre de variables étudiées sans perdre beaucoup d information - utile avant un réseau de neurones ou une classification
20 Obtention des composantes principales Les composantes principales : obtenues en exprimant les variables initiales selon de nouveaux axes, les axes principaux, qui sont les vecteurs propres de la matrice - des covariances si on a des données hétérogènes, avec des ordres de grandeur différents - des corrélations lorsque les unités de mesure ne sont pas les mêmes pour toutes les variables (Variables non centrées et réduits)
21 Etude de cas d un ACP Les données mesurent la consommation de protéines dans 25 pays européens par rapport à 9 groupes d aliments Variables : VR : viande rouge VB : viande blanche Strach : aliments à base de sucres lents (pâtes, riz, lentilles, pois chiche, pommes de terres,.)
22 Etude de cas d un ACP Deux critères empiriques pour sélectionner le nombre d axes : - Critère du coude : sur l évolution des valeurs propres, on observe un décrochement (coude) suivi d une décroissance régulière. On sélectionne les axes avant le décrochement - Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1 Conclusion : On retient 4 axes, qui représentent presque 86% de l inertie totale (on explique 86% de l information du tableau)
23 Construction des nuages de points projetés Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels : un plan factoriel est un repère du plan défini par deux des q axes factoriels retenus. L examen des plans factoriels permettra de visualiser les corrélations entre les variables et d identifier les groupes d individus ayant pris des valeurs proches sur certaines variables.
24 Construction des nuages de points projetés - Comment interpréter les axes factoriels? - Comment interpréter la proximité entre les points (individus et variables)?
25 Interprétation des axes Pour chaque axe retenu et chaque nuage, on regarde - Quelles sont les variables qui participent le plus à la formation de l axe (ce sont celles qui ont une grande coordonnée en valeur absolue sur l axe) - Quels sont les individus qui participent le plus à la formation de l axe. Outil de mesure : contributions des points (individus et variables) à l inertie de cet axe.
26 Interprétation des axes Contribution de l individu i à l inertie de l axe k : Pi : poids attribué à l individu i Cik : coordonnée de la projection orthogonale de l individu i sur l axe k Λk : valeur propre de l axe factoriel k En pratique: - On retient pour l interprétation les individus dont la contribution est > à la contribution moyenne (>1/n) - Si les individus à poids égaux, les individus contribuant :
27 Interprétation des axes Contribution de la variable j à l inertie de l axe factoriel k djk : coordonnée de la variable j sur l axe factoriel k En pratique: - On retient pour l interprétation les variables dont la contribution est > à la contribution moyenne (>1/p) - En ACP normée, ce sont les variables qui sont proches du bord Du cercle qui contribuent le plus
28 Interprétation des axes :synthèse L analyse se fera à l aide des individus et variables contribuant le plus à l axe : si une variable a une forte contribution positive à l axe, les individus ayant une forte contribution positive à l axe sont caractérisés par une valeur élevée de la variable. N.B. : une contribution trop importante d un des points à un axe doit être regardé avec prudence (~25% d inertie). Il faut l enlever s il est mal représenté.
29 Interprétation des axes :exemple Contribution des individus
30 Interprétation des axes :exemple Contribution des variables
31 Interprétation des axes :exemple Interprétation axe 1 : Conclusion : L axe 1 oppose les Balkans ayant une forte consommation de noix, graines et céréales aux pays qui comme l Irlande consomment plutôt des protéines animales.
32 Interprétation des axes :exemple Interprétation axe 2 : Conclusion : L axe 2 caractérise les pays Ibériques, consommant beaucoup de poisson.
33 Interprétation des axes :exemple Interprétation axe 3 : Conclusion : L axe 3 oppose la Hongrie, et plus généralement les pays d europe centrale, grands consommateur de viande blanche, aux pays qui n en consomment pas, comme certains pays Scandinaves et l albanie.
34 Interprétation des axes :exemple Interprétation axe 4 : Conclusion : L axe 4 caractérise les pays qui consomment beaucoup de viande rouge comme certains pays d europe de l ouest et méditerranéens.
35 Etude de proximité entre les points Une fois les axes interprétés, on peut regarder les graphiques et analyser plus finement les proximités entre points. Un point est dit bien représenté sur un axe ou un plan factoriel si il est proche de sa projection sur l axe ou le plan. S il est éloigné, on dit qu il est mal représenté. Indicateur =angle formé entre le point et sa projection sur l axe : au plus il est proche de 90 degrés, au moins le point est bien représenté
36 Etude de proximité entre les points Qualité de représentation de l individu i sur l axe k : Lorsque l angle est proche de 0, c'est-à-dire que l individu est bien représenté, le cosinus est proche de 1. Dans le cas inverse, l angle est proche de 90 et le cosinus est proche de 0.
37 Etude de proximité entre les points Qualité de représentation de la variable j sur l axe k: En ACP normée, une variable est d autant mieux représentée sur un axe qu elle est proche du bord du cercle des corrélations et de l axe, d autant plus mal représentée qu elle est proche de l origine. Remarque : En ACP normée, les variables qui contribuent le plus à l axe sont aussi celles qui sont le mieux représentées et inversement.
38 Etude de proximité entre les points La proximité dans l espace entre deux individus bien représentés traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables. Lorsque la qualité de représentation de deux individus est bonne, leur proximité observée retrace leur proximité réelle (dans l espace). La proximité entre deux variables sur un axe donne, si les deux variables sont bien représentées sur l axe ( proches de l axe et du Bord du cercle), une approximation de leur corrélation. Deux variables proches sont corrélées positivement Deux variables qui s opposent sont corrélées négativement Deux variables orthogonales sont non corrélées.
39 Qualité de représentation : exemple
40 Etude des points bien représentés Trois groupe de pays distincts se détachent quant à leurs habitudes de consommation : les pays ibériques, qui se caractérisent par une consommation élevée, les balkans ayant une importante consommation de graines et certains pays d europe du nord et de l ouest consommant de la viande des oeufs et du lait
41 Etude des points bien représentés Pour les pays consommant des protéines animales, La consommation de viande blanche réduit du sud au nord.
42 Limite de l ACP Principale faiblesse de l ACP: sensibilité aux points extrêmes. L'ACP est inadaptée aux phénomènes non linéaires.