Cours 4 : Traitement de données quantitatives multivariées - Introduction au partitionnement de données. Guénaël CABANES et Basarab MATEI

Transcription

1 Cours 4 : Traitement de données quantitatives multivariées - Introduction au partitionnement de données Guénaël CABANES et Basarab MATEI

2 Généralités Exemple Introduction Guénaël CABANES et Basarab MATEI 2

3 Généralités Introduction Généralités Exemple Le partitionnement de données (data clustering en anglais) est une méthode statistique d analyse des données qui a pour but de regrouper un ensemble de données en différents paquets homogènes, c est à dire que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité que l on définit en introduisant des mesures de distance. Guénaël CABANES et Basarab MATEI 3

4 Généralités Introduction Généralités Exemple Pour obtenir un bon partitionnement, il faut : Minimiser l inertie (la variance) intra-classe pour obtenir des classes (= groupes ou clusters) les plus homogènes possibles. Maximiser l inertie inter-classe afin d obtenir des groupes bien différenciés. Guénaël CABANES et Basarab MATEI 4

5 Exemple Introduction Généralités Exemple On veut découvrir automatiquement les groupes de données similaires : Guénaël CABANES et Basarab MATEI 5

6 Exemple Introduction Généralités Exemple On veut découvrir automatiquement les groupes de données similaires : Guénaël CABANES et Basarab MATEI 5

7 Problemes Mesure de performance Algorithme Effectif Guénaël CABANES et Basarab MATEI 6

8 Introduction Problemes Mesure de performance Algorithme Effectif La méthode des K-Moyennes est un cas particulier de la méthode des centres mobiles. L objectif principal de ces méthodes est de choisir un certain nombre de représentants (= centre ou prototypes) dans l espace des données. Chaque prototype représente un groupe. Ainsi à la fin du processus on associe chaque point de donnée à son prototype le plus proche, de faàon à obtenir une segmentation des données en différents groupes homogènes. Guénaël CABANES et Basarab MATEI 7

9 Problemes Mesure de performance Algorithme Effectif 1 Choisir k centres initiaux au hasard (par exemple parmi les données). 2 Affecter chaque donnée x au groupe i dont le centre Ci est le plus proche de x. 3 Si aucun élément ne change de groupe alors arràłt. 4 Sinon calculer les nouveaux centres : pour tout i, Ci est le centre de gravité (le barycentre) des éléments du groupe i. 5 Aller en 2. Guénaël CABANES et Basarab MATEI 8

10 Problemes Mesure de performance Algorithme Effectif Exemple : Guénaël CABANES et Basarab MATEI 9

19 Problemes Introduction Problemes Mesure de performance Algorithme Effectif Choix de la mesure de distance (métrique) Ce choix est très important, avec des mesures de distance différentes on obtient des résultats différents! Le plus souvent on utilise la distance euclidienne : n x i y i 2 i=1 avec n le nombre de variables. Guénaël CABANES et Basarab MATEI 10

20 Problemes Introduction Problemes Mesure de performance Algorithme Effectif Instabilité Le résultat final est fortement dépendant de l initialisation des centre. Pour remédier à àa on lance l algorithme plusieurs fois avec une initialisation aléatoire et on ne garde que le meilleur résultat. Choix du nombre de groupes Le nombre de groupes obtenu en sortie de l algorithme doit àłtre choisi par l utilisateur. Or en général il n est pas connu! On lance donc généralement l algorithme plusieurs fois avec des choix différents pour le nombre de groupes et on ne garde que le meilleur résultat. Guénaël CABANES et Basarab MATEI 11

21 Mesure de performance Problemes Mesure de performance Algorithme Effectif On a vu qu il est nécessaire de relancer l algorithme des K-Moyennes de nombreuses fois et de garder le meilleur résultat. Il nous faut donc une estimation de la qualité de la segmentation. Indice de Davies-Bouldin (DB) Soit s i la distance moyenne des données du groupe i à leur prototype c i, cet indice sélectionne la segmentation qui maximise la distance entre groupe et minimise la variance intra-groupe. C est un des plus utilisées. DB(K) = 1 K K i=1 max j i s i + s j dist(c i, c j ) Guénaël CABANES et Basarab MATEI 12

22 Algorithme Effectif Problemes Mesure de performance Algorithme Effectif 1 Choisir k entre 1 et k max. 2 Lancer 50 fois l algorithme élémentaire de K-Moyennes et garder la meilleure segmentation S k selon l indice DB. 3 Si toutes les valeurs de k ont été testé, retenir parmi les S k la meilleure segmentation S selon DB, sinon aller en 1. Guénaël CABANES et Basarab MATEI 13

23 Algorithme Problèmes Méthode Ascendante Hiérarchique Guénaël CABANES et Basarab MATEI 14

24 Introduction Algorithme Problèmes Créer à chaque étape une partition obtenue en agrégeant 2 à 2 les éléments les plus proches (élément = donnée ou groupe de données). L algorithme fournit une hiérarchie de partitions : arbre contenant l historique de la classification et permettant de retrouver n-1 partitions. Nécessité de se munir d une métrique (distance euclidienne,...). Nécessité de fixer une règle pour agréger une donnée ou un groupe de donnée avec un autre groupe : le critère d agrégation. Guénaël CABANES et Basarab MATEI 15

25 Algorithme Introduction Algorithme Problèmes 1 Calculer la matrice de distance entre les n éléments et regrouper les 2 éléments les plus proches. 2 Si toutes les données ne sont pas regroupées en un seul groupe, retourner en 1. 3 Sinon construire le dendrogramme (arbre hiérarchique) et utiliser un critère de qualité (Davies-Bouldin,...) pour choisir la coupure la plus pertinente. 4 En déduire une segmentation des données. Guénaël CABANES et Basarab MATEI 16

26 Algorithme Introduction Algorithme Problèmes Exemple : Guénaël CABANES et Basarab MATEI 17

32 Problèmes Introduction Algorithme Problèmes Choix de la règle d agrégation Ce choix est très important, avec des règles différentes on obtient des résultats différents! Il existe de nombreuses règles possibles : Distance entre les barycentres des deux éléments. Distance entre les deux données les plus proches des deux éléments. Distance entre les deux données les plus éloignées des deux éléments. Distance moyenne entre une données d un élément et une donnée de l autre élément. Guénaël CABANES et Basarab MATEI 18

33 Introduction Ce sont des algorithmes d apprentissage initialement construits pour la classification binaire. L idée est de rechercher une règle de décision basée sur une séparation par hyperplan de marge optimale. Le principe de l algorithme est d intégrer lors de la phase d apprentissage une estimation de sa complexité pour limiter le phénomène d over-fitting. Méthode qui ne substitue pas au problème déjà compliqué de la classification un problème encore plus complexe comme l estimation d une densité de probabilités (par exemple). Guénaël CABANES et Basarab MATEI 19

34 de l algorithme L algorithme se base principalement sur 3 astuces pour obtenir de très bonnes performances tant en qualité de prédiction qu en complexité de calcul. On cherche l hyperplan comme solution d un problème d optimisation sous-contraintes. La fonction à optimiser intègre un terme de qualité de prédiction et un terme de complexité du modèle. Le passage à la recherche de surfaces séparatrices non linéaires est introduit en utilisant un noyau kernel qui code une transformation non linéaire des données. Numériquement, toutes les équations s obtiennent en fonction de certains produits scalaires utilisant le noyau et certains points de la base de données (ce sont les vecteurs support ). Guénaël CABANES et Basarab MATEI 20

35 Utilisations récentes Dans tout type de problème de classification à deux classes : Classification d images : reconnaissance de visages Interprétation textuelle : détection de Spam Aide au diagnostic biologique De nouveaux centres d intérêts se développent actuellement : Utilisation comme outil de sélection de variables Sparse SVM : modèles parcimonieux pour la classification Contraintes : A priori, capable d utiliser un grand nombre de variables puisque l astuce du noyau envoie le problème dans l espace des individus. Plus il y a d individus dans la base de données et meilleure est la prédiction, mais plus les calculs sont longs... Guénaël CABANES et Basarab MATEI 21

36 Problème On cherche à prédire Y (à valeurs dans { 1, +1}) en fonction de variables explicatives X 1,...X p. Chercher le modèle ˆϕ tel que P(ˆϕ(X) Y) minimale. Guénaël CABANES et Basarab MATEI 22

37 On cherche Guénaël CABANES en plus et Basarab un MATEI modèle23qui maximise la marge de Introduction Pénalisation On va chercher un modèle pénalisé par sa faculté d adaptation aux données Comparer par exemple ceci avec la séparation précédente :

38 Notion de marge Plutôt que d estimer ϕ comme fonction à valeurs dans { 1, 1}, on cherche f telle que ϕ = sgn(f). L erreur de la méthode est alors P(ϕ(X) Y) = P(Y f(x) < 0) On définit alors la quantité Y f(x) comme la marge de f en (X, Y). C est un indice de confiance sur la prédiction. Guénaël CABANES et Basarab MATEI 24

39 Hyperplan séparateur - Mise en équation Dans le cas o la séparation est possible, on choisit celui qui obtient la marge optimale. L hyperplan a une équation de la forme : f(x) =< w, b > +b = 0 où w est orthogonal au plan Un point est bien classé si et seulement si f(x) y > 0 Le jeu de données étant fini, on peut imposer y f(x) 1 La distance entre un point x et l hyperplan H est donnée par d(x, H) = < w, x > +b w = < w, x > +b w Guénaël CABANES et Basarab MATEI 25

40 Recherche de l hyperplan optimal La recherche de l hyperplan optimal revient à trouver w La marge devant être maximale, on cherche w à minimiser min 1 2 w 2 sous les contraintes b t.q. i, < w, x i > +b 1 Ce problème d optimisation est résolu par la méthode primal/dual et la solution s écrit sous la forme n f(x) = λ i y i < x, x i > +b i=1 Ce qu il faut retenir : L équation n utilise que des produits scalaires entre x et x i La résolution est quadratique en n = le nombre d individus La plupart des λ i sont nuls, sauf pour certaines observations, ces observations sont alors les vecteurs support Guénaël CABANES et Basarab MATEI 26

41 Les valeurs aberrantes : Une valeur aberrante est une valeur erronée correspondant à une mauvaise mesure, une erreur de calcul, une erreur de saisie ou une fausse déclaration. Exemples : Dates incohérentes : le 29 février d une année non bissextile, les dates de souscription antérieures à la date de naissance du client Codes sexe prenant plus de deux valeurs différentes Numéros de téléphone avec un nombre de chiffres incorrect Guénaël CABANES et Basarab MATEI 27

42 Les valeurs aberrantes, solutions : Supprimer les observations concernées, si leur nombre n est pas trop élevé et leur distribution suffisamment aléatoire Conserver les observations, en tolérant une petite marge d erreur dans les résultats des modèles Conserver les observations, mais remplacer la valeur aberrante par une autre valeur qui est la plus proche de sa valeur véritable (moyenne...) Conserver les observations mes écarter les variables de la suite de l analyse si elle n est pas jugée vitale Guénaël CABANES et Basarab MATEI 28

43 Les valeurs manquantes : Les valeurs manquantes apparaissent le plus souvent dans les variables déclaratives dont la saisie était facultative est n a pas était faite (ex : les réponses aux enquàłtes). La plupart des méthodes statistiques ne peuvent pas manipuler les données manquantes et les observations correspondantes doivent àłtre laissées de càté Il faut vérifier si les valeurs ne sont pas manquantes aux hasard et s il existe des différences systématiques entre les observations complètes et incomplètes Guénaël CABANES et Basarab MATEI 29

44 Les valeurs manquantes, solutions : Remplacer la valeur manquante par la valeur la plus fréquente (variables qualitatives) ou la moyenne ou la médiane (variables numériques) Ne pas utiliser la variable concernée, si sa contribution à l analyse du problème ne paraàt pas essentielle Traiter la valeur manquante comme une valeur à part entière, contenant une certaine information (ajouter la classe valeurs manquantes) Guénaël CABANES et Basarab MATEI 30

45 Guénaël CABANES et Basarab MATEI 31

46 Introduction Il existe de très nombreuses méthodes de segmentation des données. Les résultats obtenus dépendent : De l algorithme utilisé (K-Moyennes, Méthodes Ascendantes selon la règle d agrégation, MVS,...). De la métrique (distance Euclidienne, distance de Manhattan, distance de Minkowski,...). De l indice de performance (Davies-Bouldin, Calinski-Harabatz, Silhouette,...). Cependant plus les groupes sont compacts et bien séparés, plus les différentes méthodes aurons tendance à donner les màłmes résultats. Guénaël CABANES et Basarab MATEI 32