Analyse de Données ID Classification Hiérarchique Ascendante

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La classification automatique de données quantitatives

Introduction au Data-Mining

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Programmation linéaire

Introduction au Data-Mining

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Apprentissage Automatique

Séance 11 : Typologies

Classification non supervisée

Programmation linéaire

MABioVis. Bio-informatique et la

Calcul intégral élémentaire en plusieurs variables

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Intégration de la dimension sémantique dans les réseaux sociaux

Plus courts chemins, programmation dynamique

3. Caractéristiques et fonctions d une v.a.

Exercice : la frontière des portefeuilles optimaux sans actif certain

1 - PRESENTATION GENERALE...

Arbres binaires de décision

Cours de Master Recherche

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistiques Descriptives à une dimension

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Introduction au datamining

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Négociateur Technico - Commercial

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 3. Les distributions à deux variables

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Analyse en Composantes Principales

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Cours de méthodes de scoring

Intégration et probabilités TD1 Espaces mesurés Corrigé

Sub CalculAnnuite() Const TITRE As String = "Calcul d'annuité de remboursement d'un emprunt"

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Programmation Linéaire - Cours 1

Cours d Analyse. Fonctions de plusieurs variables

Quantification Scalaire et Prédictive

ACP Voitures 1- Méthode

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Cours d algorithmique pour la classe de 2nde

Chapitre 5 : Flot maximal dans un graphe

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Système formé de deux points

ELEC2753 Electrotechnique examen du 11/06/2012

Surmonter les 5 défis opérationnels du Big Data

Analyse de la variance Comparaison de plusieurs moyennes

Agrégation des portefeuilles de contrats d assurance vie

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

données en connaissance et en actions?

Monitoring d un Datacenter du concept à la réalisation

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

TSTI 2D CH X : Exemples de lois à densité 1

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

Amphi 3: Espaces complets - Applications linéaires continues

Partie 1. La structure des réseaux sociaux

LE MARKETING DIRECT SRC1 2012

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Statistique : Résumé de cours et méthodes

Gestion des Clés Publiques (PKI)

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Pourquoi l apprentissage?

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Système de sécurité de périmètre INTREPID

Application de K-means à la définition du nombre de VM optimal dans un cloud

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Programmes des classes préparatoires aux Grandes Ecoles

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

I. Polynômes de Tchebychev

Résolution de systèmes linéaires par des méthodes directes

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Introduction à l approche bootstrap

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Vers une Optimisation de l Algorithme AntTreeStoch

Annexe commune aux séries ES, L et S : boîtes et quantiles

Cours d introduction à la théorie de la détection

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

REVUE DE STATISTIQUE APPLIQUÉE

Transcription:

Analyse de Données ID Classification Hiérarchique Ascendante Philippe LERAY philippe.leray@univ-nantes.fr Equipe COnnaissances et Décision Laboratoire d Informatique de Nantes Atlantique FRE 2729 Site de l Ecole Polytechnique de l université de Nantes

Introduction Objectif = structuration des données Clustering (en anglais) = Classification (en français) On cherche à regrouper les points proches en classes... Les classes peuvent être assez bien définies Philippe Leray AD - ID CHA 2/23

Introduction Les classes peuvent aussi être assez imbriquées, avoir des formes bizarres, ou pire Philippe Leray AD - ID CHA 3/23

Applications Forme Cluster Text Mining 1 Texte Textes proches 1 Mail dossiers automatiques Bioinformatique 1 gène gènes ressemblants Marketing {infos client, produits achetés} segmentation de la clientèle Web log analysis Clickstream utilisateurs types... Philippe Leray AD - ID CHA 4/23

Plan Points abordés Généralités Clustering hiérarchique Clustering par partitionnement Mais il existe d autres familles de méthodes Clustering par modélisation Clustering basé sur la densité Clustering par grille Philippe Leray AD - ID CHA 5/23

Plan Points abordés Généralités Notion de proximité Qualité d une partition Clustering hiérarchique Clustering par partitionnement Philippe Leray AD - ID CHA 6/23

Notion de proximité Vocabulaire Mesure de dissimilarité DM : plus la mesure est faible plus les points sont similaires ( distance) Mesure de similarité SM : plus la mesure est grande, plus les points sont similaires DM = borne SM Philippe Leray AD - ID CHA 7/23

Notion de proximité Comment mesurer la distance entre 2 points? d(x 1, x 2 ) distance euclidienne : d 2 (x 1, x 2 ) = i (x 1 i x 2i ) 2 = (x 1 x 2 )(x 1 x 2 ) distance de Manhattan : d(x 1, x 2 ) = i x 1 i x 2i distance de Sebestyen : d 2 (x 1, x 2 ) = (x 1 x 2 )W (x 1 x 2 ) (W = matrice diagonale de pondération) distance de Mahalanobis : d 2 (x 1, x 2 ) = (x 1 x 2 )C 1 (x 1 x 2 ) (V =covariance) Philippe Leray AD - ID CHA 8/23

Notion de proximité Et si x 1 et x 2 sont à valeurs discrètes? On peut les répresenter dans une matrice de contingence A(x 1, x 2 ) = [a ij ] x 1 = [0, 1, 2, 1, 2, 1] et x 1 = [1, 0, 2, 1, 0, 1] A(x 1, x 2 ) = [0 1 0 ; 1 2 0; 1 0 1] distance de Hamming nombre de places où les 2 vecteurs diffèrent: d(x 1, x 2 ) = j=k 1 i=0 j=k 1 j=0,j i a ij Philippe Leray AD - ID CHA 9/23

Notion de proximité Comment mesurer la distance entre 2 classes D(C 1, C 2 ) plus proche voisin : min(d(i, j), i C 1, j C 2 ) diamètre maximum : max(d(i, j), i C 1, j C 2 ) distance moyenne : i,j d(i,j) n 1 n 2 distance des centres de gravité : d(µ 1, µ 2 ) distance de Ward : n1 n 2 n 1 +n 2 d(µ 1, µ 2 )... Philippe Leray AD - ID CHA 10/23

Bonne partition Comment savoir si un regroupement est correct inertie (intra) d un cluster = variance des points d un même cluster J w = d 2 (x i, µ g ) g i C g inertie (inter) = variance des centres des clusters J b = c N g d 2 (µ g, x) il faut minimiser l inertie intra-cluster et maximiser l inertie inter-cluster Philippe Leray AD - ID CHA 11/23

Bonne partition Illustration (Bisson 2001) C 1 g 1 C 3 g 3 C 2 g g 2 g g 4 C 4 Inertie totale des points = Inertie Intra + Inter Philippe Leray AD - ID CHA 12/23

Bonne partition Illustration (Bisson 2001) Forte inertie inter-classes Faible inertie intra-classes Faible inertie inter-classes Forte inertie intra-classes g 3 g 1 g 2 g 4 Philippe Leray AD - ID CHA 13/23

Plan Points abordés Généralités Clustering hiérarchique : Classification Hiérarchique Ascendante BIRCH, CURE, Chameleon,... Clustering par partitionnement Philippe Leray AD - ID CHA 14/23

Principe Chaque point ou cluster est progressivement absorbé par le cluster le plus proche Algorithme Initialisation : Chaque individu est placé dans son propre cluster, Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points) Répéter Sélection dans M des deux clusters les plus proches C I et C J Fusion de C I et C J par un cluster C G plus général Mise à jour de M en calculant la ressemblance entre C G et les clusters existants Jusqu à la fusion des 2 derniers clusters Philippe Leray AD - ID CHA 15/23

Exemple (Bisson 2001) Hiérarchie (indicée) i C 10 C8 C5 C10 C 9 C2 C4 C 8 C 6 C 5 C C 4 3 C 2 C 7 C 1 C6 C3 C9 C1 C7 Dendogramme représentation des fusions successives hauteur d un cluster dans le dendrogramme = similarité entre les 2 clusters avant fusion (sauf exception avec certaines mesures de similarité)... Philippe Leray AD - ID CHA 16/23

Métrique Saut minimal (single linkage) tendance à produire des classes générales (par effet de chaînage) sensibilité aux individus bruités. Saut maximal (complete linkage) tendance à produire des classes spécifiques (on ne regroupe que des classes très proches) sensibilité aux individus bruités. Saut moyen tendance à produire des classes de variance proche Barycentre bonne résistance au bruit Philippe Leray AD - ID CHA 17/23

Exemple (Bisson 2001) Données (métrique : dist. Eucl.) Saut minimal Saut maximal 4 3 C D 1,1 i 4,0 i E 2 B 1 A F 0,9 0,7 2,8 1,7 0 0 1 2 3 4 0,5 F E A B C D 0,5 C D A B E F pas les mêmes résultats selon la métrique utilisée... Philippe Leray AD - ID CHA 18/23

Exemple 2 Données 26 individus Données = 5 valeurs 0/1 (inscriptions dans 5 matières optionnelles) Est-on capable de faire ressortir des groupes d affinité? Philippe Leray AD - ID CHA 19/23

Exemple 2 : saut minimal BARO CAST CORD BONV PESQ BOIT TRAO WAAG CHAM LEDI BOND SPER GREM CAMP PERS WEYC CAPR FOUR GESL JEAN LEHO HAUT OHAN RABA RABI ZEHN Pas moyen de faire de sous-groupes, tout le monde est à une distance de 0 ou 1 des autres clusters. Philippe Leray AD - ID CHA 20/23

Exemple 2 : saut maximal BARO CAST CORD GREM RABI ZEHN CAMP PERS WEYC CAPR FOUR GESL JEAN LEHO BOIT TRAO WAAG BONV PESQ HAUT OHAN RABA BOND SPER CHAM LEDI En changeant de métrique, on observe davantage de sous-regroupements Philippe Leray AD - ID CHA 21/23

Exemple 2 : saut maximal vive la vision rpmbuild ba kernel*.spec J aime bien le traitement de l information BARO CAST CORD GREM RABI ZEHN CAMP PERS WEYC CAPR FOUR GESL JEAN LEHO BOIT TRAO WAAG BONV PESQ HAUT OHAN RABA BOND SPER CHAM LEDI Pour construire les clusters, on coupe l arbre à la hauteur voulue, i.e. une distance seuil entre les clusters Philippe Leray AD - ID CHA 22/23

Complexité Classification Hierarchique Ascendante : O(n 3 ) Certaines variantes de CHA CURE : O(n 2 ) en petite dim., O(n 2 + nm log n) sinon (en commençant avec m clusters) CHAMELEON : graphe k-ppv : O(n log n) en petite dim. sinon O(n 2 ) clustering : O(nm + n log n + m 2 log m) Philippe Leray AD - ID CHA 23/23