Apprentissage non supervisé

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La classification automatique de données quantitatives

Algorithmes d'apprentissage

Pourquoi l apprentissage?

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Chapitre 1 : Introduction aux bases de données

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Introduction au Data-Mining

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Algorithmique avec Algobox

OPTIMISATION À UNE VARIABLE

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Apprentissage Automatique

Introduction au Data-Mining

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Méthodes de développement. Analyse des exigences (spécification)

Algorithmes de recherche

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

L apprentissage automatique

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

CH.6 Propriétés des langages non contextuels

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

Initiation à LabView : Les exemples d applications :

Les algorithmes de fouille de données

Présentation de GnuCash

Classification non supervisée

Stratégie de groupe dans Active Directory

2. Activités et Modèles de développement en Génie Logiciel

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Quantification Scalaire et Prédictive

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Algorithmique avec Algobox

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Les pôles commerciaux et leurs magasins

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Fonction 2 : Conseil et relation annonceur

CHAPITRE 5. Stratégies Mixtes

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Détection et suivi d'objets dans une séquence d'images par contours actifs

Guide de configuration de SQL Server pour BusinessObjects Planning

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

IFT1215 Introduction aux systèmes informatiques

Arbres binaires de décision

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Cours Informatique Master STEP

PARAGON Disk Wiper. Guide de l utilisateur. Paragon Technology GmbH, System Programmierung. Copyright Paragon Technology GmbH

Programmation linéaire

Chp. 4. Minimisation d une fonction d une variable

Octroi de crédit : la minimisation des risques de défaillance n'a pas le dernier mot

que devez vous savoir avant le 26/09/2015?

Technique de compression des images médicales 4D

Application 1- VBA : Test de comportements d'investissements

Vers une Optimisation de l Algorithme AntTreeStoch

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

chapitre 4 Nombres de Catalan

Recherche dans un tableau

ITIL Gestion de la capacité

Projet de Traitement du Signal Segmentation d images SAR

1 - PRESENTATION GENERALE...

Optimisation, traitement d image et éclipse de Soleil

Examen Médian - 1 heure 30

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

LE PROBLEME DU PLUS COURT CHEMIN

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

CAPTEURS - CHAINES DE MESURES

POLITIQUE SUR LA SÉCURITÉ LASER

INTERNE SETRI. NOTE D'INFORMATIONS - Réaliser une sauvegarde d'un système avec EASEUS To Do Backup v4 et +

ITIL V2. La gestion des incidents

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Dossier d'étude technique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Seance 2: En respectant la méthode de programmation par contrat, implémentez les autres fonctions de jeu.

SYSTÈME DE GESTION DE FICHIERS

données en connaissance et en actions?

Séance 11 : Typologies

Introduction : présentation de la Business Intelligence

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

1.6- Génération de nombres aléatoires

Intérêt du découpage en sous-bandes pour l analyse spectrale

TEXT MINING von 7

Programmation Objet - Cours II

Transcription:

Apprentissage non supervisé Françoise Fessant TECH/SUSI 28/09/2006

Introduction (1) Apprentissage non supervisé Consiste à inférer des connaissances sur les données Sur la seule base des échantillons d'apprentissage, Pas de cible, recherche de structures naturelles dans les données Différentes tâches sont associées à l'apprentissage non supervisé Clustering (segmentation, regroupement) : construire des classes automatiquement en fonction des exemples disponibles L'apprentissage non supervisé est très souvent synonyme de clustering Règles d'association : analyser les relations entre les variables ou détecter des associations Réduction de dimensions p2

Introduction (1) Apprentissage non supervisé Consiste à inférer des connaissances sur les données Sur la seule base des échantillons d'apprentissage, Pas de cible, recherche de structures naturelles dans les données Différentes tâches sont associées à l'apprentissage non supervisé Clustering (segmentation, regroupement) : construire des classes automatiquement en fonction des exemples disponibles L'apprentissage non supervisé est très souvent synonyme de clustering Règles d'association : analyser les relations entre les variables ou détecter des associations Réduction de dimensions p3

Introduction (2) Quelques bonnes raisons de s'intéresser à l'apprentissage non supervisé Profusion d'enregistrements et de variables Constituer des échantillons d'apprentissage étiquetés peut être très couteux Découvertes sur la structure et la nature des données à travers l'analyse exploratoire Utile pour l'étude de caractéristiques pertinentes Prétraitement avant l'application d'une autre technique de fouille de données On obtient des modèles descriptifs qui permettent mieux connaître ses données, de découvrir des informations cachées dans la masse des données p4

Clustering Les techniques de clustering cherchent à décomposer un ensemble d'individus en plusieurs sous ensembles les plus homogènes possibles On ne connaît pas la classe des exemples (nombre, forme, taille) Les méthodes sont très nombreuses, typologies généralement employées pour les distinguer Méthodes de partitionnement / Méthodes hiérarchiques Avec recouvrement / sans recouvrement Autre : incrémental / non incrémental D'éventuelles informations sur les classes ou d'autres informations sur les données n'ont pas d'influence sur la formation des clusters, seulement sur leur interprétation p5

Clustering Les techniques de clustering cherchent à décomposer un ensemble d'individus en plusieurs sous ensembles les plus homogènes possibles On ne connaît pas la classe des exemples (nombre, forme, taille) Les méthodes sont très nombreuses, typologies généralement employées pour les distinguer Méthodes de partitionnement / Méthodes hiérarchiques Avec recouvrement / sans recouvrement Autre : incrémental / non incrémental D'éventuelles informations sur les classes ou d'autres informations sur les données n'ont pas d'influence sur la formation des clusters, seulement sur leur interprétation p6

Similarité On cherche à maximiser la similarité intra-classe et à minimiser la similarité inter-classe Le point clé est le critère de similarité (fonction de distance) La notion de similarité est fonction du type des données Variables définies sur une échelle d'intervalles, binaire, nominale, ordinale, Exemples de distances Distance euclidienne pour les variables continues d( x, y) = Coefficient de concordance pour les variables binaires À partir de la table de contingence des variables n i = 1 ( x i y i ) 2 y 1 0 x 1 0 a b c d d( x, y) = a + b + b + c c + d Et bien d'autres mesures possibles p7

La méthode de clustering "idéale" (1) Prise en compte de données de différents types : symbolique, numérique, matrice de similarité, données mixtes Comment comparer des objets caractérisés à la fois par des attributs numériques et symboliques Formes arbitraire des clusters De nombreuses méthodes favorisent la découverte de formes sphériques Minimisation du nombre de paramètres à fixer Avec certaines méthodes, il est nécessaire de préciser le nombre de classes recherchées Insensibilité à l'ordre de présentation des exemples Certaines méthodes ne génèrent pas les mêmes classes si l'ordre de parcours des données est modifié p8

La méthode de clustering "idéale" (2) Résistance au bruit et aux anomalies La recherche des points isolés (outliers) est un sujet de recherche en soi Problème en grande dimensions Certaines méthodes ne sont applicables que si les objets ou individus sont décrits sur deux ou trois dimensions Construction et interprétation de clusters en grande dimension Passage à l'échelle Certaines méthodes ne sont pas applicables sur de gros volumes de données Interprétation et utilisation des résultats Les utilisateurs doivent pouvoir donner un sens aux classes découvertes Comment un utilisateur peut il influencer un processus de catégorisation en introduisant des contraintes p9

Méthodes de partitionnement Construire une partition en classes d'un ensemble d'objets ou d'individus Principe Création d'une partition initiale de K classes, Puis itération d'un processus qui optimise le partitionnement en déplaçant les objets d'une classe à l'autre Solutions Méthode exacte Par évaluation de toutes les partitions possibles Méthodes approchées/heuristiques K-moyennes (centres mobiles) : une classe est représentée par son centre de gravité K-medoids : une classe est représentée par son élément le plus représentatif p10

K-moyennes (1) Principe Une classe est représentée par son centre de gravité, Un objet appartient à la classe dont le centre de gravité lui est le plus proche Algorithme Fixer le nombre de classes a priori K Initialiser aléatoirement les centres (K individus tirés au hasard comme représentants des classes) Affecter chaque observation à la classe qui minimise la distance entre le centre et l'observation (centre le plus proche) Recalculer les nouveaux vecteurs centres (la moyenne) Itérer l'opération jusqu'à la stabilité Le critère de similarité est l'erreur quadratique entre un exemple et son centre C'est un algorithme très utilisé p11

K-moyennes (2) Choix des centres initiaux au hasard Affectation des classes Recalcul des centres Réaffectation des classes p12

K-moyennes (3) Points forts Simple à implémenter et à comprendre Passage à l'échelle Complexité en O(T.K.N) où T est le nombre d'itérations et N le nombre d'exemples En général K et T sont nettement inférieurs à N Difficultés Nécessite de spécifier le nombre de classes à l'avance Utilisable seulement quand la notion de moyenne existe (donc pas sur des données nominales) L'algorithme peut rester bloqué sur un optimum local Sensible au bruit et aux anomalies Sensibilité aux conditions d'initialisation (on n'obtiendra pas forcément les mêmes classes avec des partitionnements initiaux différents) Ne permet pas de définir des classes aux formes non convexes p13

K-moyennes, variantes K-medoids Même principe que les K-moyennes, on utilise à la place de la moyenne le medoid Un medoid est l'objet le plus central dans la classe moins sensible au bruit et aux points isolés, mais plus couteux en calculs Algorithme PAM (Partitioning around medoids) CLARA (Clustering Large Applications), adapté aux grands ensembles d'apprentissage Version floue de l'algorithme des K-moyennes Recouvrement possible des classes Clustering à base de modèle en utilisant les mixtures de gaussiennes La valeur de K correspond au nombre de composantes de la mixture Apprentissage avec l'algorithme EM : un objet est affecté à une classe selon un poids qui représente sa probabilité d'appartenance à la classe Autorise des formes plus flexibles pour les clusters p14

Méthodes hiérarchiques (1) Les clusters sont organisés sous la forme d'une structure d'arbre Deux familles d'approches hiérarchiques Approche ascendante (ou agglomération) Commence avec un objet dans chaque classe, Puis fusionne successivement les 2 classes les plus proches S'arrête quand il n'y a plus qu'une classe contenant tous les exemples Approche descendante (ou par division) Tous les objets sont initialement dans la même classe Puis division de la classe en sous classes jusqu'à ce qu'il y ait suffisamment de niveaux ou que les classes ne contiennent plus qu'un seul exemple Le nombre de clusters n'a pas à être prédéfini p15

Méthodes hiérarchiques (2) Choix d'un critère de distance entre les clusters et d'une stratégie pour l'agrégation/la division Les mesures de distance sont nombreuses Lien simple : distance des deux objets les plus proches des clusters, Tendance à former des chaines Lien complet : distance des deux objets les plus éloignés dans les deux clusters, Bonne méthode pour les grappes, mais sensible aux anomalies Lien des moyennes : la distance entre deux objets est donnée par la distance des centres Faible résistance aux anomalies Lien moyen: distance moyenne de toutes les distances entre un membre d'un cluster et un membre de l'autre Plus difficile à calculer p16

Méthodes hiérarchiques (4) Complexité Tous les algorithmes sont au moins en O(N 2 ) avec N le nombre d'exemples Le résultat de la classification hiérarchique est un arbre de classes représentant les relations d'inclusion entre classes (dendrogramme) Une classification particulière s'obtient en coupant l'arbre des classes à un niveau donné. dendrogramme F G D E 3 classes A C B similarité A B C D E F G p17

Méthodes hiérarchiques (5) Intérêt Facile à implémenter Fournit une structure (préférable pour une analyse détaillée qu'une méthode de partitionnement) Difficultés Passage à l'échelle difficile Complexité en O(N 2 ) Pas de remise en question possible des divisions ou agglomérations Deux classes agglomérées à un niveau ne peuvent pas être séparées à un autre niveau Recherches en cours Intégration des méthodes hiérarchiques avec d'autres méthodes BIRCH (1996) : basée sur la représentation d'une classe par ses traits caractéristiques CHAMELEON (1999) : basée sur la théorie des graphes et une représentation plus riche des données p18

Méthodes à base de densité Principe de base Utilisation de la densité à la place de la distance Les clusters sont des régions de l'espace qui ont une grande densité de points Un point est dense si le nombre de ses voisins dépasse un certain seuil Un point est voisin d'un autre point s'il est à une distance inférieure à une valeur fixée Caractéristiques des méthodes Découvre des classes de formes quelconques Peu sensible à la présence de bruit ou de points isolés Nécessite seulement un parcours des données Ne nécessite pas de prédéfinir un nombre de classes Différents algorithmes DBSCAN (1996), OPTICS (1999), DENCLUE (1998), CLIQUE (1998) p19

Méthodes à base de grille Principe Méthode basée sur le découpage de l'espace des exemples suivant une grille Après initialisation, toutes les opérations de clustering sont réalisées sur les cellules, plutôt que sur les données Construction des classes en assemblant les cellules voisines en terme de distance Différents algorithmes STING (a STatistical Information Grid approach (1997) WaveCluster (utilise la notion d'ondelettes) (1998) p20

Conclusion sur le clustering (1) Les méthodes sont nombreuses Toutes sont basées sur une mesure de distance ou similarité entre classes Différentes classes de méthodes Partitionnement, hiérarchique, Choix du meilleur algorithme? Chaque algorithme a ses limites et fonctionne pour un certain type de données La qualité du résultat de clustering dépend des connaissances apriori de l'utilisateur, de l'algorithme, de la fonction de distance, de l'application p21

Conclusion sur le clustering (2) Évaluation d'un résultat de clustering La qualité d'un clustering est difficile à évaluer : les "bons clusters" ne sont pas connus Critères d'évaluation Jugement d'un expert ou évaluation par un utilisateur Utiliser des données étiquetées si elles existent Comparaison avec une segmentation de référence Autres critères : indices divers reposant généralement sur des rapports de distances intra / extra clusters Recherches en cours Passage à l'échelle pour traiter de gros volumes de données Prise en compte de contraintes ou connaissances a priori sur les données pour optimiser la construction des classes Méthodes interactives permettant de prendre en compte les besoins des utilisateurs p22

Découverte de règles d'association (1) Identifier les items qui apparaissent souvent ensemble lors d'un évènement (découverte des corrélations entre attributs) Règles : Implications du type si X alors Y ou (X->Y) Exemple analyse des ventes : produits fréquemment achetés ensemble {pain, beurre} -> {lait} Les attributs à inclure dans la relation sont inconnus Deux critères d'évaluation : support et confiance Support (fréquence) : % d'observations qui contiennent tous les éléments de la règle caddie 1 2 n liste des items achetés {pain, beurre, lait} {pain, viande} {fruit, poisson,pain} Sur 100 30 contiennent à la fois Support = 30 p23

Découverte de règles d'association (2) Deux critères d'évaluation : support et confiance Confiance (précision/fiabilité) : % d'observations présentant Y sachant qu'ils ont X Sur les 100 33 contiennent parmi ceux-ci 30 contiennent Confiance = 90 Deux mesures d'intérêt dont le niveau est défini par l'utilisateur Seules les règles qui ont un certains support et une certaine valeur de confiance sont intéressantes La plupart des approches utilisent des algorithmes basés sur le principe de la détection des ensembles d'items fréquents p24

Algorithmes (1) Algorithme fondateur : APriori (1994), se décompose en 2 étapes Recherche des sous ensembles fréquents (support) Un ensemble fréquent est un ensemble d'items dont la fréquence d'apparition dépasse un certain seuil Recherche des règles d'association (confiance) à partir des sous ensembles retenus Etape1 3 transactions n items 1 A, B, C 2 A, B, D 3 B, D, E Etape2 Taille 1 itemset A B C D E support 2 3 1 2 1 règles A -> B B -> A B-> D D->B Taille 2 support itemset A,B 2 A,D 1 B,D 2 confiance 2/2=100% 2/3=66% 2/3=66% 2/2=100% itemset A,B,D Taille 3 support 1 Critères : support >40% et Confiance > 70% p25

Algorithmes (2) A Priori très simple, mais des limites Le nombre de lectures de la base est important : on commence par lister tous les ensembles de 1 items fréquents, puis tous les ensembles de 2-items fréquents, Problèmes de mémoire : c'est couteux de générer des ensembles d'items avec beaucoup d'items Améliorations : différentes optimisations proposées Génération plus efficace des règles à partir des ensembles d'items Optimisation de la recherche des sous ensembles fréquents FPTree (2004) : détermine les ensembles fréquents sans générer les candidats Représentation condensée de la base sous la forme d'un arbre p26

Algorithmes (3) Différents indices permettent de mesurer la pertinence d'une règle Mesures objectives Support et confiance Mesures subjectives Une règle est intéressante si elle est inattendue et/ou actionnable (si l'utilisateur peut faire quelque chose avec) Le choix d'un indice dépend des points à mettre en évidence et des données P( A Exemple du lift (ou amélioration/ intérêt) : lift( A C) = Extensions Les transactions contenant A et C sont elles plus nombreuses que si l'achat de A et l'achat de C étaient indépendants C) P( A) P( C) Transactions séquentielles Quels sont les produits fréquemment achetés ensembles et successivement? p27

Conclusion L'apprentissage non supervisé permet d'inférer des connaissances à partir d'échantillons non étiquetés C'est très utile en pratique Il existe de nombreuses méthodes et il n'y en a pas une meilleure que les autres On choisit la méthode en fonction Du problème et de ses a priori Des données (continues, incomplètes, manquantes, volumineuses, denses) De la tâche à réaliser Du temps de calcul dont on dispose De quoi n'a-t-on pas parlé? Clustering flou, clustering spectral, clustering basé sur les graphes, co-clustering p28