Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique



Documents pareils
Arbres binaires de décision

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Arbres de Décision. 1 Introduction

Fast and furious decision tree induction

Introduction au Data-Mining

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Pourquoi l apprentissage?

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Travaux pratiques avec RapidMiner

Algorithmes d'apprentissage

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

données en connaissance et en actions?

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction au datamining

La classification automatique de données quantitatives

Introduction au Data-Mining

SERIE 1 Statistique descriptive - Graphiques

Chapitre 6 La lumière des étoiles Physique

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Méthodes d apprentissage statistique «Machine Learning»

Big Data et Graphes : Quelques pistes de recherche

Chaînes de Markov au lycée

Formats d images. 1 Introduction

I. Cas de l équiprobabilité

Probabilités conditionnelles Exercices corrigés

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Opérations de base sur ImageJ

Probabilités. C. Charignon. I Cours 3

Coup de Projecteur sur les Réseaux de Neurones

Si la source se rapproche alors v<0 Donc λ- λo <0. La longueur d onde perçue est donc plus petite que si la source était immobile

Big Data et Graphes : Quelques pistes de recherche

Fête de la science Initiation au traitement des images

I - Quelques propriétés des étoiles à neutrons

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités Loi binomiale Exercices corrigés

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Programmation linéaire

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

chapitre 4 Nombres de Catalan

Les algorithmes de fouille de données

Calculs de probabilités conditionelles

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Apprentissage Automatique

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

INF6304 Interfaces Intelligentes

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Les devoirs en Première STMG

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

MATHEMATIQUES GRANDEURS ET MESURES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Estimation et tests statistiques, TD 5. Solutions

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

L apprentissage automatique

DATAMINING C4.5 - DBSCAN

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Traitement bas-niveau

Why Software Projects Escalate: The Importance of Project Management Constructs

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

6 ème. Rallye mathématique de la Sarthe 2013/ ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Transmission d informations sur le réseau électrique

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

ASR1 TD7 : Un microprocesseur RISC 16 bits

MISE EN CONFORMITE DES CONTRATS DE PREVOYANCE, SANTE ET RETRAITE SUPPLEMENTAIRE

Vers une Optimisation de l Algorithme AntTreeStoch

Probabilités conditionnelles Loi binomiale

TP Détection d intrusion Sommaire

Application de K-means à la définition du nombre de VM optimal dans un cloud

CRÉER UN COURS EN LIGNE

Les structures de données. Rajae El Ouazzani

Objets Combinatoires élementaires

Conversion d un entier. Méthode par soustraction

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Correction du baccalauréat STMG Polynésie 17 juin 2014

Je découvre le diagramme de Venn

Correction ex feuille Etoiles-Spectres.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Encryptions, compression et partitionnement des données

A chaque couleur dans l'air correspond une longueur d'onde.

Programmation sous QT

Comment suivre l évolution d une transformation chimique? + S 2 O 8 = I SO 4

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

CALCUL DES PROBABILITES

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Travaux dirigés d introduction aux Probabilités

Transcription:

Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala Université Pierre et Marie Curie Paris 6 IAMSI 204-205 Induction de règles (rappels) L induction logique Dérivation d un ensemble de règles pour classifier des exemples Création de règles indépendantes Les règles ne peuvent pas couvrir tous les cas possibles Les règles peuvent parfois entrer en conflit Raisonner par induction : déterminer une loi générale en observant l occurrence de faits Par exemple : fait : Hitchcock apparaît dans la mort aux trousses fait 2 : Hitchcock apparaît dans les oiseaux loi générale : Hitchcock apparaît dans tous ses films Principe usuel de la recherche scientifique physique : mécanique classique, gravitation, mécanique quantique, etc. Apprentissage inductif construire un modèle de prédiction m à partir de cas particuliers déterminer une fonction f à partir de valeurs particulières 3/4 4/4 Apprentissage automatique Étant donné un ensemble de cas observations d un phénomène particulier trouver la loi qui régit ce phénomène processus inductif :généralisation àpartirdecas Apprentissage non supervisé trouver des relations entre les cas trouver des groupes homogènes regroupant les cas Apprentissage supervisé trouver une relation entre les descriptions des cas et leurs classes trouver une fonction f telle que y = f(x) description x et la classe y correspondante 5/4 Base d apprentissage non-supervisée Ensemble d observations ou descriptions apprentissage non supervisé : pas de classe particulière Exemple : le problème des iris [Fisher] Sépale Pétale longueur largeur longueur largeur e 5. 3.5.4 0.2 e 2 4.9 3.0.4 0.2 e 3 5.2 2.7 3.9.4 e 4 5.0 2.0 3.5.0 e 5 6.0 3.0 4.8.8 e 6 6.9 3. 5.4 2. Peut-on trouver des groupes d exemples homogènes? 6/4

Base d apprentissage supervisée Données d apprentissage Ensemble d observations ou descriptions apprentissage supervisé : les descriptions sont liées à une classe Exemple : le problème des iris [Fisher] Sépale Pétale Classe longueur largeur longueur largeur e 5. 3.5.4 0.2 setosa e 2 4.9 3.0.4 0.2 setosa e 3 5.2 2.7 3.9.4 versicolor e 4 5.0 2.0 3.5.0 versicolor e 5 6.0 3.0 4.8.8 virginica e 6 6.9 3. 5.4 2. virginica Peut-on prédire la classe en ne connaissant que la description? 7/4 Sépale Pétale Classe longueur largeur longueur largeur e 5. 3.5.4 0.2 setosa Description d un exemple valeurs d attributs observables ou mesurables un attribut peut être catégoriel : ses valeurs sont des mots, des étiquettes, des catégories,... numérique : ses valeurs dans IR, IN,... Classe d un exemple valeur fournie par un expert du domaine la classe est catégorielle problème bi-classes : 2 classes problème multi-classes : plusieurs classes 8/4 Types d attributs : exemples Attributs catégoriels nationalité :{français, chinois, marocain, kenyan, brésilien...} valeur binaire : {vrai, faux}, {féminin, masculin}, {, -}, {0, } tranche d impôts : {, 2, 3, 4, 5}... Attributs numériques âge (d une personne) : valeur (an) dans [0, 20] longueur d onde de la lumière visible : valeur (nm) dans [380, 780] prix d achat d un livre de poche : valeur (euros) dans [.5, 5]... 9/4 Ex. âge cheveux groupe Classe couleur longueur e 25 noir 8.7 2 e 2 37 roux 5.42 e 3 29 châtain 32.23 - Espace des dimensions Chaque attribut de la description : dimension de représentation la description : espace de représentation n attributs : espace à n dimensions Dans : Ex. âge cheveux groupe Classe couleur longueur e 25 noir 8.7 2 chaque exemple est un point dans un espace à 4 dimensions Exemple d espace à 2 dimensions : Ex. prix durée Classe e 42.0 8.7 e 2.38 5.42-0/4 Représentation d une base d apprentissage Apprentissage supervisé :séparateur des classes Étant donné une base d apprentissage descriptions + classes /4 La frontière de décision entre les classes doit être trouvée 2/4

Plan du cours Raisonner par induction Induction par arbres de décision modèle construction mesure de discrimination stratégie de partitionnement critère d arrêt classification conclusion Arbres de décision Une forme de représentation des connaissances Représentation graphique et hiérarchique d unebasederègles prémisses : nœuds internes d une branche conclusion : feuilles de l arbre (décision/classe) 4/4 Exemple d arbre de décision Frontières fournies par un arbre de décision () Longueur <.38 >=.38 Couleur 2 noir roux châtain blond 2 5/4 Unarbrededécision définit un découpage par des frontières parallèles aux axes chaque frontière est définie par un test d un nœud de l arbre 6/4 Frontières fournies par un arbre de décision (2) Frontières fournies par un arbre de décision (3) Les frontières définissent des régions de décision découpage précis des classes 7/4 Les régions servent à classer de nouveaux exemples 8/4

Apprentissage d un arbre de décision Apprentissage d un arbre de décision Machine learning :méthodes inductives de construction d arbres de décision - approches top down induction algorithme CART de Breiman s, Friedman s et al. s Base d apprentissage ε{a,..., A,C} N Constructeur d arbres de décision {A,..., A } N Choix du meilleur attribut A j algorithme ID3 (puis C4.5) de Quinlan Caractéristiques de ces algorithmes simplicité, rapidité approche basée sur la théorie de l information Attribut Particulier C Paramètres de l application Mesure de discrimination H Partition Stratégie de Partitionnement P {ε,...,ε l } Fin? Critère d arrêt T Arbre de décision 9/4 20/4 Paramètres structurels Sélection d attributs : mesure de discrimination Mesure du désordre dans un ensemble () Paramètre clé des algorithmes top down ordonnancement optimal des questions pour déterminer la classe Choix d une bonne mesure de discrimination pour obtenir des nœuds cohérents pour minimiser la taille de l arbre pour obtenir de bons résultats en classification Arbres de décision (classiques) théorie de l information : entropie de Shannon, index de Gini... Entropie de Shannon : mesure un taux de désordre H S (X) = p(x) log(p(x)) x X Exemple : soit une urne contenant 2 types de boules Est-il facile de prédire quelle couleur de boule sera tirée? cela dépend du taux de désordre dans cette urne désordre : répartition des couleurs de boules mesureissuedelathéoriedel information initiée par C.E. Shannon en 948 2/4 22/4 Mesure du désordre dans un ensemble (2) Aucun désordre : Mesure du désordre dans un ensemble (3) Désordre maximal : Les boules ont toutes la même couleur prédiction facile! on sait précisément la couleur qui sera tirée (ici : blanc) p(blanc) =et p(noir) =0 On en déduit ici : 23/4 désordre = 0 (minimum) information maximale Il y a autant de boules blanches que de boules noires une chance sur deux de se tromper... p(blanc) = 0.5 et p(noir) = 0.5 On en déduit ici : désordre = (maximum) information minimale 24/4

Relation entre probabilité etdésordre Pouvoir de discrimination d un attribut () Cas binaire : 2 classes (blanc ou noir) p(noir) = p(blanc) Attribute: color désordre Training set Green Blue Red? 0 Entropie de Shannon : H S (X) = p(x) log(p(x)) x X H S (urne) = p(blanc) log(p(blanc)) p(noir) log(p(noir)) 0.5 p(blanc) How are the values of the color related to the values of the form? Class: form H S (urne) =0quand p(blanc) =ou quand p(blanc) =0 H S (urne) =quand p(blanc) =p(noir) =0.5 Square Circle Triangle 25/4 26/4 Pouvoir de discrimination d un attribut (2) Pouvoir de discrimination d un attribut (3) Étant donné une base d apprentissage Par exemple : couleur verte et classe triangle cas général : 27/4 28/4 Pouvoir de discrimination d un attribut (4) La couleur verte prédit parfaitement la classe triangle cas optimal Pouvoir de discrimination d un attribut (5) La couleur verte ne prédit pas vraiment la classe triangle En termes de probabilité conditionnelle probabilité d être un triangle sachant que l on est vert : p(triangle vert) = 29/4 30/4

Pouvoir de discrimination d un attribut (6) Mesure de discrimination classique Attribute: color Class: form Utilisation de la forme conditionnelle de l entropie de Shannon Green Triangle H S (C A) = p(v i ) p(c k v i ) log(p(c k v i )) i k H S (C A) : pouvoir de discrimination de l attribut A envers la classe C A est discriminant pour C si pour tout i, laconnaissancedelavaleur v i de A permet d en déduire une valeur unique c k de C Principe : mesurer le désordre de {forme valeur de couleur} pour chaque couleur, regarder p(valeur de classe valeur de couleur) 3/4 32/4 Gain d information () Gain d information (2) Choix du meilleur attribut pour partitionner la base la partition se fait sur ses valeurs chaque valeur de l attribut définit un sous-ensemble des exemples À l aide d une mesure de discrimination choisir l attribut A qui apporte le plus d information pour améliorer la connaissance de la classe C c est-à-dire celui qui maximise le gain d information I S (A, C) =H S (C) H S (C A) I S (A, C) =H S (C) H S (C A) On cherche l attribut A qui maximise I S (A, C) En pratique : H S (C) est le même pour tous les attributs On cherche donc l attribut A qui minimise H S (C A) 33/4 H S (C) : entropie de la base selon les valeurs de la classe vaut 0 si tous les exemples de la base ont la même classe vaut si équirépartition des différentes valeurs de la classe H S (C A) : pouvoir de discrimination de A relativement à C I S (A, C) :gainapportéparundécoupage de la base selon les valeurs de A 34/4 Construction de l arbre : cas général Mettre la base d apprentissage dans la pile àtraiter Tant qu il y a des ensembles dans la pile à traiter : prendre un ensemble si le critère d arrêt est atteint alors créer une feuille sinon. calculer H(C A j ) pour tous les attributs A j 2. choisir l attribut A j qui minimise H(C A j ) 3. créer un nœud dans l arbre de décision avec A j 4. àl aidedea j, partitionner la base d apprentissage : créer autant d ensemble d exemples que de valeurs de A j 5. mettre les ensembles dans la pile àtraiter Traitement des attributs numériques A j, attribut numérique utilisation d une valeur de coupure v j construction de 2 intervalles : ],v j [ et [v j, + [ on note : {A j,v j } cette décomposition On détermine la valeur v j qui minimise H(C {A j,v j }) phase de discrétisation on traite l attribut comme un attribut catégoriel Un même attribut numérique peut intervenir plusieurs fois dans l arbre final 35/4 36/4

Stratégies de partition de la base d apprentissage Critère d arrêt de la construction de l arbre A l aide de l attribut A j,onpartitionne la base d apprentissage Chaque valeur de A j définit un ensemble d exemples Création des branches issues du nœud de l arbre de décision Quelques exemples de critères d arrêt tous les exemples de la base d apprentissage ont la même classe utilisation d une tolérance : la plupart des exemples ont la même classe utilisation d un seuil ε [0, ] on calcule H(C) = k p(ck)logp(ck) et on s arrête si H(C) ε tous les attributs ont été utilisés une fois dans le cas catégoriel trop peu d exemples dans l ensemble traité Création d une feuille de l arbre de décision 37/4 38/4 Classification avec un arbre de décision Le problème des classes déséquilibrées nouveau cas: âge : 3 ans couleur cheveux : noir longueur cheveux : 7cm groupe : 2 <.38 2 Longueur noir >=.38 roux Couleur châtain blond Problème classique en apprentissage Difficulté àgérer des distributions déséquilibrées entre les classes par exemple, application médicale : 0% de malades, 90% de non malades prédire non malade : taux de bonne classification de 90% mais... c est très peu informatif en fait... si on construit un arbre de décision : selon le critère d arrêt choisi, un seul nœud peut être suffisant! 2 Il faut donc généralement soit avoir un modèle d apprentissage qui en tienne compte soit équilibrer les classes avant l apprentissage 39/4 40/4 Conclusion sur les arbres de décision Avantages modèle d apprentissage interprétable mécanismes simples de construction hiérarchie des attributs simple à comprendre utilisation en classification Inconvénients frontière construite par coupures perpendiculaires aux axes pas de prise en compte de combinaisons d attributs possibles sous-apprentissage possible si le critère d arrêt est trop lâche sur-apprentissage si le critère d arrêt est trop fort lors de la construction optimisation locale pour le choix d un attribut 4/4