Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L



Documents pareils
Algorithmes d'apprentissage

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Arbres binaires de décision

Introduction au Data-Mining

L apprentissage automatique

Pourquoi l apprentissage?

Introduction au Data-Mining

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Fouille de données (Data Mining) - Un tour d horizon -

Fast and furious decision tree induction

Cours de Master Recherche

Méthodes d apprentissage statistique «Machine Learning»

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au datamining

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Spécificités, Applications et Outils

Formation continue. Ensae-Ensai Formation Continue (Cepe)

DATAMINING C4.5 - DBSCAN

données en connaissance et en actions?

Travaux pratiques avec RapidMiner

DATA MINING FOR SCIENTISTS

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Les algorithmes de fouille de données

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Programmation Par Contraintes

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Arbres de Décision. 1 Introduction

Resolution limit in community detection

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

INTRODUCTION AU DATA MINING

La classification automatique de données quantitatives

Big Data et Graphes : Quelques pistes de recherche

Application de K-means à la définition du nombre de VM optimal dans un cloud

Publications, ressources, liens, logiciels,

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Apprentissage statistique dans les graphes et les réseaux sociaux

Quatrième partie IV. Test. Test 15 février / 71

Poker. A rendre pour le 25 avril

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

1 Modélisation d être mauvais payeur

INF601 : Algorithme et Structure de données

INF6304 Interfaces Intelligentes

Apprentissage Automatique

Big Data et Graphes : Quelques pistes de recherche

Vers une Optimisation de l Algorithme AntTreeStoch

Les arbres binaires de recherche

Les structures de données. Rajae El Ouazzani

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Coup de Projecteur sur les Réseaux de Neurones

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Sélection de Caractéristiques pour le Filtrage de Spams

Fondements de l informatique Logique, modèles, et calculs

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Laboratoire 4 Développement d un système intelligent

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Laboratoire d Automatique et Productique Université de Batna, Algérie

Raisonnement probabiliste

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Algorithmes récursifs

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Optimisez votre gestion de temps avec Outlook. «trucs et astuces pour un professionnel»

ARBRES BINAIRES DE RECHERCHE

LES MODELES DE SCORE

ANALYSE STATISTIQUE PRÉDICTIVE

Data Mining et Statistique

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Simulation en santé. Outil de gestion des risques. Avril Dr MC Moll 1

Modélisation du comportement habituel de la personne en smarthome

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Analyse de grandes bases de données en santé

Data Mining. Master 1 Informatique - Mathématiques UAG

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

TP3 : Manipulation et implantation de systèmes de fichiers 1

Algorithmique et structures de données I

Évaluation et implémentation des langages

Intelligence Artificielle et Robotique

Transcription:

Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe CAMOME

Objectifs de la séance 10 Savoir définir un arbre de décision Connaitre le principe de l algorithme d apprentissage ID3 Savoir définir apprentissage supervisé et non-supervisé Connaitre la notion de sur-apprentissage Connaitre les méthodes d estimation de l erreur (validation croisée, etc.)

Plan 1 Retour sur l apprentissage automatique 2 Arbre de décision 3 Apprentissages top-down greedy 4 Techniques de validation

Intelligence Artificielle 5 domaines de l IA Déduction logique Résolution de problèmes Apprentissage automatique (artificiel) Représentation des connaissances Systèmes multiagents

Apprentissage automatique Définition informelle (Machine Learning) Etude et conception de systèmes (méthodes exécutées par une machine) qui sont capables d apprendre à partir de données. Exemple : un système qui distinguent les courriels spam et non-spam. Définition un peu plus formelle [T.M. Mitchell, 1997] Soient un ensemble de taches T (training set) et une mesure P de performance sur ces taches. Un système apprend lors d une expérience E si la performance sur les taches T, mesurée par P, s améliore avec E. Exemple : Taches T : Les emails reçus durant une journée Performance P : Taux de rejet correct des spams Expérience E : 1 semaine exposition aux courriels d un utilisateur

Généralisation Définition (informelle) Capacité d un système à fonctionner correctement sur de nouvelles taches inconnues après avoir appris sur un ensemble d apprentissage. T : ensemble d apprentissage (training set) V : ensemble de test/validation (test set) avec V T = Deux systèmes S 1 et S 2. Supposons le résultat suivant : P(S 1 (T )) meilleur que P(S 2 (T )) P(S 2 (V )) meilleur que P(S 1 (V )) Interprétations : S 1 a mieux appris que S 2 sur l ensemble d apprentissage S 1 généralise moins bien que S 2

Machine learning vs. data Mining Finalités différentes a priori Machine learning : but de prédiction à partir de propriétés connues et apprises sur un ensemble d apprentissage Data mining : but de découverte de propriétés pas encore connues dans les données.

Types d apprentissage Apprentissage supervisé : Apprentissage sur un ensemble d exemples étiquetés : (entrée, sortie désirée) Apprentissage non supervisé : Apprentissage sur un ensemble d exemples non étiquetés (cf. clustering) Apprentissage semi-supervisé : Apprentissage sur un ensemble d exemples étiquetés / non étiquetés Apprentissage par renforcement : Apprentissage où les actions sur l environnement se mesurent par une récompense...

Liste d algorithmes d apprentissage automatique Liste non exhaustive Arbre de décision Régles d association Réseau de neurones artificiels Support vector machine Clustering (classification) Inférence baysienne Réseaux baysiens Temporal difference (TD) etc.

Logiciels Weka R...

Bibliographie Denis Robilliard, Université du Littoral Côte d Opale, http: //www-lisic.univ-littoral.fr/ robillia/index.html Christine Decaestecker (ULB) et Marco Saerens, (UCL), Les arbres de décision Rico Rakotomalala, Laboratoire ERIC, http://tutoriels-data-mining.blogspot.com/2008/ 03/validation-croise-bootstrap-leave-one.html

Représentation Les techniques d apprentissage se distinguent par les représentations : Règles d association Réseaux de neurone Arbres de décision... Une représentation est une structure de donnée (lecture/écriture). L état de la structure permet la mémorisation. Lors de la phase d apprentissage, l état propre à la structure est modifiée : le modèle apprend pour augmenter la performance sur l ensemble d apprentissage et tout en gardant des capacités de généralisation

Un exemple Outlook Temperature Humidity Wind Playball Sunny Hot High Weak No Sunny Hot High Strong No Overcast Hot High Weak Yes Rain Mild High Weak Yes Rain Cool Normal Weak Yes Rain Cool Normal Strong No Overcast Cool Normal Strong Yes Sunny Mild High Weak No Sunny Cool Normal Weak Yes Rain Mild Normal Weak Yes Sunny Mild Normal Strong Yes Overcast Mild High Strong Yes Overcast Hot Normal Weak Yes Rain Mild High Strong No 4 attributs : Outlook { Sunny, Overcast, Rain } ; Temperature { Hot, Mild, Cool } ; Humidity { High, Normal } ; Wind { Strong, Weak } 1 cible : Playball { No, Yes } 14 exemples étiquetés

Un arbre pour prendre une décision Classification à l aide d un arbre Outlook High Wind Weak overcast Himidity Strong Normal Temperature cool sunny midl Wind Weak YES YES NO YES Wind hot Strong NO NO Rain NO Weak YES Strong NO

Un arbre pour prendre une décision Classification à l aide d un arbre Outlook High Wind Weak overcast Himidity Strong Normal Temperature cool sunny midl Wind Weak YES YES NO YES Wind hot Strong NO NO Rain NO Weak YES Strong NO Remarque : un arbre code en fait un ensemble de règles (conjonctions, disjonctions) Si Outlook = overcast et Humidity =... alors playball = Yes

Exemple Exercice Compléter le tableau en utilisant l arbre de décision Calculer le taux d erreur de cet arbre de décision High Wind Weak overcast Himidity Strong Normal Temperature cool Outlook sunny midl Wind Weak YES YES NO YES Wind Weak YES hot Strong NO NO Strong NO Rain NO Outlook Temperature Humidity Wind Playball Sunny Hot High Weak Sunny Hot High Strong Overcast Hot High Weak Rain Mild High Weak Rain Cool Normal Weak Rain Cool Normal Strong Overcast Cool Normal Strong Sunny Mild High Weak Sunny Cool Normal Weak Rain Mild Normal Weak Sunny Mild Normal Strong Overcast Mild High Strong Overcast Hot Normal Weak Rain Mild High Strong

Algorithme d apprentissage Apprentissage par arbre de décision Construction un arbre : Noeuds internes : sélectionner d un attribut comme étiquette, les arcs sont étiquetés par les valeurs de l attribut Feuilles : couper l arbre avec une valeur de l attribut cible On veut en général : Un taux d erreur faible Une bonne généralisation Un arbre de petite taille compréhensible pour un non expert etc. Nombreux algos : ID3, C4.5, CART, CHAID, algo. évo., etc.

Une classe d algorithmes d apprentissage Algorithmes top-down greedy Pour chaque noeud interne, un attribut est sélectionné selon l ensemble d apprentissage l ensemble d apprentissage est partitionné selon les valeurs possibles de l attribut du noeud Le processus est répété en chaque noeud et s arrête lorsque : tous les exemples ont la même valeur d attribut cible un nouveau partionnement n augmente pas la qualité de la prédiction Top-down : construction à partir de la racine Greedy : meilleur choix local, pas de remise en cause Les optima locaux guettent! Optimalité locale vs. globale

Critique Avantages Simple à comprendre et à interpréter Le modèle est white-box (rés. neurones est black-box) Peu de préparation des données : pas de normalisation, etc. Données numériques et catégorielles possibles Robuste aux données aberrantes (outliers) Inconvénients Apprendre un arbre de décision optimal : NP-complet Heuristique d apprentissage greedy : arbre sous optimal Création d arbres trop complexes, sur-spécialisé Biais vers certaines formes : attribut avec plus de valeurs, petit arbre, etc. Détection difficile des interactions entre attributs Certains problèmes sont difficiles à apprendre sous forme d arbre (xor, parité, multiplexer)

ID3 (Iterative Dichotomiser 3) Ross Quinlan, 1986 Algorithme top-down greedy basé sur le gain d information (information gain) Principe 1 Calculer l entropie de tous les attributs en utilisant l ensemble d apprentissage S 2 Partitionner l ensemble S en utilisant l attribut pour lequel l entropie est minimum (gain d information maximum) 3 Construire le noeud de l arbre avec cet attribut 4 Recommencer récursivement sur chaque sous arbre avec chaque sous-ensemble

Mesure d entropie Entropie H Mesure de la quantité d incertitude dans un ensemble (dispersion) H(S) = p(x) log 2 p(x) x X S : ensemble des données X : ensemble des classes de S p(x) : proportion de la classe x X dans S Lorsque H(S) = 0, S est parfaitement classé.

Mesure d entropie Voir exemple de calcul au tableau

Gain d information Information gain (information mutuelle) Mesure de la différence d entropie entre avant et après le partitionnement selon un attribut IG(S, T ) = H(S) t p(s t )H(S t ) T = {S 1,..., } sous-ensembles du partitionnement de S, S = t S t p(s t ) = S t / S H(S), H(S t ) : entropies de S et de S t

Mesure d entropie Voir exemple de calcul au tableau

Pseudo code ID3(exemples, cible, attributs) : si tous les exemples sont positifs (resp. négatifs) alors retourner une feuille avec l étiquette positif (resp. négatif) si attributs est vide alors retourner une feuille avec l étiquette la plus fréquente sinon A attribut de plus grand gain d information construire un noeud avec l étiquette A pour chaque valeurs v i de A ajouter la branche v i au noeud si exemples(a = v i ) est vide alors ajouter à la branche la feuille avec l étiquette la plus fréquente sinon ajouter à la branche le sous-arbre ID3(exemples(A = v i ), cible, attributs A)

C4.5 Ross Quinlan, 1993 Amélioration de ID3 Utilisation du ratio de gain d information au lieu de IG : IG(S, T ) biaisé vers attributs ayant un grand nombre de valeurs ratioig(s, T ) = IG(S, T )/H(T ) Possibilité de valeur null : Exemple ignoré lors dans le calcul du noeud Prise en compte des attributs à valeur continue : Discrétisation par P(A < a i ) pour toutes les valeurs possibles de A, calcul de IG Elagage (pruning) pour réduire la taille de l arbre : Technique bottom-up : branches finales élaguées lorsque taux d erreur plus grand qu en remplaçant par une feuille avec classe majoritaire 3/10 Wind Weak Strong YES NO 3/5 1/5

Les erreurs Relation entre erreurs Erreur d apprentissage : taux d erreur sur l ensemble des exemples d apprentissage Erreur vraie : erreur sur l ensemble de tous les exemples possibles t x erreur erreur "vraie" erreur entrainement taille ens. d'apprentissage

Sur-apprentissage Exces d apprentissage Sur-spécialisation du modèle sur l ensemble d entrainement Perte de capacité de généralisation Apprentissage par coeur t x erreur erreur "vraie" erreur entrainement sur-apprentissage complexité du modèle Mesure de complexité d un arbre de décision : nombre de feuilles

Evaluation d un modèle d apprentissage Technique Partitionner l ensemble des exemples en : un ensemble d apprentissage ( 70%) un ensemble indépendant de test ( 30%) Le taux d erreur est estimé (sans biais) sur l ensemble de test. Inconvénient Requiert un nombre important d exemples Dilemme : Plus on met d exemples dans le test, plus l estimation est précise Plus on met d exemples dans l apprentissage, meilleur est le modèle (a priori)

Méthode de ré-échantillonnage Permet d estimer l erreur de généralisation. K-folds cross-validation Partitionner aléatoirement l échantillon en K blocs Pour chaque bloc k, Construire le modéle sur les k 1 autres blocs Calculer l erreur en test e k sur le block k Calculer l erreur moyenne des erreurs e k Autres techniques : Leave-one-out (K = n) Bootstrap, bagging, etc.