Apprentissage automatique à partir d exemples

Documents pareils
Algorithmes d'apprentissage

Pourquoi l apprentissage?

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Cours de Master Recherche

Intégration de la dimension sémantique dans les réseaux sociaux

MABioVis. Bio-informatique et la

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Introduction au Data-Mining

Quantification Scalaire et Prédictive

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Laboratoire d Automatique et Productique Université de Batna, Algérie

Introduction au Data-Mining

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

La classification automatique de données quantitatives

Etude comparative de différents motifs utilisés pour le lancé de rayon

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Arbres binaires de décision

Intelligence Artificielle Planification

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Contrainte de flot pour RCPSP avec temps de transfert

Coup de Projecteur sur les Réseaux de Neurones

données en connaissance et en actions?

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

L apprentissage automatique

Vers l'ordinateur quantique

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Une application des algorithmes génétiques à l ordonnancement d atelier

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Compression Compression par dictionnaires

Vous êtes bien à la bonne présentation, c est juste que je trouvais que le titre de cette présentation étais un peu long,

Algorithmique des Systèmes Répartis Protocoles de Communications

Méthodes d apprentissage statistique «Machine Learning»

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

DECLARATION DES PERFORMANCES N 1

Travaux pratiques avec RapidMiner

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Etude des propriétés empiriques du lasso par simulations

Apprentissage Automatique

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Recherche d information textuelle

L exclusion mutuelle distribuée

Transmission d informations sur le réseau électrique

La nouvelle planification de l échantillonnage

Cours d algorithmique pour la classe de 2nde

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

1 Modélisation d être mauvais payeur

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Programmation linéaire

Modélisation multi-agents - Agents réactifs

PRIME D UNE OPTION D ACHAT OU DE VENTE

CHAPITRE 5. Stratégies Mixtes

Apprentissage symbolique et statistique à l ère du mariage pour tous

Classification non supervisée

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

I- Définitions des signaux.

Validation probabiliste d un Système de Prévision d Ensemble

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Sécurité logicielle. École de technologie supérieure (ÉTS) MGR850 Automne 2012 Automne Yosr Jarraya. Chamseddine Talhi.

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Identification de nouveaux membres dans des familles d'interleukines

Continuité et dérivabilité d une fonction

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Évaluation d une architecture de stockage RDF distribuée

Techniques d interaction dans la visualisation de l information Séminaire DIVA

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

High Performance by Exploiting Information Locality through Reverse Computing. Mouad Bahi

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Les algorithmes de fouille de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

IPHONE BANNIÈRE CLASSIQUE DIMENSIONS. Standard : 320 x 53 (portrait) 20Ko Jpeg/Gif/Png. HD : 640 x 106 (portrait) 20Ko Jpeg/Gif/Png DESCRIPTION

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Système immunitaire artificiel

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

XtremWeb-CH : Une plateforme Global Computing pour les applications de haute performance

Filtrage stochastique non linéaire par la théorie de représentation des martingales

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Interception des signaux issus de communications MIMO

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Comparaison de fonctions Développements limités. Chapitre 10

Spécificités, Applications et Outils

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

COMPUTING. Jeudi 23 juin CLOUD COMPUTING I PRESENTATION

Transcription:

Apprentissage automatique à partir d exemples DEA Génomique et Informatique année 2002-2003 Francois.Coste@irisa.fr Apprentissage? Machine Learning is the study of computer algorithms that automatically improve performance through experience 1

Apprentissage par induction «Apprendre à partir d exemples» À partir d exemples disponibles, trouver le concept (1) correspondant But : prendre des décisions face à des situations inconnues... Généralisation (1) Concept: An abstract or generic idea generalized from particular instances [Merriam Webster] Généraliser est difficile... Nombre fini d exemples nombre «infini» de concepts cohérents Lequel choisir comme solution? Principe du Rasoir d Occam choisir les solutions les plus «simples» Utiliser et introduire des connaissances à priori (biais d apprentissage) Biais de représentation Biais de préférence 2

Apprentissage par induction Apprentissage d'un concept C à partir d'exemples (instances) appartenant au concept x 1,,x n échantillon d apprentissage X Apprentissage H C hypothèse Choix de la description des exemples? Choix de l espace d hypothèses? Apprentissage réussi? 3

Apprentissage de classifications CHIENS CHATS Apprentissage de classifications Concept = fonction de classification c Objets à classer O = {o 1,o 2, }, Langage de description D = {d 1,d 2, } Ensemble de classes [1,C] Classification c : O [1,C] ( O [1,C]) d h c Exemples = <description, classe> x 1,, x n <d 1,c 1 > <d n,c n > Apprentissage h c 4

Remarques Apprentissage «supervisé» : on connaît le nombre de classes et la classe des exemples ( clustering, cf. cours I.C. Lerman) Cas C = 2 (classes = [1,2]) : discrimination d objets appartenant à la classe 1 / ceux qui n y appartiennent pas (i.e. dans classe 2). Apprentissage d un concept à partir d exemples et de contre-exemples. On notera Γ = {+,-} «exemples positifs, exemples négatifs» Cas C = 1, apprentissage à partir d exemples positifs seulement : problème de caractérisation Plan Définir un problème d apprentissage Exemples : Apprentissage de modèles Apprentissage de modèles probabilistes 5

Définir un problème d apprentissage Choix de la description des exemples? Choix de l espace d hypothèses? Algorithme d apprentissage? Évaluation de l apprentissage? Exemple 1 Apprentissage de l arbre de décision «sortie en mer» Apprentissage Échantillon d apprentissage météo Skipper Décision calme amateur mer tempête amateur terre agitée expérimenté mer tempête expérimenté terre agitée amateur terre Arbre de décision météo = tempête Non Oui skipper = amateur terre Non Oui mer météo = agitée Non Oui mer terre 6

Exemple 2 : Apprentissage pour la reconnaissance de caractères manuscrits Exemples : a a a a... Description : vos propositions? Espace d hypothèses : vos propositions? Remarque : apprentissage par coeur est impossible Description des objets Ensemble d'attributs d = (a 1,, a n ) dans R (apprentissage numérique) discrets (apprentissage symbolique) booléens, littéraux... Mixtes Devrait permettre discrimination des exemples c(o 1 ) c(o 2 ) d(o 1 ) d(o 2 ) mais aussi un apprentissage "efficace" 7

Espace d hypothèses Choix du type de fonctions considéré Espace d'hypothèse Biais de représentation restriction de la recherche provient d une connaissance à priori Espace d'hypothèse grand Favorise existence de h=c Plus difficile à explorer pour trouver la (meilleure) solution Apprentissage D + - - - - - - + - - - + + + c c h H Espace des descriptions Espace d hypothèses (d objets) Programme d'apprentissage cherche la "meilleure" solution dans l'espace d'hypothèses par rapport à l'échantillon d'apprentissage 8

Erreurs de classification Erreur de classification de h pour d : E(d) = P(c(o) h(d) / d(o) = d) Erreur de classification de h (à minimiser) E(h) = d D E(d) P(d(o) = d) Taux d erreur apparent E app (h) = err / n (sur l échantillon) n : nombre d exemples err : nombre d erreurs de classification par h sur les exemples E(h) = lim n E app (h) Bien classer et bien prédire Minimisation E app Sur-spécialisation / X Exple : Apprentissage par cœur, E app = 0 Apprentissage ou mémorisation? Pouvoir prédictif?!? But : au moins une meilleure prédiction que la Règle de la classification majoritaire 9

Critère de simplicité Rasoir d Occam : Favoriser les hypothèses les plus simples Minimum Description Length (MDL) h MDL = argmin h H L 1 (h)+l 2 (X/h) (Minimiser longueur du codage de h et de ses exceptions) Autres critères possibles : intelligibilité du résultat, taux de couverture (pour C=1), Evaluation par ensemble de test Ne pas utiliser les mêmes exemples pour apprendre et pour évaluer la qualité du résultat! Échantillon fourni divisé en échantillon d apprentissage et échantillon de test (Rapports usuels : 1/2,1/2 ou 2/3,1/3) Validation croisée partition de X en p sous-ensembles p apprentissages sur p-1 sous-ensembles, test sur le sous-ensemble restant Bootstrap Tirage avec remise de n exemples : ensemble d apprentissage Test sur X 10

Apprentissage inductif supervisé Training Test errors correct Evaluation d une hypothèse Concept cible Hypothèse FN VP VN FP VP : vrais positifs FN : faux négatifs FP : faux positifs VN : vrais négatifs 11

Rappel et Précision Utilisation d une matrice de confusion pour compter : Concept P N Total Hypothè se P N VP : 70 FN : 30 FP : 50 VN : 150 P H : 120 N H : 180 Total P c : 100 N c : 200 300 Précision (P) = VP / P H = VP / (VP + FP) = 70 / (70+50) = 0.58 Rappel (R) = VP / P C = VP / (VP + FN) = 70 / (70+30) = 0.70 Accuracy (A) = (VP+VN) / Total = 220 / 300 = 0.73 F-measure (F) = (β 2 +1) P R / (β 2 P + R) Sans préférence : β 2 = 1 F = 2*VP/(VP+FP+VP+FN) = 2 70/(100+120) = 0.63 Algorithmes d apprentissage Exploration de l espace d hypothèses 12

Algorithme par énumération Application directe du rasoir d Occam : Enumérer tous les concepts en commençant par les plus «simples» S arrêter au premier concept cohérent avec les exemples Espace des versions (1) [Mitchell 78] Si on peut ordonner partiellement les hypothèses / généralité : Espace des versions : ensemble des hypothèses cohérentes avec les exemples déjà vus G représentable par G : ensemble maximalement général S : ensemble maximalement spécifique S 13

Espace des versions (2) Arrivée d un exemple e+ éliminer les descriptions de G qui ne couvrent pas e+ généraliser les éléments de S qui ne couvrent pas e+ jusqu à ce qu ils le fassent, tout en restant plus spécifiques qu un des éléments de G enlever tout élément plus général qu un autre dans S G S Espace des versions (3) Arrivée d un contre-exemple e- éliminer les descriptions de S qui couvrent e- spécialiser les éléments de G qui couvrent e- jusqu à ce qu ils ne le fassent plus, tout en restant plus généraux qu un des éléments de S enlever tout élément plus spécifique qu un autre dans G S G 14

Espace des versions (4) Arrêt lorsque G et S coïncident (ou quand il n y a plus d exemples) S = G Apprentissage incrémental Ne résiste pas au bruit S et G peuvent être très grands des variantes existent... Approches heuristiques Espace de recherche trop grand pour une exploration exhaustive Fonction f associe un score à chaque hypothèse h On peut alors considérer l apprentissage comme un problème d optimisation dans l espace d hypothèses Hill-climbing Algorithmes Génétiques... Méthodes spécifiques à des représentations : Induction d arbres de décision... 15

1. Initialiser candidat Hill-climbing 2. Evaluer les voisins du candidat 3. Si un voisin a un meilleur score que le candidat Alors ce voisin devient le candidat courant et recommencer en 2. Sinon le candidat courant est la solution Heuristique : ne garantit pas optimalité... Optimisation par AG [Holland 75] Idée = imiter sélection naturelle codage des hypothèses sous forme de chaînes (chromosomes) génération aléatoire d une population initiale d hypothèses sélection pondérée par les scores croisements/mutations sur la population Utilisable même quand l espace d hypothèse est «mal connu» (quand on n a pas d autres idées ;-) ) 16

Chromosome Phénotype Score Apprentissage d arbres de décision 17

Nœud : test Feuille : classification Arbre de décision Pour chaque position i : météo = tempête skipper = amateur Non mer Non Non mer météo = agitée terre terre n(i) nombre d exples en i n(k/i) nombre d exples de classe k en i p(k/i) = n(k/i) / n(i) proportion d exples de classe k en i Oui Oui Oui Exemple 1 n(1) = 5 n(mer/1) = 2; n(terre/1) = 3 p(mer/1) = 2/5; p(terre/1)= 3/5 n(2) = 3 n(mer/2) = 2; n(terre/2) = 1 p(mer/2) = 2/3; p(terre/2)= 1/3 météo Skipper Décision calme amateur mer tempête amateur terre agitée expérimenté mer tempête expérimenté terre agitée amateur terre météo = tempête Non skipper = amateur Non mer 4 Non mer Oui terre Oui météo = agitée 6 2 1 5 Oui terre 3 7 18

Algorithme générique d apprentissage d un arbre de décision («top down») Fonction AD(X : exemples) : nœud si X d une seule classe alors renvoie créer_feuille(classe(x)) sinon Sélectionner «meilleur» attribut a G test(x,a) D X - G renvoie créer_nœud (a, AD (G), AD (D)) Choix du meilleur attribut? Séparer rapidement les exemples de classes différentes Entropie(i) = - k p(k/i) log p(k/i) nombre de bits nécessaires pour coder la classification des exemples en i (théorie de l information, [Shannon]) Gain d information à un nœud i pour attribut a Gain(i,a) = Entropie(i) - ( n(g) Entropie(g) + n(d) Entropie(d)) où on note resp. g et d les fils gauche et droit de i pour a Critère ID3 : choix de a pour maximiser le gain minimiser n(g) Entropie(g) + n(d) Entropie(d) 19

Exercice Construire l arbre de décision obtenu par cette procédure pour l échantillon d apprentissage : météo Skipper Décision calme amateur mer tempête amateur terre agitée expérimenté mer tempête expérimenté terre agitée amateur terre Principaux algorithmes CART [Friedman 1977, Breiman et al. 1984] ID3 [Quinlan 1986] C4.5 [Quinlan 1993] Variations : élagage (post-traitement) MDL scores utilisés attributs continus arbres n-aires arbres à motifs régulier... 20

BONSAI Pour la prédiction de domaines transmembranaire «A Machine Discovery from Amino Acid Sequences by Decision Trees over Regular Patterns», S. Arikawa, S. Kuhara, Y Mukouchi, T. Shinohara New Generation Computing, pp 361-375, 1993 BONSAI http://bonsai.ims.u-tokyo.ac.jp/services/services.html («soon») http://www.i.kyushu-u.ac.jp/~shoudai/papers/bonsai-garden. html Vue générale de BONSAI Exemples et contre exemples (tirés des Bases de Données) Séparation en échantillon d apprentissage et de validation Simplification de la description Apprentissage et évaluation 21

Obtention d arbres de décision «à motifs régulier» Algorithme 22

Choix de l attribut Trouver un motif séparant les exemples minimisant : cf. critère ID3 Bonsai Garden Prédiction de promoteurs CCAAT, GC et TATA box 23

BONSAI Garden Prédiction hélices α 24