Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

Dimension: px
Commencer à balayer dès la page:

Download "Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a"

Transcription

1 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Jérôme Azé Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

2 Arbres de décision Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a

3 Arbres de décision Objectifs Objectifs Objectifs et applications Apprendre une classification (animale, végétale,...) Pouvoir répondre à un questionnaire Pouvoir résoudre un problème à l aide de Questions/Réponses Apprentissage de règles pour annoter des protéines... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 3ème / 74 a

4 Arbres de décision Objectifs Un exemple Détection de la grippe Apparition soudaine de fièvre élevée Le patient est fatigué Rhinorrhée (nez qui coule) Toux Douleurs à la gorge Enrouement, douleurs dorsales, des membres et céphalées Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a

5 Un exemple Arbres de décision Objectifs L arbre associé fièvre toux fatigue... angine... Nez qui coule... Maux de gorge Courbatures... et maux de dos... Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a

6 Arbres de décision Méthode Méthode Méthode Apprendre une suite de Questions/Réponses la plus efficace possible Isoler les classes Organiser les questions/réponses sous la forme d un arbre Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a

7 Arbres de décision Méthode Autre exemple La ballade du chien Attributs quel temps fait-il? {pluvieux, ensoleillé, couvert} Température extérieure : attribut numérique Voisin parti avec son chat : attribut booléen Décision à prendre : Télévision ou ballade du chien Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a

8 La ballade du chien Arbres de décision Méthode L arbre de décision Quel temps fait-il? Couvert Ensoleillé Pluvieux Température? Voisin absent? TV 10 degrés > 10 degrés TV ballade non TV oui ballade Polytech Paris-SudDépartement informatique Formation par Apprentissage, 83ème / 74 a

9 Arbres de décision Méthode Construction de l arbre Rappels Problème : Apprendre un arbre de décision à partir d une base d exemples étiquetés Objectif : Être efficace en généralisation (être capable de classer correctement un nouvel exemple) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 93ème / 74 a

10 Arbres de décision Méthode Construction de l arbre Recherche exhaustive dans l espace des arbres possibles Exponentiel en fonction de d : nombre d attributs a : nombre moyen de valeurs par attribut d 1 (d i) ai i=0 d a Arbres possibles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 103ème / 74 a

11 Arbres de décision Méthode Construction de l arbre Construction intelligente de l arbre Démarrer avec un arbre vide et construire l arbre de manière inductive et descendante Critères d arrêt : échantillon pur plus d attributs a tester Polytech Paris-SudDépartement informatique Formation par Apprentissage, 113ème / 74 a

12 Arbres de décision Construction de l arbre Méthode Algorithme Procédure construirearbre(p) si (tous les points de P appartiennent à la même classe ) alors créer une feuille portant le nom de cette classe sinon Choisir le meilleur attribut pour créer un nœud test sur le nœud créé deux parties : P g et P d construirearbre(p g ) construirearbre(p d ) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 123ème / 74 a

13 Arbres de décision Positionnement du problème Positionnement du problème Notations Ensemble d apprentissage : E Un exemple (x, c) décrit par d attributs : x = {a 1, a 2,...,a d } w une classe C = {w 1,...,w C } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a

14 Arbres de décision Quelques probabilités... Positionnement du problème Calcul des probabilités soit un nœud contenant n exemples, répartis en C classes w j comportant chacune n j exemples Soit a un attribut binaire divisant chaque sous-ensemble n j en deux parties contenant respectivement : l j exemples pour test sur a = VRAI et r j exemples pour test sur a = FAUX l = C l j, r = C r j et r + l = n j=1 j=1 l j n P(a = VRAI, w = w j), r j n P(a = FAUX, w = w j) l P(a = VRAI), r n P(a = FAUX) n j n P(w = w j) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 143ème / 74 a

15 Arbres de décision Positionnement du problème Comment choisir le meilleur attribut Théorie de l information Information mutuelle (entropie croisée) Si w et a sont deux variables avec D w et D a leurs ensembles finis de valeurs possibles L entropie croisée de w et a est égale à I(w, a) = u,v D w D a P(u, v)log ( ) P(u, v) P(u)P(v) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 153ème / 74 a

16 Arbres de décision Théorie de l information Positionnement du problème Entropie Entropie d une variable aléatoire w H(w) = u D w P(u)log(P(u)) Entropie de w conditionnée par a H(w a) = P(u, v)log(p(u v)) u,v D w D a Résultat classique I(w a) = H(w) H(w a) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 163ème / 74 a

17 Arbres de décision Choix du meilleur attribut Positionnement du problème Estimation des probabilités Attribut retenu Ĥ(w a) = l n J(a = VRAI) + r J(a = FAUX) n avec J(a = VRAI) = C J(a = FAUX) = C j=1 j=1 ( ) lj l log ( rj r i = argmin (Ĥ(w a i)) i=1,...,d Entropie minimale si échantillon pur ) log ( ) lj l et ( ) rj r Polytech Paris-SudDépartement informatique Formation par Apprentissage, 173ème / 74 a

18 Arbres de décision Positionnement du problème Exemple de construction Exemple Problème : Étant donné une situation, prédire si un enfant peut aller ou non jouer avec son voisin Base d exemples Décisions prises les 8 jours précédents le problème (4 attributs binaires et une classe) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 183ème / 74 a

19 Exemple Arbres de décision Positionnement du problème Données d apprentissage Devoirs finis Maman de Temps = beau Goûter pris Décision bonne humeur 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 193ème / 74 a

20 Arbres de décision Positionnement du problème Exemple Recherche de la racine de l arbre DF BH TB GP Décision 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Calcul de H(w DF), H(w BH), H(w TB) et H(w GP) H(w DF) = 5 8 J(DF = Vrai) + 3 8J(DF = Faux) J(DF = Vrai) = 3 5 log( 3 5 ) 2 5 log( 2 5 ) J(DF = Faux) = 1 3 log( 1 3 ) 2 3 log( 2 3 ) H(w BH) = 0.93, H(w TB) = 0.8 et H(w GP) = 1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 203ème / 74 a

21 Exemple Arbres de décision Positionnement du problème Arbre de décision... faux DF BH GP Décision 2 Faux Vrai Vrai OUI 6 Faux Vrai Faux NON 7 Vrai Faux Vrai NON 8 Vrai Vrai Faux NON Temps = beau? vrai DF BH GP Décision 1 Vrai Faux Faux OUI 3 Vrai Vrai Faux OUI 4 Vrai Faux Vrai OUI 5 Faux Vrai Vrai NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 213ème / 74 a

22 Exemple Arbres de décision Positionnement du problème Arbre de décision obtenu Temps = beau? faux Goûter pris? vrai Devoirs finis? NON Maman de bonne humeur? NON OUI NON OUI Polytech Paris-SudDépartement informatique Formation par Apprentissage, 223ème / 74 a

23 Arbres de décision Positionnement du problème Élagage de l arbre Pré-élagage créer une feuille si une classe y est majoritairement représentée (seuil a priori) utilisation de critères locaux Post-élagage utilisation d un ensemble indépendant de l ensemble d apprentissage mesurer l erreur commise sur cet ensemble Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a

24 Arbres de décision Positionnement du problème Élagage Post-élagage Soit T max l arbre obtenu à partir de l ensemble d apprentissage Construire une suite d arbres {T max, T 1, T 2,..., T n } en partant des feuilles et en remontant vers la racine en transformant un nœud en feuille à chaque étape. Comparer le coût du nouvel arbre à celui du précédent et arrêter l élagage si le coût est supérieur Polytech Paris-SudDépartement informatique Formation par Apprentissage, 243ème / 74 a

25 Post-élagage Arbres de décision Positionnement du problème Estimation du coût d un arbre Prise en considération de : erreur commise par l arbre complexité de l arbre w(t k, v) = MC ela(v, k) MC(v, k) n(k)(nt(v, k) 1) n(k) nt(v, k) MC(v, k) MC ela (v, k) Nombre de feuilles de T k Nombre de feuilles du sous-arbre de T k situé sous le nœud de v Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre non élagué Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre élagué à v Polytech Paris-SudDépartement informatique Formation par Apprentissage, 253ème / 74 a

26 Post-élagage Arbres de décision Positionnement du problème Algorithme Procédure élaguer (T max); k 0; T k T max ; tant que (T k a plus d un nœud) faire pour chaque (nœud v de T k ) faire Calculer le critère w(t k, v) sur l ensemble d apprentissage fin Choisir le nœud v m pour lequel le critère est minimum; T k+1 se déduit de T k en y remplaçant v m par une feuille; k k + 1 fin Tq Sur l ensemble des arbres {T max, T 1,..., T k,..., T n} choisir celui qui a la plus petite erreur en classification sur l ensemble de validation Polytech Paris-SudDépartement informatique Formation par Apprentissage, 263ème / 74 a

27 Arbres de décision Un exemple d élagage Positionnement du problème Les données Polytech Paris-SudDépartement informatique Formation par Apprentissage, 273ème / 74 a

28 Arbres de décision Un exemple d élagage Positionnement du problème L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 4 : X 2 > d Polytech Paris-SudDépartement informatique Formation par Apprentissage, 283ème / 74 a

29 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 1 v 2 w(t max, v 1 ) = 9 0 5(5 1) = 9 20 w(t max, v 2 ) = 1 0 5(3 1) = 1 10 v 4 : X 2 > d v 3 v 4 w(t max, v 3 ) = 2 0 5(2 1) = 2 5 w(t max, v 4 ) = 1 0 5(2 1) = 1 5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 293ème / 74 a

30 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b Polytech Paris-SudDépartement informatique Formation par Apprentissage, 303ème / 74 a

31 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b v 1 v 3 w(t 1, v 1 ) = 9 1 3(3 1) = 4 3 w(t 1, v 3 ) = 2 0 3(2 1) = 2 3 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 313ème / 74 a

32 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 2 v 1 : X 1 > a faux vrai Polytech Paris-SudDépartement informatique Formation par Apprentissage, 323ème / 74 a

33 Arbres de décision Un exemple d élagage Positionnement du problème Choix de l arbre Choisir, à partir d un ensemble de validation, le meilleur arbre parmi T max, T 1 et T 2, c est-à-dire celui minimisant l erreur de classification. X 2 > d X 2 > c X 1 > a T max X 2 > b X 1 > a T 1 X 2 > b X 1 > a T 2 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 33ème / 74 a

34 Arbres de décision Positionnement du problème Récapitulatif Pour résumer Méthode de référence en apprentissage supervisé Méthode très répandue, rapide et disponible (http :// quinlan) Méthode relativement sensible au bruit Polytech Paris-SudDépartement informatique Formation par Apprentissage, 343ème / 74 a

35 Données hiérarchiques Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 353ème / 74 a

36 Données hiérarchiques Données hiérarchiques Intérêt Pouvoir associer à une donnée une description plus ou moins fine en fonction des informations disponibles Pouvoir raisonner sur des données en regroupant les exemples par catégories Capacité de généralisation augmentée... Quelques exemples Structuration d une administration Classifications animales, végétales,... Classifications médicales Polytech Paris-SudDépartement informatique Formation par Apprentissage, 363ème / 74 a

37 Données hiérarchiques Application au problème de l annotation des génomes Annotation fonctionnelle des génomes Objectif Pouvoir annoter fonctionnellement chaque protéine d un génome Tâche souvent réalisée manuellement taille du génome : 2000 gènes durée 12 à 18 mois de travail pour une équipe de 3 à 4 annotateurs Utilisation de méthodes d apprentissage pour accélérer et systématiser l annotation : mise au point de systèmes d annotation semi-automatique Utilisation de classifications fonctionnelles de référence pour annoter les génomes : Funcat, Subtilist, GO,... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 373ème / 74 a

38 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (arborescentes) Subtilist, Multifun, Funcat Subtilist conçue pour l annotation de Bacillus subtillis, également utilisée pour annoter d autres génomes bactériens. Multifun conçue pour E.coli par M. Riley. Funcat FUNctionnal CATegories, utilisée pour la/les levure(s), gérée et exploitée au MIPS. Quelques chiffres Hiérarchie Profondeur # Classes # Classes principales Subtilist Multifun Funcat Polytech Paris-SudDépartement informatique Formation par Apprentissage, 383ème / 74 a

39 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (DAG) Gene Ontology Mise au point par un consortium, plutôt à l initiative de bioinformaticiens. Besoin d un vocabulaire contrôlé. Conçue pour 3 génomes (levure, souris et drosophile), applicable à tous génomes. Composée de 3 ontologies : biological processes ( produits de gènes) cellular components ( produits de gènes) molecular functions ( produits de gènes) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 393ème / 74 a

40 Données hiérarchiques Application au problème de l annotation des génomes Utilisation de ces classifications fonctionnelles Nature des données étiquetées Génomes bactériens, humain, souris,... Une protéine peut être étiquetée avec une ou plusieurs fonctions Si une protéine est étiquetée avec une classe x.y.z alors elle est aussi étiquetée avec les classes x.y et x qui sont plus générales. Soit R C (f 1, f 2, r) la relation de parenté (père-fils (r = asc) ou inversement (r = desc)) liant les classes f 1 et f 2 dans la classification C x tq classe(x) = {f i }, f j tq R h (f j, f i, asc) alors classe(x) = classe(x) {f j } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 403ème / 74 a

41 Données hiérarchiques Hiérarchies fonctionnelles Application au problème de l annotation des génomes Différentes configurations pour un exemple donné Étude du cas le plus général Problème : comment évaluer les performances d un classifieur pour de telles données? Définition de nouvelles mesures adaptées aux classifications hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 413ème / 74 a

42 Données hiérarchiques Mesures d évaluation hiérarchiques Mesures d évaluation hiérarchiques État de l art Re-définition des mesures classiques précision rappel F score Définition de nouvelles mesures hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 423ème / 74 a

43 Données hiérarchiques Mesures d évaluation hiérarchiques Re-définition des mesures classiques Précision, rappel et F score hiérarchiques Hierarchical Text Categorization as a Tool of Associating Genes with Gene Ontology Codes, Kiritchenko et al., PKDD 04 Évaluation des prédictions selon 5 critères n : nombre d exemples à prédire n p : nombre d exemples ayant au moins une prédiction n p + : nombre de prédictions correctes np : nombre de prédictions incorrectes : nombre de prédictions oubliées n p Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a

44 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Illustration (a) (b) (c) (d) (e) (a) n p + = 3, n p = n p = 0 (b) n p + = 0, np = 0 et np = 2 (c) n p + = np = np = 1 (d) n p + = 2, np = 1 et np = 0 (e) n p + = 2, np = 0 et np = 1 (a,b,c,d,e) n p = 4, n = 5 et pr = 4/5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 443ème / 74 a

45 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Définitions Précision hiérarchique : hp = n+ p n + p +n p Rappel hiérarchique : hr = n+ p n + p +n p F score hiérarchique : hf score (β) = (β2 +1).hP.hR β 2.hP+hR Taux de prédiction : pr = np n Polytech Paris-SudDépartement informatique Formation par Apprentissage, 453ème / 74 a

46 Données hiérarchiques Mesures d évaluation hiérarchiques Définition de nouvelles mesures hiérarchiques Nouvelles mesures hiérarchiques Incremental Algorithms for Hierarchical Classification, N. Césa-Bianchi et al., JMLR 06 Définition d une mesure appelée : H-loss Définition Soit f(x) = {f i } l ensemble des classes de x et f(x) = { f i } l ensemble des classes prédites pour x } l C ( f(x), f(x)) = { fi f i f i et j tq R C (f j, f i, asc) et R C (f j, f i, asc) i puis pondération des erreurs en fonction du niveau auquel elles apparaissent Polytech Paris-SudDépartement informatique Formation par Apprentissage, 463ème / 74 a

47 H-loss Données hiérarchiques Mesures d évaluation hiérarchiques Illustration (a) (b) (c) (d) (e) (a) l C ( b f(a), f(a)) = (b) b f(b) = (c) l C ( b f(c), f(c)) = {2.4} (d) l C ( b f(d), f(c)) = {3.5.2} (e) l C ( b f(e), f(c)) = (a,b,c,d,e) l C ( b f(a, b, c, d, e), f(a, b, c, d, e)) = {2.4, 3.5.2} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 473ème / 74 a

48 Données hiérarchiques Mesures d évaluation hiérarchiques Autres mesures Biblio Hierarchical Text Classification and Evaluation, A. Sun and E.-P. Lim, ICDM 01 Relaxed Precision and Recall for Ontology Matching, M. Ehrig Learning with Taxonomies : Classifying Documents and Words, T. Hofmann, L. Cai and M. Ciaramita, NIPS Polytech Paris-SudDépartement informatique Formation par Apprentissage, 483ème / 74 a

49 Arbres de décision probabilistes multi-labels Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 493ème / 74 a

50 Arbres de décision probabilistes multi-labels Arbres de décision multi-labels Différentes approches C4.5 : un arbre par classe et recombinaison des arbres. C4.5H : Entropie généralisée à la notion de hiérarchie pour C4.5, A. Clare Clus-HMC : Decision Trees for Hierachical Multilabel Classification : A Case Study in Functional Genomics, H. Blockeel et al., PKDD 06 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 503ème / 74 a

51 Arbres de décision probabilistes multi-labels Clus-HMC Apprentissage d arbres de décision probabilistes multi-labels Apprentissage de type attribut-valeur Entrée : Une hiérarchie fonctionnelle Un ensemble d exemples étiquetés avec cette hiérarchie Sortie : Un arbre de décision permettant de prédire plusieurs classes d une hiérarchie fonctionnelle pour un exemple À chaque classe est associée une probabilité Polytech Paris-SudDépartement informatique Formation par Apprentissage, 513ème / 74 a

52 Arbres de décision probabilistes multi-labels Clus-HMC Représentation des données Exemple. Soit la hiérarchie suivante : 1 (1) 2 (2) 3 (3) 2.1 (4) 2.2 (5) L exemple appartenant aux classes 1 et 2.2 est donc représenté par le vecteur : (1) (2) (3) (4) (5) {1, 1, 0, 0, 1} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 523ème / 74 a

53 Clus-HMC Arbres de décision probabilistes multi-labels Algorithme Algorithme Fonction Clus-HMC(T : arbre) : arbre Variables : t, h, P début (t, h, P ) = (none,, ) pour chaque (test possible t) faire P = partition induite par t sur T h = P T k T Var(T k) fin T k P si (h < h acceptable(t, P)) alors (t, h, P ) = (t, h, P) fin si (t none) alors pour chaque (T k P ) faire tree k = Clus-HMC(T k ) retourner nœud (t, {tree k }) k sinon retourner feuille (bv) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a

54 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... calcul de h = T k P Var(T k ) = x i T k avec T k T Var(T k) dist(x i,bx Tk ) x i x Tk = vecteur moyen sur T k dist(x i, x Tk ) = w j ( x i (j) x Tk (j) ) 2 { j xi (j) : j eme valeur du vecteur x i où w j = w profondeur(c j) 0 Pondération de la variance de chaque partie de P par le cardinal de la partie T k divisé par le cardinal de T. Plus T k contient d exemples et plus son poids est important. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 543ème / 74 a

55 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... Qu est ce qu un test acceptable? Critères définissant l acceptabilité d un test : Nombre minimum d exemple dans une feuille. Réduction significative de la variance (utilisation d un F-test). Polytech Paris-SudDépartement informatique Formation par Apprentissage, 553ème / 74 a

56 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Que contiennent les feuilles? Les feuilles de l arbre Classiquement : classe majoritairement représentée Ici : v = {p(c i ) 1 i n, p(c i ) : proba d observer c i } Prédiction Dépend de seuils t i Si p(c i ) t i alors classe c i associée à l exemple Contraintes sur les seuils afin de préserver les propriétés de la classification : i, j tq c i h c j, t i t j. Donc si la classe c j est prédite pour un exemple, alors la classe c i (plus générale que c j ) sera aussi prédite. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 563ème / 74 a

57 Arbres de décision probabilistes multi-labels Clus-HMC : un exemple Algorithme Portion d arbre appris sur un génome de l INRA : Lactobacillus sakei Polytech Paris-SudDépartement informatique Formation par Apprentissage, 573ème / 74 a

58 Boostrap, bagging et boosting Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 583ème / 74 a

59 Bootstrap Boostrap, bagging et boosting Bootstrap Citation [Wikipedia] En anglais, le bootstrapping fait référence aux aventures du baron de Münchhausen, lequel est censé s être sorti d un marécage où il était embourbé rien qu en se tirant par les bottes et se propulsant ainsi dans les airs. Les bootstraps sont les anneaux, en cuir ou en tissu, cousus sur le rebord des bottes et dans lesquels on passe les doigts pour s aider à les enfiler. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 593ème / 74 a

60 Boostrap, bagging et boosting Bootstrap Bootstrap Intérêt Utile lorsque trop ou trop peu d exemples sont disponibles trop d exemples : temps de calcul du modèle élevé trop peu d exemples : difficile d apprendre un modèle fiable Permet d apprendre plusieurs modèles dont la combinaison s avère plus fiable que des modèles séparés Il est théoriquement prouvé et empiriquement vérifié que l estimation du risque empirique est nettement meilleure avec une approche bootstrap Polytech Paris-SudDépartement informatique Formation par Apprentissage, 603ème / 74 a

61 Bootstrap Boostrap, bagging et boosting Bootstrap Principe Soit D le jeu de données utilisé 1 Construire D b, l échantillon bootstrap de D par tirage avec remise de n exemples dans D. En moyenne, 37% des exemples de D appartiennent à D b. 2 Utiliser D b pour apprendre un modèle Soit P 1 l erreur observée sur D D b. Soit P 2 l erreur observée sur D 3 Itérer le processus k fois 4 Soit P 1 la moyenne des erreurs P 1 (idem pour P 2 ) 5 Calculer l estimation du risque réel R reel = P P 2 Pour des grandes valeurs de k, l estimation du risque réel s avère très précise (problème : apprendre k modèles) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 613ème / 74 a

62 Boostrap, bagging et boosting Bagging Bagging Intérêt Utile si le ou les algorithmes d apprentissage utilisés sont instables Un algorithme d apprentissage est considéré comme instable si une faible variation de l ensemble d apprentissage entraine une large variation des classifications Quelques exemples d algorithmes stables et instables Algorithmes stables : k-plus proches voisins Algorithmes instables : réseaux de neurones, arbres de décision Polytech Paris-SudDépartement informatique Formation par Apprentissage, 623ème / 74 a

63 Boostrap, bagging et boosting Bagging Bagging Principe Bootstrap aggregating Soit D le jeu de données utilisé Apprendre B modèles à partir d échantillons bootstrap D b de D Chaque modèle obtenu est noté h b. La combinaison des modèles obtenus, H, est utilisée pour prédire la classe d un nouvel exemple Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a

64 Bagging Boostrap, bagging et boosting Bagging Différentes combinaisons Si la prédiction est numérique (distance à un hyperplan par B exemple) : H(x) = 1 B h b (x) b=1 Si la prédiction est symbolique (classes de x par exemple) : Chaque classifieur vote pour chaque classe (les votes peuvent être pondérés) La ou les classes majoritaires l emportent Une probabilité peut être affectée à chaque classe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 643ème / 74 a

65 Boostrap, bagging et boosting Bagging Bagging Résultats Algorithmes d apprentissage instables Amélioration de la qualité des prédictions Réduction de la variance sans modifier les biais d apprentissage Algorithmes d apprentissage stables En général, dégradation les performances Polytech Paris-SudDépartement informatique Formation par Apprentissage, 653ème / 74 a

66 Boostrap, bagging et boosting Boosting Boosting Principe Y. Freund and R. Schapire, 1999 Famille de méthodes permettant d accélérer un algorithme d apprentissage AdaBoost (problèmes à deux classes) AdaBoost.M1, AdaBoost.M2 (problèmes multi-classes) AdaBoostR (régression) L idée de base est de booster un algorithme d apprentissage faible Un algorithme d apprentissage faible étant par exemple, un algorithme produisant un ensemble de règles à peine meilleures qu une prédiction aléatoire Polytech Paris-SudDépartement informatique Formation par Apprentissage, 663ème / 74 a

67 Boostrap, bagging et boosting Boosting Boosting Principe Apprentissage de plusieurs classifieurs L ensemble d apprentissage d un classifieur à l étape t dépend des performances des classifieurs obtenus aux étapes 1,..., t 1 Les exemples difficiles à classer sont choisis plus fréquemment que les exemples aisément classifiables Le classifieur peut alors se focaliser sur les exemples difficiles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 673ème / 74 a

68 Boostrap, bagging et boosting Boosting Boosting AdaBoost Soit D un ensemble d apprentissage ayant N exemples À chaque itération, t = 1,...,T, l exemple i a un poids w t (i) tel que i D, w 1 (i) = 1 N Apprentissage de T classifieurs Le classifieur final H est obtenu en combinant les T classifieurs par bagging Polytech Paris-SudDépartement informatique Formation par Apprentissage, 683ème / 74 a

69 Boostrap, bagging et boosting Boosting AdaBoost Boosting Détail d une itération 1 Apprendre un classifieur h t à partir des exemples pondérés avec les poids w t (i) 2 taux d erreur de h t : ǫ t = P w t (i)[h t (i) y i ] i D 3 si (ǫ t 0) et(ǫ t < 0.5) alors choisir α t R généralement α t = 1 1 ǫt 2ln ǫ t 4 Mise à jour des poids : w t+1 (i) = w t(i)e α t y i h t (i) Z t Z t est un facteur de normalisation tel que w t+1 (i) = 1 i La mise à jour des poids est telle que { e α t y i h t(i) < 1 si y(i) = h t (i) e αt y i h t(i) > 1 si y(i) h t (i) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 693ème / 74 a

70 Boostrap, bagging et boosting Boosting AdaBoost Boosting Classifieur résultant obtenu par bagging Vote pondéré : chaque classifieur h t vote pour les classes qu il prédit. Le poids des votes de h t est α t Somme pondérée ( (problèmes à deux classes) : T ) H(i) = sign α t h t (i) t=1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 703ème / 74 a

71 Random Forest Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 713ème / 74 a

72 Random Forest Random Forest Généralités Apprentissage d un ensemble d arbres de décision Combinaison des prédictions de l ensemble des arbres appris pour prédire la (ou les) classes d un exemple Initialement proposé par T.K. Ho en 1995 Popularisé par L. Breiman et A. Cutler Polytech Paris-SudDépartement informatique Formation par Apprentissage, 723ème / 74 a

73 Random Forest Random Forest Principe Soit D les données étudiées contenant N exemples décrits par M descripteurs Création d un échantillon bootstrap D b de taille N à partir de D Apprentissage d un arbre de décision sur D b Choix du nombre de descripteurs m M utilisés à chaque nœud pour choisir le meilleur test Pour chaque nœud de l arbre, choisir aléatoirement m descripteurs parmi M pour déterminer le meilleur test (tirage sans remise) Itérer le processus K fois Aucun des arbres obtenus n est élagué Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a

74 Random Forest Random Forest Avantages Pour de nombreux jeux de données, le classifieur résultant fournit des prédictions de meilleure qualité Permet de gérer des jeux de données ayant de très nombreux descripteurs Permet de déterminer l importance des descripteurs dans le processus de classification (sélection d attributs) Réduction du temps d apprentissage... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 743ème / a

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Fast and furious decision tree induction

Fast and furious decision tree induction Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Arbres de Décision. 1 Introduction

Arbres de Décision. 1 Introduction Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

L exclusion mutuelle distribuée

L exclusion mutuelle distribuée L exclusion mutuelle distribuée L algorithme de L Amport L algorithme est basé sur 2 concepts : L estampillage des messages La distribution d une file d attente sur l ensemble des sites du système distribué

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Utilisation des tableaux sémantiques dans les logiques de description

Utilisation des tableaux sémantiques dans les logiques de description Utilisation des tableaux sémantiques dans les logiques de description IFT6281 Web Sémantique Jacques Bergeron Département d informatique et de recherche opérationnelle Université de Montréal bergerja@iro.umontreal.ca

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Programmation Par Contraintes

Programmation Par Contraintes Programmation Par Contraintes Cours 2 - Arc-Consistance et autres amusettes David Savourey CNRS, École Polytechnique Séance 2 inspiré des cours de Philippe Baptiste, Ruslan Sadykov et de la thèse d Hadrien

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

1.1 Codage de source et test d hypothèse

1.1 Codage de source et test d hypothèse Théorie de l information et codage 200/20 Cours 8février20 Enseignant: Marc Lelarge Scribe: Marc Lelarge Pour information Page webdu cours http://www.di.ens.fr/~lelarge/info.html Notations Pour des variables

Plus en détail

Probabilités conditionnelles Exercices corrigés

Probabilités conditionnelles Exercices corrigés Terminale S Probabilités conditionnelles Exercices corrigés Exercice : (solution Une compagnie d assurance automobile fait un bilan des frais d intervention, parmi ses dossiers d accidents de la circulation.

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Les structures de données. Rajae El Ouazzani

Les structures de données. Rajae El Ouazzani Les structures de données Rajae El Ouazzani Les arbres 2 1- Définition de l arborescence Une arborescence est une collection de nœuds reliés entre eux par des arcs. La collection peut être vide, cad l

Plus en détail

Corrigé du baccalauréat S Asie 21 juin 2010

Corrigé du baccalauréat S Asie 21 juin 2010 Corrigé du baccalauréat S Asie juin 00 EXERCICE Commun à tous les candidats 4 points. Question : Le triangle GBI est : Réponse a : isocèle. Réponse b : équilatéral. Réponse c : rectangle. On a GB = + =

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Gestion des Clés Publiques (PKI)

Gestion des Clés Publiques (PKI) Chapitre 3 Gestion des Clés Publiques (PKI) L infrastructure de gestion de clés publiques (PKI : Public Key Infrastructure) représente l ensemble des moyens matériels et logiciels assurant la gestion des

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Etude comparative de différents motifs utilisés pour le lancé de rayon

Etude comparative de différents motifs utilisés pour le lancé de rayon Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul

Plus en détail

Druais Cédric École Polytechnique de Montréal. Résumé

Druais Cédric École Polytechnique de Montréal. Résumé Étude de load balancing par un réseau de neurones de types HME (Hierarchical Mixture of s). Druais Cédric École Polytechnique de Montréal Résumé Cet article tente d introduire le principe de load balancing

Plus en détail

Apprentissage. Intelligence Artificielle NFP106 Année 2012-2013. Plan. Apprentissage. Apprentissage

Apprentissage. Intelligence Artificielle NFP106 Année 2012-2013. Plan. Apprentissage. Apprentissage Intelligence Artificielle NFP106 Année 2012-2013 Apprentissage! F.-Y. Villemin! Plan! Apprentissage! Induction! Règles d'inférence inductive! Apprentissage de concepts!! Arbres de décision! ID3! Analogie

Plus en détail

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN. EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

DATAMINING C4.5 - DBSCAN

DATAMINING C4.5 - DBSCAN 14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

ARBRES BINAIRES DE RECHERCHE

ARBRES BINAIRES DE RECHERCHE ARBRES BINAIRES DE RECHERCHE Table de symboles Recherche : opération fondamentale données : éléments avec clés Type abstrait d une table de symboles (symbol table) ou dictionnaire Objets : ensembles d

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes

Plus en détail

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck) Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck) Stéphane Cardon Nathalie Chetcuti-Sperandio Fabien Delorme Sylvain agrue CRI - Université d Artois {cardon,chetcuti,delorme,lagrue}@cril.univ-artois.fr

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

MIS 102 Initiation à l Informatique

MIS 102 Initiation à l Informatique MIS 102 Initiation à l Informatique Responsables et cours : Cyril Gavoille Catherine Pannier Matthias Robine Marc Zeitoun Planning : 6 séances de cours 5 séances de TD (2h40) 4 séances de TP (2h40) + environ

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Arbres binaires de recherche

Arbres binaires de recherche 1 arbre des comparaisons 2 recherche dichotomique l'arbre est recalculé à chaque recherche 2 5 3 4 7 9 1 6 1 2 3 4 5 6 7 9 10 conserver la structure d'arbre au lieu de la reconstruire arbre binaire de

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Études des principaux algorithmes de data mining

Études des principaux algorithmes de data mining Études des principaux algorithmes de data mining Guillaume CALAS guillaume.calas@gmail.com Spécialisation Sciences Cognitives et Informatique Avancée 14-16 rue Voltaire, 94270 Le Kremlin-Bicêtre, France

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

Ordinateur Logiciel Mémoire. Entrées/sorties Périphériques. Suite d'instructions permettant de réaliser une ou plusieurs tâche(s), de résoudre un

Ordinateur Logiciel Mémoire. Entrées/sorties Périphériques. Suite d'instructions permettant de réaliser une ou plusieurs tâche(s), de résoudre un ESZ Introduction à l informatique et à l environnement de travail Éric Gaul (avec la collaboration de Dominic Boire) Partie 1: Concepts de base Ordinateur Logiciel Mémoire Données Entrées/sorties Périphériques

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la

Plus en détail

Repères Gérer la capacité

Repères Gérer la capacité Repères Gérer la http://www.agilecom.fr Les enjeux de la gestion de la Réaliser cet ajustement est un effort continuel : La stratégie de l entreprise évolue avec la conjoncture ; Les métiers développent

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel Créer et modifier un fichier d'import des coordonnées approximatives avec Excel Manuel d'utilisation Date: 26.03.2015 Version: 1.0 Auteur: Christoph Rüfenacht Statut: En cours Libéré Classification: publique

Plus en détail

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite

Plus en détail

Data Mining et Statistique

Data Mining et Statistique Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les

Plus en détail