Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a
|
|
- Marie-Claude Marie-Hélène Robillard
- il y a 8 ans
- Total affichages :
Transcription
1 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Jérôme Azé Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a
2 Arbres de décision Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a
3 Arbres de décision Objectifs Objectifs Objectifs et applications Apprendre une classification (animale, végétale,...) Pouvoir répondre à un questionnaire Pouvoir résoudre un problème à l aide de Questions/Réponses Apprentissage de règles pour annoter des protéines... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 3ème / 74 a
4 Arbres de décision Objectifs Un exemple Détection de la grippe Apparition soudaine de fièvre élevée Le patient est fatigué Rhinorrhée (nez qui coule) Toux Douleurs à la gorge Enrouement, douleurs dorsales, des membres et céphalées Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a
5 Un exemple Arbres de décision Objectifs L arbre associé fièvre toux fatigue... angine... Nez qui coule... Maux de gorge Courbatures... et maux de dos... Grippe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a
6 Arbres de décision Méthode Méthode Méthode Apprendre une suite de Questions/Réponses la plus efficace possible Isoler les classes Organiser les questions/réponses sous la forme d un arbre Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a
7 Arbres de décision Méthode Autre exemple La ballade du chien Attributs quel temps fait-il? {pluvieux, ensoleillé, couvert} Température extérieure : attribut numérique Voisin parti avec son chat : attribut booléen Décision à prendre : Télévision ou ballade du chien Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a
8 La ballade du chien Arbres de décision Méthode L arbre de décision Quel temps fait-il? Couvert Ensoleillé Pluvieux Température? Voisin absent? TV 10 degrés > 10 degrés TV ballade non TV oui ballade Polytech Paris-SudDépartement informatique Formation par Apprentissage, 83ème / 74 a
9 Arbres de décision Méthode Construction de l arbre Rappels Problème : Apprendre un arbre de décision à partir d une base d exemples étiquetés Objectif : Être efficace en généralisation (être capable de classer correctement un nouvel exemple) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 93ème / 74 a
10 Arbres de décision Méthode Construction de l arbre Recherche exhaustive dans l espace des arbres possibles Exponentiel en fonction de d : nombre d attributs a : nombre moyen de valeurs par attribut d 1 (d i) ai i=0 d a Arbres possibles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 103ème / 74 a
11 Arbres de décision Méthode Construction de l arbre Construction intelligente de l arbre Démarrer avec un arbre vide et construire l arbre de manière inductive et descendante Critères d arrêt : échantillon pur plus d attributs a tester Polytech Paris-SudDépartement informatique Formation par Apprentissage, 113ème / 74 a
12 Arbres de décision Construction de l arbre Méthode Algorithme Procédure construirearbre(p) si (tous les points de P appartiennent à la même classe ) alors créer une feuille portant le nom de cette classe sinon Choisir le meilleur attribut pour créer un nœud test sur le nœud créé deux parties : P g et P d construirearbre(p g ) construirearbre(p d ) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 123ème / 74 a
13 Arbres de décision Positionnement du problème Positionnement du problème Notations Ensemble d apprentissage : E Un exemple (x, c) décrit par d attributs : x = {a 1, a 2,...,a d } w une classe C = {w 1,...,w C } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 13ème / 74 a
14 Arbres de décision Quelques probabilités... Positionnement du problème Calcul des probabilités soit un nœud contenant n exemples, répartis en C classes w j comportant chacune n j exemples Soit a un attribut binaire divisant chaque sous-ensemble n j en deux parties contenant respectivement : l j exemples pour test sur a = VRAI et r j exemples pour test sur a = FAUX l = C l j, r = C r j et r + l = n j=1 j=1 l j n P(a = VRAI, w = w j), r j n P(a = FAUX, w = w j) l P(a = VRAI), r n P(a = FAUX) n j n P(w = w j) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 143ème / 74 a
15 Arbres de décision Positionnement du problème Comment choisir le meilleur attribut Théorie de l information Information mutuelle (entropie croisée) Si w et a sont deux variables avec D w et D a leurs ensembles finis de valeurs possibles L entropie croisée de w et a est égale à I(w, a) = u,v D w D a P(u, v)log ( ) P(u, v) P(u)P(v) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 153ème / 74 a
16 Arbres de décision Théorie de l information Positionnement du problème Entropie Entropie d une variable aléatoire w H(w) = u D w P(u)log(P(u)) Entropie de w conditionnée par a H(w a) = P(u, v)log(p(u v)) u,v D w D a Résultat classique I(w a) = H(w) H(w a) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 163ème / 74 a
17 Arbres de décision Choix du meilleur attribut Positionnement du problème Estimation des probabilités Attribut retenu Ĥ(w a) = l n J(a = VRAI) + r J(a = FAUX) n avec J(a = VRAI) = C J(a = FAUX) = C j=1 j=1 ( ) lj l log ( rj r i = argmin (Ĥ(w a i)) i=1,...,d Entropie minimale si échantillon pur ) log ( ) lj l et ( ) rj r Polytech Paris-SudDépartement informatique Formation par Apprentissage, 173ème / 74 a
18 Arbres de décision Positionnement du problème Exemple de construction Exemple Problème : Étant donné une situation, prédire si un enfant peut aller ou non jouer avec son voisin Base d exemples Décisions prises les 8 jours précédents le problème (4 attributs binaires et une classe) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 183ème / 74 a
19 Exemple Arbres de décision Positionnement du problème Données d apprentissage Devoirs finis Maman de Temps = beau Goûter pris Décision bonne humeur 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 193ème / 74 a
20 Arbres de décision Positionnement du problème Exemple Recherche de la racine de l arbre DF BH TB GP Décision 1 Vrai Faux Vrai Faux OUI 2 Faux Vrai Faux Vrai OUI 3 Vrai Vrai Vrai Faux OUI 4 Vrai Faux Vrai Vrai OUI 5 Faux Vrai Vrai Vrai NON 6 Faux Vrai Faux Faux NON 7 Vrai Faux Faux Vrai NON 8 Vrai Vrai Faux Faux NON Calcul de H(w DF), H(w BH), H(w TB) et H(w GP) H(w DF) = 5 8 J(DF = Vrai) + 3 8J(DF = Faux) J(DF = Vrai) = 3 5 log( 3 5 ) 2 5 log( 2 5 ) J(DF = Faux) = 1 3 log( 1 3 ) 2 3 log( 2 3 ) H(w BH) = 0.93, H(w TB) = 0.8 et H(w GP) = 1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 203ème / 74 a
21 Exemple Arbres de décision Positionnement du problème Arbre de décision... faux DF BH GP Décision 2 Faux Vrai Vrai OUI 6 Faux Vrai Faux NON 7 Vrai Faux Vrai NON 8 Vrai Vrai Faux NON Temps = beau? vrai DF BH GP Décision 1 Vrai Faux Faux OUI 3 Vrai Vrai Faux OUI 4 Vrai Faux Vrai OUI 5 Faux Vrai Vrai NON Polytech Paris-SudDépartement informatique Formation par Apprentissage, 213ème / 74 a
22 Exemple Arbres de décision Positionnement du problème Arbre de décision obtenu Temps = beau? faux Goûter pris? vrai Devoirs finis? NON Maman de bonne humeur? NON OUI NON OUI Polytech Paris-SudDépartement informatique Formation par Apprentissage, 223ème / 74 a
23 Arbres de décision Positionnement du problème Élagage de l arbre Pré-élagage créer une feuille si une classe y est majoritairement représentée (seuil a priori) utilisation de critères locaux Post-élagage utilisation d un ensemble indépendant de l ensemble d apprentissage mesurer l erreur commise sur cet ensemble Polytech Paris-SudDépartement informatique Formation par Apprentissage, 23ème / 74 a
24 Arbres de décision Positionnement du problème Élagage Post-élagage Soit T max l arbre obtenu à partir de l ensemble d apprentissage Construire une suite d arbres {T max, T 1, T 2,..., T n } en partant des feuilles et en remontant vers la racine en transformant un nœud en feuille à chaque étape. Comparer le coût du nouvel arbre à celui du précédent et arrêter l élagage si le coût est supérieur Polytech Paris-SudDépartement informatique Formation par Apprentissage, 243ème / 74 a
25 Post-élagage Arbres de décision Positionnement du problème Estimation du coût d un arbre Prise en considération de : erreur commise par l arbre complexité de l arbre w(t k, v) = MC ela(v, k) MC(v, k) n(k)(nt(v, k) 1) n(k) nt(v, k) MC(v, k) MC ela (v, k) Nombre de feuilles de T k Nombre de feuilles du sous-arbre de T k situé sous le nœud de v Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre non élagué Nombre d exemples de l ensemble d apprentissage mal classés par le nœud v de T k dans l arbre élagué à v Polytech Paris-SudDépartement informatique Formation par Apprentissage, 253ème / 74 a
26 Post-élagage Arbres de décision Positionnement du problème Algorithme Procédure élaguer (T max); k 0; T k T max ; tant que (T k a plus d un nœud) faire pour chaque (nœud v de T k ) faire Calculer le critère w(t k, v) sur l ensemble d apprentissage fin Choisir le nœud v m pour lequel le critère est minimum; T k+1 se déduit de T k en y remplaçant v m par une feuille; k k + 1 fin Tq Sur l ensemble des arbres {T max, T 1,..., T k,..., T n} choisir celui qui a la plus petite erreur en classification sur l ensemble de validation Polytech Paris-SudDépartement informatique Formation par Apprentissage, 263ème / 74 a
27 Arbres de décision Un exemple d élagage Positionnement du problème Les données Polytech Paris-SudDépartement informatique Formation par Apprentissage, 273ème / 74 a
28 Arbres de décision Un exemple d élagage Positionnement du problème L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 4 : X 2 > d Polytech Paris-SudDépartement informatique Formation par Apprentissage, 283ème / 74 a
29 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T max v 1 : X 1 > a faux v 2 : X 2 > c vrai v 3 : X 2 > b v 1 v 2 w(t max, v 1 ) = 9 0 5(5 1) = 9 20 w(t max, v 2 ) = 1 0 5(3 1) = 1 10 v 4 : X 2 > d v 3 v 4 w(t max, v 3 ) = 2 0 5(2 1) = 2 5 w(t max, v 4 ) = 1 0 5(2 1) = 1 5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 293ème / 74 a
30 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b Polytech Paris-SudDépartement informatique Formation par Apprentissage, 303ème / 74 a
31 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 1 v 1 : X 1 > a faux vrai v 3 : X 2 > b v 1 v 3 w(t 1, v 1 ) = 9 1 3(3 1) = 4 3 w(t 1, v 3 ) = 2 0 3(2 1) = 2 3 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 313ème / 74 a
32 Arbres de décision Positionnement du problème Un exemple d élagage L arbre de décision T 2 v 1 : X 1 > a faux vrai Polytech Paris-SudDépartement informatique Formation par Apprentissage, 323ème / 74 a
33 Arbres de décision Un exemple d élagage Positionnement du problème Choix de l arbre Choisir, à partir d un ensemble de validation, le meilleur arbre parmi T max, T 1 et T 2, c est-à-dire celui minimisant l erreur de classification. X 2 > d X 2 > c X 1 > a T max X 2 > b X 1 > a T 1 X 2 > b X 1 > a T 2 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 33ème / 74 a
34 Arbres de décision Positionnement du problème Récapitulatif Pour résumer Méthode de référence en apprentissage supervisé Méthode très répandue, rapide et disponible (http :// quinlan) Méthode relativement sensible au bruit Polytech Paris-SudDépartement informatique Formation par Apprentissage, 343ème / 74 a
35 Données hiérarchiques Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 353ème / 74 a
36 Données hiérarchiques Données hiérarchiques Intérêt Pouvoir associer à une donnée une description plus ou moins fine en fonction des informations disponibles Pouvoir raisonner sur des données en regroupant les exemples par catégories Capacité de généralisation augmentée... Quelques exemples Structuration d une administration Classifications animales, végétales,... Classifications médicales Polytech Paris-SudDépartement informatique Formation par Apprentissage, 363ème / 74 a
37 Données hiérarchiques Application au problème de l annotation des génomes Annotation fonctionnelle des génomes Objectif Pouvoir annoter fonctionnellement chaque protéine d un génome Tâche souvent réalisée manuellement taille du génome : 2000 gènes durée 12 à 18 mois de travail pour une équipe de 3 à 4 annotateurs Utilisation de méthodes d apprentissage pour accélérer et systématiser l annotation : mise au point de systèmes d annotation semi-automatique Utilisation de classifications fonctionnelles de référence pour annoter les génomes : Funcat, Subtilist, GO,... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 373ème / 74 a
38 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (arborescentes) Subtilist, Multifun, Funcat Subtilist conçue pour l annotation de Bacillus subtillis, également utilisée pour annoter d autres génomes bactériens. Multifun conçue pour E.coli par M. Riley. Funcat FUNctionnal CATegories, utilisée pour la/les levure(s), gérée et exploitée au MIPS. Quelques chiffres Hiérarchie Profondeur # Classes # Classes principales Subtilist Multifun Funcat Polytech Paris-SudDépartement informatique Formation par Apprentissage, 383ème / 74 a
39 Données hiérarchiques Application au problème de l annotation des génomes Classifications fonctionnelles biologiques (DAG) Gene Ontology Mise au point par un consortium, plutôt à l initiative de bioinformaticiens. Besoin d un vocabulaire contrôlé. Conçue pour 3 génomes (levure, souris et drosophile), applicable à tous génomes. Composée de 3 ontologies : biological processes ( produits de gènes) cellular components ( produits de gènes) molecular functions ( produits de gènes) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 393ème / 74 a
40 Données hiérarchiques Application au problème de l annotation des génomes Utilisation de ces classifications fonctionnelles Nature des données étiquetées Génomes bactériens, humain, souris,... Une protéine peut être étiquetée avec une ou plusieurs fonctions Si une protéine est étiquetée avec une classe x.y.z alors elle est aussi étiquetée avec les classes x.y et x qui sont plus générales. Soit R C (f 1, f 2, r) la relation de parenté (père-fils (r = asc) ou inversement (r = desc)) liant les classes f 1 et f 2 dans la classification C x tq classe(x) = {f i }, f j tq R h (f j, f i, asc) alors classe(x) = classe(x) {f j } Polytech Paris-SudDépartement informatique Formation par Apprentissage, 403ème / 74 a
41 Données hiérarchiques Hiérarchies fonctionnelles Application au problème de l annotation des génomes Différentes configurations pour un exemple donné Étude du cas le plus général Problème : comment évaluer les performances d un classifieur pour de telles données? Définition de nouvelles mesures adaptées aux classifications hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 413ème / 74 a
42 Données hiérarchiques Mesures d évaluation hiérarchiques Mesures d évaluation hiérarchiques État de l art Re-définition des mesures classiques précision rappel F score Définition de nouvelles mesures hiérarchiques Polytech Paris-SudDépartement informatique Formation par Apprentissage, 423ème / 74 a
43 Données hiérarchiques Mesures d évaluation hiérarchiques Re-définition des mesures classiques Précision, rappel et F score hiérarchiques Hierarchical Text Categorization as a Tool of Associating Genes with Gene Ontology Codes, Kiritchenko et al., PKDD 04 Évaluation des prédictions selon 5 critères n : nombre d exemples à prédire n p : nombre d exemples ayant au moins une prédiction n p + : nombre de prédictions correctes np : nombre de prédictions incorrectes : nombre de prédictions oubliées n p Polytech Paris-SudDépartement informatique Formation par Apprentissage, 43ème / 74 a
44 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Illustration (a) (b) (c) (d) (e) (a) n p + = 3, n p = n p = 0 (b) n p + = 0, np = 0 et np = 2 (c) n p + = np = np = 1 (d) n p + = 2, np = 1 et np = 0 (e) n p + = 2, np = 0 et np = 1 (a,b,c,d,e) n p = 4, n = 5 et pr = 4/5 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 443ème / 74 a
45 Données hiérarchiques Mesures d évaluation hiérarchiques Précision, rappel et F score hiérarchiques Définitions Précision hiérarchique : hp = n+ p n + p +n p Rappel hiérarchique : hr = n+ p n + p +n p F score hiérarchique : hf score (β) = (β2 +1).hP.hR β 2.hP+hR Taux de prédiction : pr = np n Polytech Paris-SudDépartement informatique Formation par Apprentissage, 453ème / 74 a
46 Données hiérarchiques Mesures d évaluation hiérarchiques Définition de nouvelles mesures hiérarchiques Nouvelles mesures hiérarchiques Incremental Algorithms for Hierarchical Classification, N. Césa-Bianchi et al., JMLR 06 Définition d une mesure appelée : H-loss Définition Soit f(x) = {f i } l ensemble des classes de x et f(x) = { f i } l ensemble des classes prédites pour x } l C ( f(x), f(x)) = { fi f i f i et j tq R C (f j, f i, asc) et R C (f j, f i, asc) i puis pondération des erreurs en fonction du niveau auquel elles apparaissent Polytech Paris-SudDépartement informatique Formation par Apprentissage, 463ème / 74 a
47 H-loss Données hiérarchiques Mesures d évaluation hiérarchiques Illustration (a) (b) (c) (d) (e) (a) l C ( b f(a), f(a)) = (b) b f(b) = (c) l C ( b f(c), f(c)) = {2.4} (d) l C ( b f(d), f(c)) = {3.5.2} (e) l C ( b f(e), f(c)) = (a,b,c,d,e) l C ( b f(a, b, c, d, e), f(a, b, c, d, e)) = {2.4, 3.5.2} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 473ème / 74 a
48 Données hiérarchiques Mesures d évaluation hiérarchiques Autres mesures Biblio Hierarchical Text Classification and Evaluation, A. Sun and E.-P. Lim, ICDM 01 Relaxed Precision and Recall for Ontology Matching, M. Ehrig Learning with Taxonomies : Classifying Documents and Words, T. Hofmann, L. Cai and M. Ciaramita, NIPS Polytech Paris-SudDépartement informatique Formation par Apprentissage, 483ème / 74 a
49 Arbres de décision probabilistes multi-labels Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 493ème / 74 a
50 Arbres de décision probabilistes multi-labels Arbres de décision multi-labels Différentes approches C4.5 : un arbre par classe et recombinaison des arbres. C4.5H : Entropie généralisée à la notion de hiérarchie pour C4.5, A. Clare Clus-HMC : Decision Trees for Hierachical Multilabel Classification : A Case Study in Functional Genomics, H. Blockeel et al., PKDD 06 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 503ème / 74 a
51 Arbres de décision probabilistes multi-labels Clus-HMC Apprentissage d arbres de décision probabilistes multi-labels Apprentissage de type attribut-valeur Entrée : Une hiérarchie fonctionnelle Un ensemble d exemples étiquetés avec cette hiérarchie Sortie : Un arbre de décision permettant de prédire plusieurs classes d une hiérarchie fonctionnelle pour un exemple À chaque classe est associée une probabilité Polytech Paris-SudDépartement informatique Formation par Apprentissage, 513ème / 74 a
52 Arbres de décision probabilistes multi-labels Clus-HMC Représentation des données Exemple. Soit la hiérarchie suivante : 1 (1) 2 (2) 3 (3) 2.1 (4) 2.2 (5) L exemple appartenant aux classes 1 et 2.2 est donc représenté par le vecteur : (1) (2) (3) (4) (5) {1, 1, 0, 0, 1} Polytech Paris-SudDépartement informatique Formation par Apprentissage, 523ème / 74 a
53 Clus-HMC Arbres de décision probabilistes multi-labels Algorithme Algorithme Fonction Clus-HMC(T : arbre) : arbre Variables : t, h, P début (t, h, P ) = (none,, ) pour chaque (test possible t) faire P = partition induite par t sur T h = P T k T Var(T k) fin T k P si (h < h acceptable(t, P)) alors (t, h, P ) = (t, h, P) fin si (t none) alors pour chaque (T k P ) faire tree k = Clus-HMC(T k ) retourner nœud (t, {tree k }) k sinon retourner feuille (bv) fin Si Polytech Paris-SudDépartement informatique Formation par Apprentissage, 53ème / 74 a
54 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... calcul de h = T k P Var(T k ) = x i T k avec T k T Var(T k) dist(x i,bx Tk ) x i x Tk = vecteur moyen sur T k dist(x i, x Tk ) = w j ( x i (j) x Tk (j) ) 2 { j xi (j) : j eme valeur du vecteur x i où w j = w profondeur(c j) 0 Pondération de la variance de chaque partie de P par le cardinal de la partie T k divisé par le cardinal de T. Plus T k contient d exemples et plus son poids est important. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 543ème / 74 a
55 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Heuristique, test,... Qu est ce qu un test acceptable? Critères définissant l acceptabilité d un test : Nombre minimum d exemple dans une feuille. Réduction significative de la variance (utilisation d un F-test). Polytech Paris-SudDépartement informatique Formation par Apprentissage, 553ème / 74 a
56 Arbres de décision probabilistes multi-labels Algorithme Clus-HMC : Que contiennent les feuilles? Les feuilles de l arbre Classiquement : classe majoritairement représentée Ici : v = {p(c i ) 1 i n, p(c i ) : proba d observer c i } Prédiction Dépend de seuils t i Si p(c i ) t i alors classe c i associée à l exemple Contraintes sur les seuils afin de préserver les propriétés de la classification : i, j tq c i h c j, t i t j. Donc si la classe c j est prédite pour un exemple, alors la classe c i (plus générale que c j ) sera aussi prédite. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 563ème / 74 a
57 Arbres de décision probabilistes multi-labels Clus-HMC : un exemple Algorithme Portion d arbre appris sur un génome de l INRA : Lactobacillus sakei Polytech Paris-SudDépartement informatique Formation par Apprentissage, 573ème / 74 a
58 Boostrap, bagging et boosting Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 583ème / 74 a
59 Bootstrap Boostrap, bagging et boosting Bootstrap Citation [Wikipedia] En anglais, le bootstrapping fait référence aux aventures du baron de Münchhausen, lequel est censé s être sorti d un marécage où il était embourbé rien qu en se tirant par les bottes et se propulsant ainsi dans les airs. Les bootstraps sont les anneaux, en cuir ou en tissu, cousus sur le rebord des bottes et dans lesquels on passe les doigts pour s aider à les enfiler. Polytech Paris-SudDépartement informatique Formation par Apprentissage, 593ème / 74 a
60 Boostrap, bagging et boosting Bootstrap Bootstrap Intérêt Utile lorsque trop ou trop peu d exemples sont disponibles trop d exemples : temps de calcul du modèle élevé trop peu d exemples : difficile d apprendre un modèle fiable Permet d apprendre plusieurs modèles dont la combinaison s avère plus fiable que des modèles séparés Il est théoriquement prouvé et empiriquement vérifié que l estimation du risque empirique est nettement meilleure avec une approche bootstrap Polytech Paris-SudDépartement informatique Formation par Apprentissage, 603ème / 74 a
61 Bootstrap Boostrap, bagging et boosting Bootstrap Principe Soit D le jeu de données utilisé 1 Construire D b, l échantillon bootstrap de D par tirage avec remise de n exemples dans D. En moyenne, 37% des exemples de D appartiennent à D b. 2 Utiliser D b pour apprendre un modèle Soit P 1 l erreur observée sur D D b. Soit P 2 l erreur observée sur D 3 Itérer le processus k fois 4 Soit P 1 la moyenne des erreurs P 1 (idem pour P 2 ) 5 Calculer l estimation du risque réel R reel = P P 2 Pour des grandes valeurs de k, l estimation du risque réel s avère très précise (problème : apprendre k modèles) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 613ème / 74 a
62 Boostrap, bagging et boosting Bagging Bagging Intérêt Utile si le ou les algorithmes d apprentissage utilisés sont instables Un algorithme d apprentissage est considéré comme instable si une faible variation de l ensemble d apprentissage entraine une large variation des classifications Quelques exemples d algorithmes stables et instables Algorithmes stables : k-plus proches voisins Algorithmes instables : réseaux de neurones, arbres de décision Polytech Paris-SudDépartement informatique Formation par Apprentissage, 623ème / 74 a
63 Boostrap, bagging et boosting Bagging Bagging Principe Bootstrap aggregating Soit D le jeu de données utilisé Apprendre B modèles à partir d échantillons bootstrap D b de D Chaque modèle obtenu est noté h b. La combinaison des modèles obtenus, H, est utilisée pour prédire la classe d un nouvel exemple Polytech Paris-SudDépartement informatique Formation par Apprentissage, 63ème / 74 a
64 Bagging Boostrap, bagging et boosting Bagging Différentes combinaisons Si la prédiction est numérique (distance à un hyperplan par B exemple) : H(x) = 1 B h b (x) b=1 Si la prédiction est symbolique (classes de x par exemple) : Chaque classifieur vote pour chaque classe (les votes peuvent être pondérés) La ou les classes majoritaires l emportent Une probabilité peut être affectée à chaque classe Polytech Paris-SudDépartement informatique Formation par Apprentissage, 643ème / 74 a
65 Boostrap, bagging et boosting Bagging Bagging Résultats Algorithmes d apprentissage instables Amélioration de la qualité des prédictions Réduction de la variance sans modifier les biais d apprentissage Algorithmes d apprentissage stables En général, dégradation les performances Polytech Paris-SudDépartement informatique Formation par Apprentissage, 653ème / 74 a
66 Boostrap, bagging et boosting Boosting Boosting Principe Y. Freund and R. Schapire, 1999 Famille de méthodes permettant d accélérer un algorithme d apprentissage AdaBoost (problèmes à deux classes) AdaBoost.M1, AdaBoost.M2 (problèmes multi-classes) AdaBoostR (régression) L idée de base est de booster un algorithme d apprentissage faible Un algorithme d apprentissage faible étant par exemple, un algorithme produisant un ensemble de règles à peine meilleures qu une prédiction aléatoire Polytech Paris-SudDépartement informatique Formation par Apprentissage, 663ème / 74 a
67 Boostrap, bagging et boosting Boosting Boosting Principe Apprentissage de plusieurs classifieurs L ensemble d apprentissage d un classifieur à l étape t dépend des performances des classifieurs obtenus aux étapes 1,..., t 1 Les exemples difficiles à classer sont choisis plus fréquemment que les exemples aisément classifiables Le classifieur peut alors se focaliser sur les exemples difficiles Polytech Paris-SudDépartement informatique Formation par Apprentissage, 673ème / 74 a
68 Boostrap, bagging et boosting Boosting Boosting AdaBoost Soit D un ensemble d apprentissage ayant N exemples À chaque itération, t = 1,...,T, l exemple i a un poids w t (i) tel que i D, w 1 (i) = 1 N Apprentissage de T classifieurs Le classifieur final H est obtenu en combinant les T classifieurs par bagging Polytech Paris-SudDépartement informatique Formation par Apprentissage, 683ème / 74 a
69 Boostrap, bagging et boosting Boosting AdaBoost Boosting Détail d une itération 1 Apprendre un classifieur h t à partir des exemples pondérés avec les poids w t (i) 2 taux d erreur de h t : ǫ t = P w t (i)[h t (i) y i ] i D 3 si (ǫ t 0) et(ǫ t < 0.5) alors choisir α t R généralement α t = 1 1 ǫt 2ln ǫ t 4 Mise à jour des poids : w t+1 (i) = w t(i)e α t y i h t (i) Z t Z t est un facteur de normalisation tel que w t+1 (i) = 1 i La mise à jour des poids est telle que { e α t y i h t(i) < 1 si y(i) = h t (i) e αt y i h t(i) > 1 si y(i) h t (i) Polytech Paris-SudDépartement informatique Formation par Apprentissage, 693ème / 74 a
70 Boostrap, bagging et boosting Boosting AdaBoost Boosting Classifieur résultant obtenu par bagging Vote pondéré : chaque classifieur h t vote pour les classes qu il prédit. Le poids des votes de h t est α t Somme pondérée ( (problèmes à deux classes) : T ) H(i) = sign α t h t (i) t=1 Polytech Paris-SudDépartement informatique Formation par Apprentissage, 703ème / 74 a
71 Random Forest Outline 1 Arbres de décision Objectifs Méthode Positionnement du problème 2 Données hiérarchiques Application au problème de l annotation des génomes Mesures d évaluation hiérarchiques 3 Arbres de décision probabilistes multi-labels Clus-HMC Algorithme 4 Boostrap, bagging et boosting Bootstrap Bagging Boosting 5 Random Forest Polytech Paris-SudDépartement informatique Formation par Apprentissage, 713ème / 74 a
72 Random Forest Random Forest Généralités Apprentissage d un ensemble d arbres de décision Combinaison des prédictions de l ensemble des arbres appris pour prédire la (ou les) classes d un exemple Initialement proposé par T.K. Ho en 1995 Popularisé par L. Breiman et A. Cutler Polytech Paris-SudDépartement informatique Formation par Apprentissage, 723ème / 74 a
73 Random Forest Random Forest Principe Soit D les données étudiées contenant N exemples décrits par M descripteurs Création d un échantillon bootstrap D b de taille N à partir de D Apprentissage d un arbre de décision sur D b Choix du nombre de descripteurs m M utilisés à chaque nœud pour choisir le meilleur test Pour chaque nœud de l arbre, choisir aléatoirement m descripteurs parmi M pour déterminer le meilleur test (tirage sans remise) Itérer le processus K fois Aucun des arbres obtenus n est élagué Polytech Paris-SudDépartement informatique Formation par Apprentissage, 73ème / 74 a
74 Random Forest Random Forest Avantages Pour de nombreux jeux de données, le classifieur résultant fournit des prédictions de meilleure qualité Permet de gérer des jeux de données ayant de très nombreux descripteurs Permet de déterminer l importance des descripteurs dans le processus de classification (sélection d attributs) Réduction du temps d apprentissage... Polytech Paris-SudDépartement informatique Formation par Apprentissage, 743ème / a
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailFast and furious decision tree induction
Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailArbres de Décision. 1 Introduction
Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailIntégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailContinuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Plus en détailL exclusion mutuelle distribuée
L exclusion mutuelle distribuée L algorithme de L Amport L algorithme est basé sur 2 concepts : L estampillage des messages La distribution d une file d attente sur l ensemble des sites du système distribué
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailUtilisation des tableaux sémantiques dans les logiques de description
Utilisation des tableaux sémantiques dans les logiques de description IFT6281 Web Sémantique Jacques Bergeron Département d informatique et de recherche opérationnelle Université de Montréal bergerja@iro.umontreal.ca
Plus en détail5. Apprentissage pour le filtrage collaboratif
686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,
Plus en détailWhy Software Projects Escalate: The Importance of Project Management Constructs
Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion
Plus en détailProgrammation Par Contraintes
Programmation Par Contraintes Cours 2 - Arc-Consistance et autres amusettes David Savourey CNRS, École Polytechnique Séance 2 inspiré des cours de Philippe Baptiste, Ruslan Sadykov et de la thèse d Hadrien
Plus en détailCapacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Plus en détail1.1 Codage de source et test d hypothèse
Théorie de l information et codage 200/20 Cours 8février20 Enseignant: Marc Lelarge Scribe: Marc Lelarge Pour information Page webdu cours http://www.di.ens.fr/~lelarge/info.html Notations Pour des variables
Plus en détailProbabilités conditionnelles Exercices corrigés
Terminale S Probabilités conditionnelles Exercices corrigés Exercice : (solution Une compagnie d assurance automobile fait un bilan des frais d intervention, parmi ses dossiers d accidents de la circulation.
Plus en détailLa gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche
Plus en détailIntroduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
Plus en détailLES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Plus en détailLes structures de données. Rajae El Ouazzani
Les structures de données Rajae El Ouazzani Les arbres 2 1- Définition de l arborescence Une arborescence est une collection de nœuds reliés entre eux par des arcs. La collection peut être vide, cad l
Plus en détailCorrigé du baccalauréat S Asie 21 juin 2010
Corrigé du baccalauréat S Asie juin 00 EXERCICE Commun à tous les candidats 4 points. Question : Le triangle GBI est : Réponse a : isocèle. Réponse b : équilatéral. Réponse c : rectangle. On a GB = + =
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailGestion des Clés Publiques (PKI)
Chapitre 3 Gestion des Clés Publiques (PKI) L infrastructure de gestion de clés publiques (PKI : Public Key Infrastructure) représente l ensemble des moyens matériels et logiciels assurant la gestion des
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailMaster d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien
Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation
Plus en détailStructures algébriques
Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailEtude comparative de différents motifs utilisés pour le lancé de rayon
Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul
Plus en détailDruais Cédric École Polytechnique de Montréal. Résumé
Étude de load balancing par un réseau de neurones de types HME (Hierarchical Mixture of s). Druais Cédric École Polytechnique de Montréal Résumé Cet article tente d introduire le principe de load balancing
Plus en détailApprentissage. Intelligence Artificielle NFP106 Année 2012-2013. Plan. Apprentissage. Apprentissage
Intelligence Artificielle NFP106 Année 2012-2013 Apprentissage! F.-Y. Villemin! Plan! Apprentissage! Induction! Règles d'inférence inductive! Apprentissage de concepts!! Arbres de décision! ID3! Analogie
Plus en détailI.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.
EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détail4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Plus en détailMesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailDATAMINING C4.5 - DBSCAN
14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailLa nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailARBRES BINAIRES DE RECHERCHE
ARBRES BINAIRES DE RECHERCHE Table de symboles Recherche : opération fondamentale données : éléments avec clés Type abstrait d une table de symboles (symbol table) ou dictionnaire Objets : ensembles d
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détail(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)
(19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailSélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr
Plus en détailUne nouvelle approche de détection de communautés dans les réseaux sociaux
UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise
Plus en détail1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert
1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes
Plus en détailDécision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)
Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck) Stéphane Cardon Nathalie Chetcuti-Sperandio Fabien Delorme Sylvain agrue CRI - Université d Artois {cardon,chetcuti,delorme,lagrue}@cril.univ-artois.fr
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailData Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG
Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert
Plus en détailCours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailMIS 102 Initiation à l Informatique
MIS 102 Initiation à l Informatique Responsables et cours : Cyril Gavoille Catherine Pannier Matthias Robine Marc Zeitoun Planning : 6 séances de cours 5 séances de TD (2h40) 4 séances de TP (2h40) + environ
Plus en détailFONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières
FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage
Plus en détailArbres binaires de recherche
1 arbre des comparaisons 2 recherche dichotomique l'arbre est recalculé à chaque recherche 2 5 3 4 7 9 1 6 1 2 3 4 5 6 7 9 10 conserver la structure d'arbre au lieu de la reconstruire arbre binaire de
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailÉtudes des principaux algorithmes de data mining
Études des principaux algorithmes de data mining Guillaume CALAS guillaume.calas@gmail.com Spécialisation Sciences Cognitives et Informatique Avancée 14-16 rue Voltaire, 94270 Le Kremlin-Bicêtre, France
Plus en détailProbabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2
Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................
Plus en détailOrdinateur Logiciel Mémoire. Entrées/sorties Périphériques. Suite d'instructions permettant de réaliser une ou plusieurs tâche(s), de résoudre un
ESZ Introduction à l informatique et à l environnement de travail Éric Gaul (avec la collaboration de Dominic Boire) Partie 1: Concepts de base Ordinateur Logiciel Mémoire Données Entrées/sorties Périphériques
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailRapport de Stage. Titre : Clustering à l aide d une représentation supervisée
Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la
Plus en détailRepères Gérer la capacité
Repères Gérer la http://www.agilecom.fr Les enjeux de la gestion de la Réaliser cet ajustement est un effort continuel : La stratégie de l entreprise évolue avec la conjoncture ; Les métiers développent
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailCréer et modifier un fichier d'import des coordonnées approximatives avec Excel
Créer et modifier un fichier d'import des coordonnées approximatives avec Excel Manuel d'utilisation Date: 26.03.2015 Version: 1.0 Auteur: Christoph Rüfenacht Statut: En cours Libéré Classification: publique
Plus en détailGrandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test
Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite
Plus en détailData Mining et Statistique
Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les
Plus en détail