Machine Learning Option : Ouverte Recherche Big data

Dimension: px
Commencer à balayer dès la page:

Download "Machine Learning Option : Ouverte Recherche Big data"

Transcription

1 /1 Option : Ouverte Recherche Big data Alexandre Aussem Département Informatique - Polytech Lyon Université Claude Bernard Lyon 1 Web : perso.univ-lyon1.fr/alexandre.aussem 16h CM, 16h TD 2 octobre 2015

2 2/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

3 Introduction à l apprentissage numérique 3/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

4 4/1 Introduction à l apprentissage numérique Introduction L apprentissage numérique (ou statistique) fait référence au développement, à l analyse et à l implémentation de méthodes statistiques qui permettent à une machine d apprendre à remplir une tâche à partir d exemples Il est difficile voire impossible de remplir ces tâches par des moyens algorithmiques plus classiques. Exemples de tâches : reconnaissance de formes ou de signaux, prévision, diagnostic, détection, prise de décision en environnement complexe, incertain et évolutif.

5 5/1 Introduction à l apprentissage numérique Introduction Ses applications sont multiples dans le monde de la production industrielle (aide à la conception de produits, maintenance préventive, robotique, planification d expériences), dans le domaine de la biologie et de la santé (aide à la découverte de médicaments, aide au diagnostic, bioinformatique), en télécommunications, en marketing et finance etc. Ce module aborde les fondements théoriques de l apprentissage numérique et offre de solides bases méthodologiques à tout ingénieur ou chercheur soucieux d exploiter ses données.

6 6/1 Introduction à l apprentissage numérique Applications nouvelles La publicité en ligne (ads) se fait généralement sous forme de campagne publicitaire, grâce à la diffusion de bandeaux publicitaires ou de liens sponsorisés. Les régies publicitaires sont les intermédiaires entre les annonceurs (souhaitant diffuser une campagne publicitaire) et les éditeurs (propriétaires de sites). Il existe différents modes de rémunération : CPC (Coût par clic), CPM (Coût par mille), CPS (Cost per Sale). Enjeu : comment trouver en temps réel le best match entre utilisateur, publicité et contexte? Le contexte = requête sur un moteur de recherche, lecture d une page web, interaction avec un mobile etc. But : predire l impact de la publicité sur le comportement de l usager. Marché de 28 milliards de dollars en 2011.

7 7/1 Introduction à l apprentissage numérique Applications nouvelles Kinect est un périphérique destiné à la console de jeux vidéo Xbox 360 permettant de contrôler des jeux vidéo sans utiliser de manette. Elle utilise une technologie 3D depth sensor (capteur de profondeur/distance 3D). C est un émetteur de lumière infrarouge, une partie de ces rayonnements est réfléchie. La lampe infrarouge projette ses rayons sur la scène, la caméra infrarouge filme cette scène et une puce traite les données afin d estimer la distance de chaque objet par rapport à la caméra. Il y a un processus d apprentissage statistique pour reconnaître la silhouette du joueur et les différents points de motion control et anticiper sa dynamique.

8 8/1 Introduction à l apprentissage numérique Applications nouvelles Des applications mobiles de santé ont vu le jour, permettant de conseiller les patients et apporter des conseils personnalisés à tous ceux qui ont du mal à joindre un médecin, par ex. Alerte Fièvre est capable de recommander la prise de médicaments pour lutter contre la fièvre et de proposer la dose adaptée au profil du patient. Un arbre de décision permet de savoir s il est nécessaire de consulter un médecin en fonction de divers paramètres (intensité de la fièvre, antécédents, réaction aux prises de médicaments). Google se lance également dans le diagnostic médical. Un internaute qui entre des symptômes dans la version anglophone du moteur de recherche se voit désormais proposer une liste de pathologies pouvant correspondre à son cas.

9 9/1 Introduction à l apprentissage numérique Applications nouvelles Réseaux sociaux et web marketing : L analyse de réseaux sociaux comme Facebook ou Twitter est un domaine de recherche maintenant établi. De nombreuses techniques existent pour identifier des communautés d utilisateurs en se basant sur leur relations explicites (amitiés, etc.), et sur la dynamique temporelle et le contenu des échanges (posts). Les données transitant sur les réseaux sociaux permettent des usages variés : compréhension les attitudes, les opinions, les tendances, la fiabilité ou la capacité d influence des utilisateurs, identification des menaces sur la réputation en ligne, prédiction du comportement des utilisateurs et améliorer leur satisfaction en recommandant les meilleures options à prendre, création de campagnes et de promotions personnalisées résonnant auprès des communautés de chaque réseau.

10 10/1 Introduction à l apprentissage numérique Terminologie Quelques synomymes : Apprentissage machine (), Apprentissage statistique (Statistical Learning), Extraction de connaissance à partir de données (Knowledge Discovery in Databases), Reconnaissance de formes (Pattern Recognition), Fouille de données (Data mining),

11 11/1 Introduction à l apprentissage numérique Illustration : Reconnaissance de chiffres manuscrits

12 12/1 Introduction à l apprentissage numérique Individus/attributs Le KDD, c est tout le cycle de découverte d information. Dans ce cours, on ne s intéresse pas à la conception des entrepots et à l accès aux données, mais aux algorithmes numériques pour en extraire de l information. On se donne un tableau X = {x ij } i = 1,..., n décrit les individus, instances ou enregistrements, j = 1,..., m décrit les champs, attributs ou variables du domaine. Les données peuvent être discrètes énumératives (e.g. couleur, code postal etc.), discrètes ordonnées (e.g. classe de salaire ou d âge etc.) ou continues. Prétraitement nécessaire pour l extraction de features dans les données structurées : image, son, video, texte, XML etc.

13 13/1 Introduction à l apprentissage numérique Problématiques en apprentissage (non temporel) 1 Apprentissage supervisé : attribuer une classe, (t N), à partir de données déjà étiquetées. Variantes : multi-class et multi-label classification, ranking. 2 Apprentissage semi-supervisé : attribuer une classe (t N) aux observations (symptômes) à partir de données étiquetées et non étiquetées. 3 Apprentissage non supervisé : former des groupes (clusters) homogènes à l intérieur d une population non étiquetée. 4 Apprentissage par renforcement : trouver à chaque instant l action qui maximise la somme des récompenses futures. Dans le cas de la régression, la valeur cible est réelle (t R).

14 14/1 Introduction à l apprentissage numérique Example : Image annotation/retrieval

15 15/1 Introduction à l apprentissage numérique Multi-label learning

16 16/1 Introduction à l apprentissage numérique Multivariate prediction

17 17/1 Introduction à l apprentissage numérique Label ranking

18 18/1 Introduction à l apprentissage numérique Multi-task learning

19 19/1 Introduction à l apprentissage numérique Collaborative filtering

20 20/1 Introduction à l apprentissage numérique Dyadic prediction

21 21/1 Introduction à l apprentissage numérique Les problèmes multi target Multi-label classification Multivariate regression / Multi-output regression Structured output prediction Multi-task learning and transfer learning dyadic prediction Label ranking Matrix factorization and collaborative filtering methods Recommender systems Sequence learning, time series prediction and data stream mining...

22 22/1 Introduction à l apprentissage numérique Outils logiciels

23 Introduction à l apprentissage numérique Apprentissage supervisé Formellement, étant donné un échantillon i.i.d. de n exemples D = (x 1, t 1 ),..., (x n, t n ) selon la distribution p(x, t) (inconnue) sur X T, avec X un espace à d dimensions prenant ses valeurs dans R d, ainsi que T la variable à prédire. L objectif de l apprentissage est d inférer une hypothèse y(., w) : X T à partir de D qui minimise : Erreur de généralisation ou erreur théorique : E(w) = E[L(y(X, w), T )] = L(y(x, w), t)p(x, t)dxdt 3/1 L( ) est la fonction de coût et E[ ] l espérance mathématique calulée sur X et T.

24 24/1 Introduction à l apprentissage numérique Fonctions d erreur classiques En régression, typiquement, L( ) est l erreur quadratique. On cherche donc à minimiser la fonction coût des moindres carrés : E[L(y(X, w), t)] = (y(x, w) t) 2 p(x, t)dxdt En classification, typiquement, L( ) est le taux d erreur. On cherche donc à minimiser : E[L(y(X, w), t)] = P (X,T ) [y(x, w) T ] = I[y(x, w) t]p(x, t)dx t

25 5/1 Introduction à l apprentissage numérique Autres fonctions d erreur... La fonction coût des moindres carrés n est pas la seule fonction coût en régression. Elle est inadaptée dans le cas où p(t x) est multimodale. La fonction coût de Minkowski est donnée par E[L(y(X, w), t)] = y(x, w) t q p(x, t)dxdt On montre que la solution optimale, ŷ(x), est donnée par, L espérance conditionnelle, E[t x], pour q = 2. La médiane de la distribution conditionnelle p(t x) pour q = 1. Le mode de la distribution conditionnelle p(t x) lorsque q 0.

26 26/1 Introduction à l apprentissage numérique Moindres carrés t y(x) y(x 0 ) p(t x 0 ) x 0 x La solution optimale, ŷ(x), est donnée par l espérance conditionnelle, E[t x], pour q = 2.

27 27/1 Introduction à l apprentissage numérique Erreur empirique L erreur théorique E(w) est impossible à calculer de façon exacte car la distribution p(x, t) est inconnue. Or on peut appliquer l approximation suivante, E[f (X)] = f (x)p(x)dx 1 n n f (x j ) Donc à défaut de minimiser l erreur théorique, on cherche une hypohèse y(., w) qui minimise : Erreur empirique : j=1 Ê(w) = 1 n n L(y(x j, w), t j ) j=1

28 8/1 Introduction à l apprentissage numérique Problème de dimensionnalité Chercher la meilleure décision t à partir d une observation x est un problème de décision optimale dans un univers incertain. La distribution conjointe p(t x) fournit toute la connaissance de l incertitude associée à la cible sachant les variables descriptive. L estimation de p(t x) (et à fortiori de p(t, x)) est un problème ardû en grande dimension. Elle se heurte au Pb du cours de la dimensionnalité (curse of dimensionality). D où la nécessité d utiliser un modèle paramétrique qui va lisser les valeurs de y dans l espace des x

29 29/1 Introduction à l apprentissage numérique Problème de dimensionnalité x 2 x 2 x 1 D = 1 x 1 D = 2 x 1 x 3 D = 3

30 Introduction à l apprentissage numérique Problème de dimensionnalité 2 1 D = 20 D = 1 volume fraction D = 5 D = 2 D = 1 p(r) 1 D = 2 D = ɛ r 0/1 Gauche : fraction de volume d une sphère entre 1 ɛ et 1 en fonction de la dimension D. Droite : densité de probabilité d une gaussienne en fonction du rayon.

31 31/1 Introduction à l apprentissage numérique Classification binaire supervisée Nombre de problèmes pratiques peuvent être traités par l apprentissage d un ou plusieurs classifieurs binaires. L objectif de la classification supervisée est d inférer une fonction f : X { 1, +1} à partir de D telle que l erreur en généralisation P (X,T ) [f (X, w) T ] soit aussi faible que possible. Il arrive souvent que la sortie de f : X R soit interprété comme une degré d appartenance à la classe +1 auquel cas il faut appliquer un seuil θ en sortie. Un classifeur probabiliste estime en sortie P(t = 1 x), mais une calibration des probabilités est souvent nécessaire à l issue de l apprentissage.

32 32/1 Introduction à l apprentissage numérique Choix du modèle y(x, w) est généralement paramétrée par w dont la taille mémoire est intimement liée à la complexité du modèle, mais il existe des approches non paramétriques (e.g., plus proche voisin). Les modèles les plus couramment utilisés sont présentés : réseaux de neurones (ANN), machines à vecteurs supports (SVM), arbres de décisions (DT), réseau bayésien naïf (NB), régression logistique (LR), k plus proches voisins (KNN), méthodes ensemblistes, etc. Tous ces algorithmes abordent généralement le problème de manière différente et ont chacun leurs propres fondements théoriques.

33 33/1 Introduction à l apprentissage numérique Illustration en régression polynomiale t x 1 y(x, w) = w 0 + w 1 x + w 2 x w M x M = M j=0 w jx j

34 Introduction à l apprentissage numérique Erreur empirique t t n y(x n, w) x n x On estime l erreur théorique par l erreur empirique : 34/1 Ê(w) = 1 N N {y(x n, w) t n } 2 n=1

35 35/1 Introduction à l apprentissage numérique Polynôme d ordre 0 t 1 M = x 1

36 36/1 Introduction à l apprentissage numérique Polynôme d ordre 1 t 1 M = x 1

37 37/1 Introduction à l apprentissage numérique Polynôme d ordre 3 t 1 M = x 1

38 38/1 Introduction à l apprentissage numérique Polynôme d ordre 9 t 1 M = x 1

39 Introduction à l apprentissage numérique Polynôme d ordre 9 39/1 On observe que w j quand M.

40 40/1 Introduction à l apprentissage numérique Sur-apprentissage 1 Training Test ERMS M 6 9

41 1/1 Introduction à l apprentissage numérique Régularisation Idée : Pénaliser les larges valeurs des coeffcients, Ê(w) = 1 2 M {f (x n, w) t n } 2 + λ 2 w 2 n=1 λ réalise un compromis entre flexibilité et complexité du modèle. On parle aussi de compromis biais-variance où le biais est l erreur systématique du modèle et la variance est mesure l incertitude du modèle par rapport aux variations de l échantillon.

42 42/1 Introduction à l apprentissage numérique Régularisation ln λ = 18 t 1 ln λ = x 1

43 43/1 Introduction à l apprentissage numérique Régularisation ln λ = 0 t 1 ln λ = x 1

44 44/1 Introduction à l apprentissage numérique Régularisation : E RMLS vs. ln λ 1 Training Test ERMS ln λ 25 20

45 45/1 On observe que la magnitude des w j décroît à mesure que λ augmente. Introduction à l apprentissage numérique Polynôme d ordre 9

46 46/1 Introduction à l apprentissage numérique Dilemme biais-variance En régression, on suppose que y = f (x, w) + ɛ où ɛ est un bruit gaussien de variance σ 2. L erreur quadratique théorique E[w] se décompose alors : E[w] = = + (f (x, w) y) 2 f X,Y (x, y)dxdy (f (x, w) E[y x]) 2 f X,Y (x, y)dxdy (E[y x] y) 2 f Y /X (y)dxdy avec E[t x] = tp(t x))dt, la meilleure prédiction possible. Le terme (E[y x] y) 2 f Y /X (y)dxdy = σ 2 est le bruit. Il est par définition irréductible.

47 47/1 Introduction à l apprentissage numérique Dilemme biais-variance Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [(f (x, w) E[y x]) 2 ] = (E D [(f (x, w)] E[y x]) 2 + E D [(f (x, w) E D [(f (x, w)]) 2 ] Au final, on obtient la décomposition : Erreur = (biais) 2 + variance + bruit Conclusion : il faut chercher un compromis entre biais (modèle trop simple) et variance (modèle trop paramétré).

48 48/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.6 t x 1 0 x 1

49 49/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 0.31 t x 1 0 x 1

50 50/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.4 t x 1 0 x 1

51 51/1 Introduction à l apprentissage numérique Compromis biais-variance (bias) 2 variance (bias) 2 + variance test error ln λ Un modèle trop régularisé model est très biaisé, tandis qu un modèle pas assez régularisé a une grande variance.

52 52/1 Introduction à l apprentissage numérique Dilemme biais-spread en classification Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [P(Y f (X, w))] = 1 P(j X ) + E X [(P(j X ) P(ĵ X ))P(ĵ f, X )] + E X [ ((P(j X ) P(j X ))P(j f, X ))] j ĵ avec les notations P(j f, x)) = P D (f (x, w) = j X = x)) P(j x)) = P(Y = j x)) j (x) = argmaxp(j x) j ĵ(x) = argmaxp(j f, x) j

53 53/1 Introduction à l apprentissage numérique Dilemmes biais-spread et biais-variance Au final, on obtient les décompositions Dilemme biais-variance en régression Erreur = (biais) 2 + variance + bruit Dilemme biais-spread en classification Erreur = biais + spread + erreur bayésienne Le spread est l équivalent de la variance en régression. Le bruit et l erreur bayésienne sont irréductibles. L enjeu est dimininuer conjointement biais et variance (ou biais et spread).

54 54/1 Introduction à l apprentissage numérique Théorie de la décision On a vu que les probabilité fournissent un cadre mathématique pour quantifier et manipuler l incertitude. Comment en déduire des décisions quant à la classe? La distribution p(x, t) résume entièrement l incertitude associée à ces variables. Mais déterminer p(x, t) à partir d une base d apprentissage est une tâche d inférence ardue. On cherche une règle qui assigne une classe à chaque valeur du vecteur d entrée x. Cette règle divise l espace d entrée en régions de décision R k de sorte que tous les points de R k se voient assignés la classe C k. Les frontières (ou surfaces) de décision séparent ces regions.

55 55/1 Introduction à l apprentissage numérique Minimiser le taux d erreur Lorsque p(x, y) est connue, avec y {C 1,..., C K }, le problème de la décision optimale devient trivial. D après le théorème de Bayes : p(c k x) = p(x C k)p(c k ) p(x) L a posterori la vraisemblance l a priori Décider revient à chercher k tq p(c k x) > p(c j x), j k. On définit donc des régions R k = {x p(c k x) > p(c j x), j k} Décision : si x est dans R k, alors on décide que t C k

56 56/1 Introduction à l apprentissage numérique Minimiser le taux d erreur On a clairement p(c k x) > p(c j x) équivalent à p(x C k )p(c k ) > p(x C j )p(c j ) Donc au lieu d estimer p(c k x), on estime p(x C k ) et p(c k ) pour k = 1,..., Nbclasses

57 57/1 Introduction à l apprentissage numérique Erreur de classification minimale x 0 x p(x, C 1 ) p(x, C 2 ) x R 1 R 2

58 Introduction à l apprentissage numérique Minimiser le coût moyen 8/1 La probabilité de commettre une erreur, dans le cas de deux classes, est P(erreur) = p(x, C 1 )dx + p(x, C 2 )dx R 2 R 1 Dans le cas généréral, on peut définir une matrice de coûts L kj lorsqu on assigne x à C j alors que x C k. On montre que E(L) = L kj p(x, C k )dx k j R j Le but est de minimiser E(L). Pour cela, il faut chercher les régions R j qui minimisent k L kjp(x, C k ) A un nouveau x, on associe la classe j telle que k L kjp(x, C k ) est minimale.

59 Introduction à l apprentissage numérique Région de rejet 1.0 θ p(c 1 x) p(c 2 x) 0.0 reject region x 59/1 Taux de rejet : si max k p(c k x) < θ, on rejette x sinon on le classe.

60 60/1 Introduction à l apprentissage numérique Inférence & décision On identifie 3 approches distinctes pour résoudre les problèmes de décision. Dans l ordre décroissant complexité 1 Modèles génératifs : Apprendre p(x C k ) pour en déduire p(c k x) avec les probabilités a priori p(c k ) par la règle de Bayes. Cela revient de façon équivalente à inférer p(x, C k ). 2 Modèles discriminatifs : Inférer directement p(c k x) et utilisent la théorie de la décision pour assigner la classe C k à x. 3 Modèles non probabilistes : ils assignent directement la classe sans référence aux probabilités.

61 61/1 Introduction à l apprentissage numérique Inférence & décision Avantages et inconvénient : 1 Modèles génératifs : approximer p(x C k ) nécessite beaucoup d exemples, mais permet de calculer p(x) (et ses marginales) p(x) = k p(x C k )p(c k ) Très utile pour la détection de données aberrantes (outlier detection) et la détection de nouveauté (novelty detection) pour lesquels p(x) est anormalement faible selon le modèle. 2 Modèles discriminatifs : Tâche moins complexe. Les distributions conditionnelles des classes contiennent parfois des structures inutiles pour le calcul des probabilités a posteriori. 3 Modèles non probabilistes : Simple et efficace mais nécessite un ré-apprentissage si la matrice de coût change.

62 62/1 Introduction à l apprentissage numérique Illustration 5 4 p(x C 2) p(c 1 x) p(c 2 x) class densities 3 2 p(x C 1) x x

63 63/1 Introduction à l apprentissage numérique Illustration : classifieur probabiliste

64 Evaluation d un classifieur 64/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

65 65/1 Evaluation d un classifieur Sélection de modèle et généralisation En pratique, pour contrôler le risque de sur-apprentissage, on décompose la base de données D en 3 sous-bases Une base d apprentissage pour ajuster les paramètres du modèle, Une base de validation pour comparer les modèles entre eux ou ajuster la taille du modèle (ou choisir un modèle) en estimant l erreur de généralisation sur cette base. Une base de test pour évaluer objectivement l erreur réelle.

66 Evaluation d un classifieur Validation croisée Lorsqu on ne dispose pas suffisamment de données, on peut utiliser la technique de la validation croisée pour estimer l erreur de généralisation du modèle : On découpe D en n parties disjointes égales D j Pour j = 1 à n : On ajuste les paramètres du modèle sur D D j et on calcule l erreur E j sur D j On retourne une estimation de l erreur réelle E = 1 n E j 6/1

67 67/1 Evaluation d un classifieur Problème de dimensionnalité run 1 run 2 run 3 run 4

68 68/1 Evaluation d un classifieur Evaluation d un classifieur Pour mesurer les performances d un classifieur, plusieurs critères existent. Ils reposent sur la table de contingence (confusion matrix) : Positif Négatif Prédiction positive TP FP Prédiction négative FN TN Attention, les critère de performance varient avec le taux de positifs (prévalence de la maladie). Un classifieur stupide fait mieux que 50% de réussite dans des données non équilibrées (imbalanced data sets). La fonction coût est souvent asymétrique, elle dépend de l application. C est la fonction coût qu on veut minimiser.

69 Evaluation d un classifieur Evaluation d un classifieur Précision = Spécificité = TP TP + FP ; Rappel = TP TP + FN TN TN + FP ; Sensibilité = TP TP + FN TP + TN Accuracy = TP + TN + FP + FN ; Balanced Acc. = 1 2 (Spé.+Sens.) Sensibilité et spécificité, (resp. précision et rappel) idéalement égales à 1, varient en sens inverse en fonction du seuil de positivité. Pb multi-critère. Parfois on veut les combiner pour obtenir un seul critère : 69/1 F-mesure = (1 + β 2 ) Précision Rappel β 2 Précision + Rappel

70 70/1 Evaluation d un classifieur Evaluation d un classifieur Supposons par exemple qu on s intéresse à la température comme prédicteur de la grippe. On décide que le patient a la grippe si la température dépasse un certain seuil, par exemple 39 C. Si on augmente le seuil pour le porter à 40 C, la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue. En revanche, la probabilité d être en dessous du seuil (chez les sujets non grippés) va augmenter, donc la spécificité augmente. Un test diagnostique de bonne sensibilité est utile en dépistage. Si le test possède une bonne spécificité peut être utilisé en tant qu examen de confirmation du diagnostic.

71 Evaluation d un classifieur Choix d un seuil : courbes ROC 71/1 Un classifieur fournit un score (valeur discriminante, probabilité, rang) pour chaque individu à classer. Un petite valeur indique une classe négative et vice-versa. La courbe ROC (Receiver Operating Characteristics) trace graphiquement la sensibilité en fonction de la spécificité, en variant continûment ce seuil. La droite diagonale correspond à un classifieur aléatoire. L évaluation est souvent fondée sur la surface sous la courbe (Area Under Curve). L AUC est égale à la probabilité que le classifieur classe mieux un positif qu un négatif, tous deux choisis au hasard L AUC se calcule par la méthode des trapezoides. Dans le cas binaire, on peut approximer la courbe par une courbe linéaire par morceaux, dans ce cas l AUC est juste la Balanced Accuracy (BAC).

72 Evaluation d un classifieur Courbe ROC 72/1 L AUC = probabilité que le classifieur classe mieux un exemple positif tiré au hasard qu un exemple négatif tiré au hasard.

73 Principe de la classification supervisée 73/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

74 74/1 Principe de la classification supervisée Maximum de vraisemblance Lorsqu on cherche à ajuster un modèle y(x, w) au regard des données D, il faut ajuster les paramètres w. Si le modèle est probabiliste, du type P(t x) = y(x, w) alors un principe phare (et intuitif) de la statistique inférentielle est de maximiser p(w D) à la recherche d une valeur optimale w C était l approche privilégiée précédemment dans la régression polynomiale.

75 Principe de la classification supervisée Maximum de vraisemblance Les paramètres w les plus probables d un modèle y(x, w) au regard des données D sont ceux qui maximisent la probabilité a posteriori : 75/1 w = argmax w p(w D) = argmax w p(d w)p(w) p(d) = argmax w {log(p(d w)) + log(p(w))} p(d w) s appelle la vraisemblance. Maximiser l a posteriori revient à minimiser log(vraisemblance) + la probabilité a priori sur les paramètres. Si l a priori est uniforme, cela revient à appliquer le principe du maximum de vraisemblance.

76 76/1 Principe de la classification supervisée Maximum de vraisemblance Exemple illustratif : On veut ajuster une gaussienne de paramètres w = {µ, σ 2 } aux données D = (x 1,..., x N ). Pour chaque x D, on a N (x µ, σ 2 ) = 1 σ 1 exp { 2π 2σ 2 (x µ)2 } En supposant les {x 1,..., x N } indépendants, il vient p(x 1,..., x N µ, σ 2 ) = N N (x n µ, σ 2 ) n=1

77 77/1 Principe de la classification supervisée Maximum de vraisemblance log p(d w) est notre fonction d erreur. La minimiser revient à maximiser log p(x 1,..., x N µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 ln σ2 N 2 n=1 ln 2π En maximisant cette relation par rapport à µ et σ, on trouve ˆµ = 1 N N x n, n=1 ˆσ 2 = 1 N N (x n ˆµ) 2 n=1

78 78/1 Principe de la classification supervisée Overfitting Le principe du maximum de vraisemblance sous-estime systématiquement la variance d un modèle trop paramétré Maximiser la vraisemblance du modèle sur les données d apprentissage nous expose au risque de sur-apprentissage (overfitting), en particulier si le modèle est trop complexe (trop paramétré) au regard du nombre de données Il faut pénaliser l erreur d apprentissage par un terme lié à la complexité du modèle (e.g., nombre de paramètres, taille mémoire)

79 Principe de la classification supervisée Approche probabiliste Il est possible de revisiter la régression polynomiale dans un cadre probabiliste en introduisant une incertitude sur la prédiction p(t x, w, β) = N (t y(x, w), β 1 ) où β 1 est l inverse de la variance σ 2, ce qui nous permet d écrire la fonction d erreur ln p(t x, w, β) = N {y(x n, w) t n } 2 + N 2 ln β N 2 n=1 On trouve sans suprise ln (2π) 79/1 1 β ML = 1 2 N {y(xn, w ML ) t n } 2

80 80/1 Principe de la classification supervisée Approche probabiliste t y(x, w) y(x 0, w) p(t x 0, w, β) 2σ x 0 x

81 Principe de la classification supervisée Maximium a posteriori On peut aller plus loin en posant p(w α) = N (w 0, α 1 I) = ( α 2π )(M+1)/2 exp { α 2 wt w} où α est la précision de la distribution (hyperparamètre) et M + 1 le nombre de paramètres de polynôme d ordre M. On trouve d après la règle de Bayes p(w x, t, α, β) p(t x, w, β)p(w α) Maximiser l a posteriori revient à minimiser 1/1 β 2 M {f (x n, w) t n } 2 + α 2 wt w n=1 On retombe sur la régularisation précédente avec λ = α/β.

82 Principe de la classification supervisée Approche bayésienne L approche MAP intègre un apriori mais repose encore sur estimation ponctuelle de w. Une approche entièrement bayésienne somme selon toutes les valeurs possibles de w p(t x, x, t, α, β) = p(t x, w, β)p(w x, t, α, β)dw 2/1 Dans le cas précis de la régression polynômiale et sous les hypothèses d incertitude gaussienne, la distribution p(t x, x, t, α, β) peut se calculer analytiquement. Elle est encore gaussienne mais sa moyennne µ(x) et son écart-type σ(x) dépendent cette fois de x. Dans le cas général, il faut se tourner vers des méthodes numériques d échantillonnage stochastique de type Monte Carlo pour echantillonner selon la distribution

83 3/1 Principe de la classification supervisée Approche bayésienne t x 1 Distribution prédictive resultant d un traitement bayésien d une régression polynomiale avec M = 9, α = et β = 11. En rouge, la courbe moyenne avec son intervalle ±σ.

84 Classification multi-classe 84/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

85 5/1 Classification multi-classe Classification multi-classe La classification multi-classe (K > 2 classes) peut être résolue par trois méthodes : 1 one-against-all : un classifieur par classe. C est le plus simple à mettre en oeuvre. Le classifieur est appris sur tous les exemples, les exemples positifs sont ceux de la classe, les autres sont négatifs. 2 One-against-one ou all-pairs : K(K 1)/2 classifieurs impliquant seulement 2 classes, avec seulement les individus de l une ou l autre classe. 3 Error-Correcting Output Codes (ECOC), en assignant à chaque classe un vecteur binaire unique de taille n.

86 86/1 Classification multi-classe Illustration C 1 C 3? R 1 R 1 R 2 C 1? R 3 C 1 R 3 not C 1 C 2 not C 2 C 2 R 2 C 2 C 3

87 Classification multi-classe ECOC - Illustration Classe vl hl dl cc ol or Table : Reconnaissance de chiffres manuscrits 87/1 Code 6-bits distribué, un classifieur distinct par colonne. Les colonnes et les lignes sont distinctes. Lors de la classifcation de x, on appelle les 6 fonctions pour obtenir un mot de 6 bits. La distance de Hamming de ce mot aux 10 codewords est calculée. La plus proche donne la classe. Exemple : est plus proche de et donne la

88 88/1 Classification multi-classe ECOC - Illustration Chaque colonne à un sens Colonne Abréviation Sens 1 vl contient une ligne verticale 2 hl contient une ligne horizontale 3 dl contient une ligne diagonale 4 cc contient une courbe fermée 5 ol contient une courbe ouverte à droite 6 or contient une courbe ouverte à gauche

89 89/1 Classification multi-classe One-against-one Comment combiner les sorties des K(K 1)/2 classifieurs binaires du One-against-one pour obtenir les probabilités a posteriori des classes? Posons P ij = P(C i C ij, X = x) Comment exprimer P(C i X = x) en fonction des P ij? Idée simple : La classe recevant le maximum de votes est celle choisie. Cette approche expose à des ambiguïtés.

90 Classification multi-classe One-against-one Chaque pattern appartient à une seule classe, on a K P( C j X = x) = 1 j=1 avec K = P( C ij X = x) j=1,i j K = P(C ij X = x) (K 2) P(C i X = x) j=1,i j 90/1 P ij = P(C i C ij, X = x) = P(C i X = x) P(C ij X = x)

91 91/1 Classification multi-classe One-against-one On obtient les K probabilités a posteriori sachant les K(K 1)/2 probabilités P ij : Recombinaison P(C i X = x) = K j=1,i j 1 1 P ij (K 2) En faisant P ij = 1, i, on retrouve bien P(C i X = x) = 1. Pas d avantage clair entre One-against-one technique et one-against-all.

92 Classification multi-label 92/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

93 93/1 Classification multi-label Classification Multi-label Les individus (patterns) sont étiquetés par un sous-ensemble fini d étiquettes (labels) Applications : Annotation/indexing sémantique semi-automatique de collection de media pour l aide à la recherche sémantique. Texte : infos, brevets, documents légaux, rapports médicaux, articles de recherche, etc. Image/vidéo : ImageCLEF 2010 photo annotation task : collection de 8000 images flickr annotées manuellement selon 93 concepts. Web : s, Web pages (Yahoo! directory), images Web Audio : music tracks, sélection des morceaux dans les mobiles

94 4/1 Classification multi-label Classification Multi-label La classification multi-label (K labels) peut être résolue efficacement en partitionnant le probleme original en K(K 1)/2 sous problèmes impliquant seulement 2 labels. Construire un classifieur sur toutes les paires de labels, avec seulement les individus de l un ou l autre label. Combiner les sorties des K(K 1)/2 classfieurs binaires pour obtenir les probabilités a posteriori des labels.

95 95/1 Classification multi-label Ranking by Pairwise Comparison

96 96/1 Classification multi-label Ranking by Pairwise Comparison

97 Méthodes de classification 97/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

98 98/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf C est un classifieur probabiliste simple qui fournit en sortie p(y x) où y est la classe. Il repose sur l estimation de p(x, y) à partir de D. C est l équivalent en classification de la régression linéaire.

99 99/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf Autant il est facile d estimer p(c k ), autant l estimation de p(x C k ) peut devenir très imprécise si la dimensionalité de x est élévée. C est ici qu intervient l hypothèse simplificatrice, dite naive, pour réduire le nombre de paramètres à renseigner. Elle suppose que X i indépendent de tous les X j, tq i j, est conditionnellement à la classe. Un classifieur de Bayes naïf opère selon la règle : Classe(x) arg max k n p(x i C k )p(c k ) i=1 On estime les p(x i C k ) et p(c k ) à partir des fréquences relatives de la base d apprentissage.

100 00/1 Méthodes de classification Arbres de décision Arbres de décision Un arbre de décision est un classifieur simple et graphique. Sa lisibilité, sa rapidité d apprentissage et d exécution expliquent sa popularité. But : prédire les valeurs prises par la variable à prédire à partir d un ensemble de variables prédictives (ou variables discriminantes). Cette technique fait partie des méthodes d apprentissage supervisé. Son succès repose sur la lisibilité du modèle de prédiction car les variables discriminantes sont hiérarchisées sous forme d un arbre. Le travail de l analyste consiste aussi à faire comprendre ses résultats afin d emporter l adhésion des décideurs.

101 101/1 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 1 > θ 1 x 2 θ 2 x 2 > θ 3 x 1 θ 4 A B C D E

102 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 2 E θ 3 B θ 2 C D A θ 1 θ 4 x 1 102/1 Pavage obtenu dans l espace d entrée.

103 103/1 Méthodes de classification Arbres de décision Explications Un arbre de décision binaire est le résultat d une procédure récursive qui consiste à partitionner l espace de représentation X en cherchant la coupure transversale qui maximise un critère prédéfini qui assure la meilleure sépération possible des individus selon la classe. L algorithme commence avec le noeud racine contenant tous les exemples et cherche une coupure de la forme X j > θ j ou X j θ j où θ j est un seuil. Deux nouveaux noeuds sont ainsi ajoutés à l arbre, l un contenant les exemples respectant X j > θ j et l autre les exemples respectant X j θ j. Ce processus de coupure est répété pour chaque nouveau noeud crée jusqu à ce qu un critere d arrêt soit verifié. L arbre opère un pavage (discrétisation) dans l espace X.

104 104/1 Méthodes de classification Arbres de décision Construction d un arbre de décision Pour construire un arbre de décision, il faut : Choisir, parmi les variables qui restent, la variable de segmentation du sommet courant. Lorsque la variable est continue, déterminer le seuil de coupure. Déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Affecter la valeur de la variable à prédire aux feuilles?

105 105/1 Méthodes de classification Arbres de décision Critère de segmentation Teste toutes les variables potentielles et choisit celle qui maximise un critère donné. Le critère caractérise le gain en pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation. Plusieurs critères existent. Leur choix a peu d influence sur les performances des algorithmes. Le problème est de trouver le meilleur test associé à une variable nominale de n modalités, dans un arbre L-aire avec k classes. Un autre problème est de comparer les meilleurs tests entre variables de nature différente (nominale et continue).

106 06/1 Méthodes de classification Arbres de décision Critère de choix de variable Posons p(c k ) la proba de la classe C k dans le noeud considéré, Critères les plus utilisés pour mesurer de l hétérogénéité du noeud candidat : Entropie (ID3, C4.5) : H = k p(c k) log 2 (p(c k )), minimum 0 si une seule classe représentée et maximum log 2 (nbclasses) si classes équi-réparties Indice Gini (CART) : Gini = 1 k p2 (C k ) Indice d erreur : Er = 1 max k (p(c k ))

107 107/1 Méthodes de classification Arbres de décision Gain d homogénéité Soit un test T à m alternatives et divisant le noeud N en m sous-noeuds N j Soit I (N j ) les mesures d hétérogénéité (entropie, Gini,...) des sous-noeuds, et p(n j ) les proportions des éléments de N dirigés vers N j par le test T Le gain d homogénéité/information apporté par le test T est Gain(N, T ) = I (N) m p(n j )I (N j ) j=1 A chaque noeud, choix du test maximisant le gain

108 108/1 Méthodes de classification Arbres de décision Tests sur les variables Il y a un nb fini de tests possibles à chaque noeud car un nombre fini d instances en apprentissage. En pratique, tri des exemples par valeur croissante de la variable continu et examen d au maximum N 1 seuils, typiquement les médianes entre valeurs successives croissantes. Par exemple si valeurs de A atteintes sur les exemples d apprentissage sont {1, 3, 6, 10, 12}, on considérera les tests A > 1.5; A > 4.5; A > 8; A > 11 Dans le cas d une variable nominale, il y a 2 n 1 tests possibles pour séparer n catégories. Des heuristiques sont nécessaires... Sinon, un noeud fils par catégorie (arbre n-aire).

109 109/1 Méthodes de classification Arbres de décision Définir la bonne taille de l arbre Il y a un risque de surajustement du modèle : le modèle semble performant (son erreur moyenne est très faible) mais il ne l est en réalité pas du tout. Il faut trouver l arbre le plus petit possible ayant la plus grande performance possible. Plus un arbre est petit et plus il sera stable dans ses prévisions futures (en statistiques, le principe de parcimonie prévaut). Pour éviter un sur-ajustement, il convient d appliquer un principe de parcimonie et de réaliser des arbitrages performance/complexité. A performance comparable, on préfèrere toujours le modèle le plus simple, si l on souhaite pouvoir utiliser ce modèle sur de nouvelles données totalement inconnues.

110 110/1 Méthodes de classification Arbres de décision Le problème du sur-ajustement L erreur d ajustement de l arbre de décision en fonction du nombre de feuilles de l arbre (complexité) décroît constamment sur l échantillon d apprentissage, à partir d un certain niveau de complexité. Le modèle s éloigne de la réalité, réalité que l on essaie de mesurer sur l échantillon test. Les techniques de pré ou de post élégage des arbres peuvent y remédier.

111 111/1 Méthodes de classification Arbres de décision Elagage Pré-élagage : critères d arrêt lors de la phase d expansion. (e.g., effectif trop faible, pureté d un sommet suffisante) Post-élagage : construire l arbre en deux temps. L arbre le plus pur possible est élagué en s appuyant sur l échantillon de validation ou l échantillon de test. Pruning set en anglais. Une fois l arbre construit, on affecte aux feuilles la classe majoritaire ou un score = proportion de la classe majoritaire. Attention, il faut calibrer ce score pour estimer la probabilité, tout comme les modèles bayésien naïfs, car le score est biaisé vers les valeurs extrêmes, 0 ou 1.

112 112/1 Méthodes de classification Arbres de décision Les algorithmes classiques Les algorithmes se distinguent par le ou les critères de segmentation utilisés, par les méthodes d élégage implémentées et leur manière de gérer les données manquantes. Liste non exhaustive des algorithmes classiquement utilisés : CART (Breiman et al., 1984), ID3, C4.5, C5 (Quinlan, 1986 ; Quinlan, 1993).

113 113/1 Méthodes de classification Arbres de décision Exemple de C4.5 Les tests par défaut considérés par C4.5 sont : A =? pour une variable nominale A, avec un noeud fils pour chaque valeur de A. A t pour un attribut continu A, avec deux noeuds fils, vrai et faux. Pour trouver le seuil t qui maximise le critère de splitting, les individus sont classés selon la valeur de l attribut pour donner des valeurs ordonnées distinctes v 1, v 2,..., v N. Chaque paire de valeurs adjacentes suggère une seuil potentiel t = (v i + v i+1 )/2. Le gain de pureté est affecté par le nombre de résultats du test. Un biais existe vers les attributs ayant de multiples modalités ou de valeurs distinctes.

114 114/1 Méthodes de classification Arbres de décision Discrétisation avec les arbres Les arbres sont des modèles de prédilection pour la discrétisation supervisée des variables continues, et nominales avec de nombreuses modalités (cas fréquent). Dans le cas des variables continues, il suffit de lancer un algorithme standard. Le nombre de bins est le nombre de noeuds feuilles qu il est facile d ajuster itérativement Dans le cas des variables nominales, on utilise des heuristiques de splitting de complexité linéaire. Pour créer de nouvelles variables d interaction : pour chaque paire Y i, Y j, construire un arbre avec {Y i, Y j }. Récupérer la classe prédite comme nouvelle variable.

115 15/1 Méthodes de classification Apprentissage par mesure de similarité Mesure de similarité Idée intuitive : calculer une mesure de similarité entre exemples, puis affecter à un nouvel exemple x la classe la plus representée parmi les exemples d apprentissage dont il est proche. Définition Une mesure de similarité sur X est une fonction K : X X [ 1, 1]. On dit que K est symétrique si K(x, y) = K(y, x) pour tout x, y issu de P. Si la mesure est non borneé entre -1 et 1, on peut considérer sans perte de generalité la mesure de similarite normalisée : K(x, y) = K(x, y) K(x, x)k(y, y)

116 Méthodes de classification Apprentissage par mesure de similarité Classifieur de Parzen Etant donnée une mesure de similarité K, on peut affecter à un nouvel exemple x une classe prédite en utilisant la fonction de classification f suivante : f (x) = signe( n y i K(x, x i )) i=1 Ce classifieur dit classifieur de Parzen consiste simplement à affecter l étiquette correspondant aux exemples les plus similaires. Pour améliorer la classification, on peut donner une importance différente, β i > 0, à chaque exemple, 16/1 n f (x) = signe( β i y i K(x, x i )) i=1

117 117/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins C est le classifieur non-paramétrique le plus simple et intuitif. Il s agit pour chaque x de la base de test, de classer les x i de la base d apprentissage selon K(x, x i ), dans l ordre décroissant et de ne chosir que les k premiers x i. La classe de x est alors donnée par la classe majoritaire parmi ces k plus proches voisins x i. Inconvénient : complexité spatiale et temporelle importante par rapport aux modèles paramétriques

118 118/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins x 2 x 2 (a) x 1 (b) x 1

119 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins 2 K = 1 2 K = 3 2 K = 3 1 x 7 x 7 x x x x 6 119/1 Les frontières de décision sont plus lisses à mesure que K augmente.

120 120/1 Méthodes de classification SVM SVM Définition succinte Les séparateurs à vastes marges (SVM) formulent le problème de classification comme un problème d optimisation quadratique lié à la maximisation de la marge maximale. Ce choix est justifié par la théorie statistique de l apprentissage, qui montre que la frontière de séparation de marge maximale possède la plus petite erreur en généralisation. La marge est la distance entre la frontière de séparation et les échantillons les plus proches (vecteurs supports). Dans le cas non linéairement séparables, l idée clé est de transformer l espace de représentation des données d entrées en un espace de redescription de plus grande dimension (possiblement infinie), dans lequel il est probable qu il existe une séparatrice linéaire, grâce à une fonction noyau, Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension en une simple évaluation ponctuelle d une fonction (kernel trick)

121 Méthodes de classification SVM SVM Plus formellement, on applique aux vecteurs d entrée x une transformation non-linéaire φ. L espace d arrivée φ(x ) est appelé espace de redescription. Dans cet espace, on cherche alors l hyperplan y(x) = w T φ(x) + b qui vérifie t k y(x k ) > 0, pour tous les points x k de l ensemble d apprentissage, c est-à-dire l hyperplan séparateur dans l espace de redescription. Le problème de cette formulation est qu elle implique un produit scalaire entre vecteurs dans l espace de redescription, de dimension élevée, ce qui est couteux en terme de calcul. Pour contourner ce problème, on utilise une astuce (kernel trick) qui consiste à utiliser une fonction noyau, qui vérifie 121/1 K(x i, x j ) = φ(x i ) T φ(x j ) L intérêt de la fonction noyau est double : Le calcul se fait dans l espace d origine, ceci est beaucoup moins coûteux qu un produit scalaire en grande dimension. La transformation φ n a pas besoin d être connue explicitement, seule la fonction noyau intervient dans les calculs. On peut donc envisager des transformations complexes, et même des espaces de redescription de dimension infinie.

122 122/1 Méthodes de classification SVM Illustration y = 1 y = 0 y = 1 y = 1 y = 0 y = 1 y = 1 y = 0 ξ > 1 y = 1 ξ < 1 margin ξ = 0 A droite, une marge souple qui tolère les mauvais classements par l introduction de variables ressort (slack variables), qui permettent de relacher les contraintes. ξ = 0

123 Méthodes de classification SVM Illustration 123/1 Exemple de données synthétiques à 2 classes en 2 dimensions montrant les courbes de niveaux de y(x) obtenues par un SVM avec un noyau gaussien. La frontière de séparation et de marge et les vecteurs supports sont visibles.

124 24/1 Méthodes de classification SVM Illustration Exemple non séparable sur des données synthétiques à 2 classes en 2 dimensions avec des slack variables.

125 Approches ensemblistes 125/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

126 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Définition Une méthode ensembliste combine les décisions individuelles de plusieurs classifieurs y 1,..., y M pour classer de nouveaux exemples Conditions pour qu une méthode ensembliste soit efficace : Les classifieurs construits ont un taux de succès meilleur que l aléatoire Les classifieurs présentent une certaine diversité Question Pourquoi combiner plusieurs classifieurs? 126/1 Un vote réduit la variance Réduire le risque de tomber dans des minima locaux Réduire le biais en augmentant l espace des fonctions possibles

127 127/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes On a déjà évoqué l équilibre bias-variance en régression avec une fonction polynomiale sur un jeu de données bruitées. En pratique, il faut introduire de la variabilité au sein du comité. Le bootstrap permet de combiner M modèles ycom(x) = 1 M M y m (x). m=1 Sous l hypothèse y m (x) = h(x) + ɛ m (x) avec les {ɛ m } i.i.d., on montre facilement que Ecom = 1 M E av avec Eav = 1 M M E x [ɛ 2 m(x)] m=1 Sans l hyptohèse d indépendance, on a toujours Ecom Eav.

128 28/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Une classification possible des méthodes ensemblistes repose sur la nature des classifieurs de base [Dzeroski & Zenko 2004] Méthodes ensemblistes homogènes : combinent un ensemble de classifieurs produits par des algorithmes différents sur une même distribution des exemples de D Méthodes ensemblistes hétérogènes : combinent un ensemble de classifieurs produits par un même algorithme d apprentissage. La diversité provient de la modification de la distribution des exemples utilisés pour l apprentissage des classifieurs.

129 129/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes hétérogènes La diversité provient des algorithmes d apprentissage Stacking [Wolpert, D.H. 1992] 1 Apprentissage de M classifieurs y 1,..., y M avec des algorithmes différents 2 Apprendre un méta-classifieur sur les réponses de y 1,..., y M. Cascade Generalization [Gamma & Brazdil 2000] 1 Apprentissage d un classifieur y 1 avec un algorithme L 1. Etiquetage avec y 1 des exemples d apprentissage 2 Apprentissage d un classifieur y 2 avec un algorithme L 2 à partir des attributs d origine et l étiquette prédite au niveau précédent. Etiquetage avec y 2 des exemples d apprentissage. 3 Le processus est répété.

130 30/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes homogènes La diversité provient de la distribution des exemples d apprentissage Bagging [Breiman 1996] 1 Apprentissage de M classifieurs y 1,..., y M à partir d échantillons bootstrappés D 1,..., D M. 2 Etiquetage des exemples par simple vote des M classifieurs. Output flipping [Breiman 2000, Martinez & Suarez 2005] 1 Apprentissage de M classifieurs y 1,..., y M à partir déchantillons D 1,..., D M obtenus par label switching P j i = wp j et un switching rate de p = w(1 j P2 j ). 2 Etiquetage des exemples par simple vote des M classifieurs. Random Forests [Breiman 2001] Boosting [Freund and Schapire 1996]

131 131/1 Approches ensemblistes Forêt aléatoire Caractéristiques des Random Forests Efficace et performant sur de grandes bases, avec des milliers de variables, et des données manquantes. Estime quelles variables sont importantes (voire détecte les interactions) pour la classification et fournit des prototypes pour chaque classe. Fournit un estimateur non biaisé de l erreur de généralisation sans base de test. Estime la données manquantes, y compris les étiquettes manquantes. Permet de traiter les classes déséquilibrées Calcule des proximités entre paires d exemples. Permet l imputation de valeurs manquantes, le clustering, la détection de valeurs aberrantes..

132 132/1 Approches ensemblistes Forêt aléatoire Algorithme Répéter k fois de manière indépendante le processus suivant : Un nombre d d (le nombre total d attributs) (par défaut d = d). Un ensemble de M arbres chacun developpé sur un échantillon bootstrap de l echantillon initial est construit ; Chaque arbre est developpé jusqu à avoir uniquement des feuilles pures (si possible) ; A chaque noeud, d des d attributs sont selectionnés aléatoirement et le meilleur partitionnement selon ces d attributs est utilisé. La prédiction d un nouvel exemple est la classe la plus fréquemment attribuée par l ensemble d arbres.

133 33/1 Approches ensemblistes Forêt aléatoire Variantes Lorsque d = d, on obtient un Bagging d arbres. Dans le Bagging, l utilisation des echantillons bootstprap permet de reduire la variance globale du classifieur en moyennant les predictions de plusieurs classifieurs divers. Les RF introduisent une double randomisation en augmentant la diversité de l ensemble par le bootstrap d une part, mais également par un tirage aléatoire d un petit groupe d attributs avant la recherche de la meilleure coupure. Il existe de nombreuses variations. En adaptant correctement d, on obtient un gain de temps de calcul important sans détérioration de performance. Le niveau de randomisation introduit dans la procédure via le choix de d contrôle le compromis force-correlation.

134 134/1 Approches ensemblistes Forêt aléatoire Estimation out-of-bag de l erreur Pas besoin de cross-validation ou de jeu de test set pour obtenir un estimateur non biasé de l erreur de généralisation. Il est estimé en interne, durant l apprentissage de la forêt comme suit : Chaque arbre est construit avec sur échantillon bootstrappé. Environ 1/3 des exemples ne sont utilisés dans sa construction. Idée : classer les exemples oob dans chaque arbre. Ainsi un jeu de test est obtenu pour chaque exemple dans environ 1/3 des arbres. Soit j la classe qui reçoit le plus de votes chaque fois que l exemple n était oob. La proportion des erreurs, moyennée sur tous les exemples, est l erreur out-of-bag (non biasée en pratique)..

135 135/1 Approches ensemblistes Forêt aléatoire Sélection de variables La sélection d un sous-ensemble de variables explicatives parmi un grand nombre, permet généralement : Réduire de beaucoup les temps de calcul. Obtenir une plus grande variété de modèles. L agrégation des probabilités de sortie (ou classes prédites par vote majoritaire) par tous les modèles générés devrait alors donner un classifieur plus robuste et plus précis.

136 136/1 Approches ensemblistes Forêt aléatoire Estimer l importance des variables Une variable f est discriminante si la modification de sa valeur pour un individu entraîne sa mauvaise classification. Principe : Classer les exemples oob dans chaque arbre et compter le nombre de votes corrects. Ensuite permuter les valeurs de la variable m dans les exemples oob puis reclasser les exemples oob. Soustraire le nombre de votes de la classe correcte entre l exemple oob non permuté et l exemple oob permuté. La moyenne de cette différence sur tous les arbres où l individu x est oob fournit un score de la variable m pour cet x. En moyennant sur tous les x, on obtient le score de la variable m Une procédure du type Recursive Feature Elimination (RFE) est possible en grande dimension.

137 137/1 Approches ensemblistes Forêt aléatoire Proximités et prototypes Dans chaque arbre, projeter les exemples (training + oob). Si les exemples k et n sont dans le même noeud terminal, incrémenter leur indice de proximité. A la fin, diviser les proximités par le nombre d arbre pour obtenir une valeur normalisée. Si un jeu test est présent, la proximité des individus en test peut-etre calculé avec ls individus en apprentissage. Prototypes : Pour chaque classe j, trouver l individu qui a le plus grand nombre de voisins de classe j parmi ses k plus proches voisins. Parmi les k voisins, on calcule la médiane (ou catégorie majoritaire) de chaque variable prototype de la classe j.

138 138/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en apprentissage Comment imputer un individu x de le base d apprentissage? Principe : 1 Remplacer les valeurs manquantes par la médiane ou la catégorie la plus fréquente parmi les x de la même classe, 2 Construire la forêt et calculer les proximités, 3 Si x(n, m) est une valeur manquante, estimer sa valeur par une moyenne pondérée des autres valeurs non manquantes de la variable m parmi les k plus proches, pondérées par les proximités entre ces individus. Itérer la procédure (imputation puis construction du RF) une dizaine de fois.

139 139/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en test Comment imputer un individu x de le base de test où la classe est inconnue? Principe : 1 Répliquer C fois l individu (C =nombre de classes) avec les valeurs de x mais un numéro de classe différent, 2 Imputer les valeurs manquantes par la médiane en ne prenant que les individus de la même classe. 3 Projeter ces individus dans la forêt. 4 L individu qui reçoit le plus de votes justes est celui que l on conserve.

140 140/1 Approches ensemblistes Forêt aléatoire Données aberrantes Un outlier est un individu éloigné des autres, donc douteux. Autre façon de voir : un outlier dans la classe j est un individu dont la proximité aux individus des autres classes est petite. La proximité moyenne d un individu n aux individus de sa classe est : P(n) = d(k)=j prox 2 (n, k) Dans chaque classe, calculer la médiane. Soustraire à P(n) la médiane,et diviser par l écart type, fournit un indice d éloignement à la norme. Permet aussi de détecter les données mal étiquetées!

141 41/1 Approches ensemblistes Boosting Boosting C est un principe qui regroupe de nombreux algorithmes qui s appuient sur des ensembles de classifieurs binaires. Par itérations successives, la connaissance d un classifieur faible (weak classifier) est ajoutée au classifieur final (strong classifier). Les classifieurs faibles sont capables de reconnaître deux classes au moins aussi bien que le hasard ne le ferait. Le classifieur fourni est pondéré par la qualité de sa classification : plus il classe bien, plus il sera important. Les exemples mal classés sont boostés pour qu ils aient davantage d importance vis-à-vis de l apprenant faible au prochain tour. Un des algorithmes les plus utilisés en boosting est AdaBoost, qui signifie adaptative boosting.

142 142/1 Approches ensemblistes Boosting Strong vs Weak Learnability Le boosting trouve son origine théorique dans le cadre PAC (Probability Approximatively Correct) Définition Un algorithme d apprentissage L est strong PAC ssi : ɛ < 1/2 et δ < 1/2 avec un nombre polynomial d exemples d apprentissage en 1/ɛ distribution sur D L est capable d induite une classifieur y ayant une erreur en génélalisation ɛ avec une probabilité 1 δ

143 Approches ensemblistes Boosting Illustration {w (1) n } {w (2) n } {w (M) n } y 1 (x) y 2 (x) y M (x) ( M ) Y M (x) = sign α m y m (x) m 143/1 Adaboost repose sur la sélection itérative de classifieurs faibles y m(x) en fonction d une distribution des exemples d apprentissage. Chaque exemple est pondéré en fonction de sa difficulté avec le classifieur courant. Les poids w n (m) dépendent des performances des clasfieurs précédents y m 1 (x).

144 Approches ensemblistes Boosting Algorithme 1 Initialiser les {w m} par {w (1) m } = 1/N pour n = 1,..., N. 2 Pour m = 1,..., M : Trouver le classifieur y m : X { 1, +1} qui minimise la fonction d erreur N J m = w n (m) I(y m(x n) t n) n=1 où I(y m(x n) t n) est la fonction indicatrice. Evaluer les quantités N n=1 ɛ m = w n (m) I(y m(x n) t n) N n=1 w n (m) et poser α m = ln{ 1 ɛm } ɛ m Modifier les coéfficients de pondération 44/1 3 La prédiction finale w n(m + 1) = w n(m)exp{α mi(y m(x n) t n)} ( M ) Y M (x) = sign α my m(x) m=1

145 145/1 Approches ensemblistes Boosting Illustration avec des decision stumps

146 Approches ensemblistes Boosting Théorie des marges Définition La marge d un point est définie comme étant la différencer entre le poids attribué à une étiquette correcte et le poids attribué à une étiquette incorrecte margin(x) = t M m=1 α my m (x) M m=1 α m 146/1 Observation attendue : Ê(Y M ) baisse pour atteindre éventuellement 0. Risque de sur-apprentissage! Observation pratique : Le boosting tend à augmenter la marge des exemples d apprentissage Ê(Y M ) baisse pour atteindre éventuellement 0.

147 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Cete borne dépend : du nombre d exemples en apprentissage N de la VC dimension d y des classifieurs faibles de la distribution des marges des exemples d apprentissage 147/1 Théorème ˆPr(margin(x) θ) tend exponentiellement vers O en fonction du nombre d itérations M quand l hyptohèse d apprentissage faible est vérifiée.

148 148/1 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Le boosting choisit les α 1,..., α m tels que la borne soit minimisées Pour y arriver, il faut rendre les marges des exemples d apprentissage les plus larges possibles. SVM et boosting cherchent à maximiser la marge minimale des exemples, mais moins explicitement pour le boosting

149 149/1 Approches ensemblistes Boosting Avantages et inconvénient du boosting Avantages Facile à mettre en oeuvre, aucun paramètre à tuner sauf M Améliore les performances de n importe quel algorithme d apprentissage Possède des résultats théoriques de convergence Inconvénients Choix de weak learner : si trop riche, risque d overfitting, sinon trop lent à converger Présence d outliers augmentation exponentielle de leur poids overfitting Présence d erreur sur le étiquettes ralentissement de la convergence car Adaboost étiquette alternativement les exemples bruiteés par +1 et -1.

150 150/1 Approches ensemblistes Boosting Fonction d erreur du boosting Les bornes supérieures sur l erreur de généralisation sont trop larges pour expliquer, à elles seules, les performances du boosting. Friedman et al. (2000) ont donné une interpretation plus simple en terme de minimisation séquentielle d une fonction d erreur exponentielle E = N exp{t n f m(x n)} n=1 où f m(x) est le classifieur défini par une combinaison linéaire de classifieurs de base y k (x) de la forme f m(x) = 1 m α k y k (x) 2 k=1 On montre que le boosting réalise une minimisation séquentielle (greedy) de E par rapport à {α k } et aux parametres des classifieurs de base y k (x).

151 151/1 Approches ensemblistes Boosting Fonction d erreur du boosting La fonction d erreur exponentielle minimisée par AdaBoost diffère des autres. Considérons l espérance de cette erreur E x,t = [exp{ ty(x)}] = t exp{ ty(x)}p(t x)p(x)dx Une minimisation variationelle par rapport aux fonctions y(x) aboutit à y(x) = 1 p(t = 1 x) ln( 2 p(t = 1 x) ) AdaBoost cherche la meilleure approximation du log odds ratio, dans l espace des fonctions représenté par les combinaisons linéaires de classifieurs de base, sous les contraintes d une minimisation séquentielle.

152 152/1 Approches ensemblistes Boosting Fonctions d erreur vs. z = ty(x) E(z) z Fonction d erreur exponentielle E = exp ( yt)(vert) ; entropie croisée recentrée (rouge) (avec p(t = +1 y) = σ(y) d où E = ln (1 + exp ( yt)) ; erreur de hinge des SVMs E = [1 yt] + (bleu) ; taux d erreur de classification (noir).

153 153/1 Approches ensemblistes Boosting Conséquences de l erreur exponentielle Pour les fortes valeurs négatives de z = ty(x), l entropie croisée croît linéairement tandis que la fonction d erreur exponentielle penalise à outrance. Faiblesses la fonction d erreur exponentielle est beaucoup moins robuste aux données aberrantes ainsi qu aux instances mal étiquetées.

154 Comparaison des classifieurs 154/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

155 155/1 Comparaison des classifieurs Comparaison de deux classifieurs Il arrive que l on compare deux classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Y a-t-il une différence siginificative entre les deux au vu des scores? Test t (Student) à deux échantillons : test paramétrique qui suppose que les scores sont distribués selonune loi normale. Test de rang de Wilcoxon : test non paramétrique réputé plus robuste qu un test de Student. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

156 156/1 Comparaison des classifieurs Test t à deux échantillons appariés Il est présumé que ces scores ont la même moyenne (H 0 : µ 1 = µ 2 ), et la question est de savoir si leur différence est suffisamment importante pour contredire cette hypothèse (H 1 : µ 1 µ 2 ). On suppose que les deux populations normales sont de même variance σ 2 inconnue, estimée par s 2 = n j (x 1j x 2j ) 2 / n 1. Nous en déduisons que la statistique T = x 2 x 2 s 2 /(n 1) t n 1 L hypothèse nulle est rejetée en faveur de l hypothèse alternative si la valeur de T est dans la région critique définie par la valeur choisie pour le niveau de risque α.

157 57/1 Comparaison des classifieurs Test de rang de Wilcoxon On pose d i la différence absolue de score sur le jeu i R + = rank(d i ) + 1 rank(d i ), 2 d>0 d=0 R = rank(d i ) + 1 rank(d i ) 2 d<0 d=0 On pose T = min{r, R + }. Pour N > 25, z = 1 24 T 1 4N(N + 1) N(N + 1)(2N + 1) suis approximativement une loi normale.

158 158/1 Comparaison des classifieurs Illustration Algo1 Algo2 difference rank adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine R + = = 93, R = = 12. Au seuil α = 0.05 et N = 14 la différence est significative car 12 < 21 (21 est la valeur critique exacte lue dans une table).

159 59/1 Comparaison des classifieurs Comparaisons entre de multiples classifieurs Il arrive que l on compare de multiples (> 2) classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Le problème des tests multiple est connu : il faut contrôler la family-wise error la probabilité de faire au moins une erreur de type 1 dans l ensemble des tests réalisés. Y a-t-il une différence siginificative entre les classifieurs au vu des scores? Test de Friedman : test non paramétrique réputé plus robuste qu une ANOVA. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.

160 Comparaison des classifieurs Test de Friedman On pose rj i le rang du j-ème algorithmes parmi les k sur le i-ème jeu de données parmi les N. Le test de Friedman compare les rangs moyens, R j = 1 N Sous l hypothèse nulle H 0 qui dit que tous les R j devraient etre égaux. On pose χ 2 F = 12N k(k + 1) j R 2 j k(k + 1)2 4 i r j i. 60/1 F F = (N 1)χ2 F N(k 1) χ 2 F est distribué selon une loi de Fisher-Snedecor, notée F, avec k 1 et (k 1)(N 1) degrés de liberté.

161 161/1 Comparaison des classifieurs Illustration Algo1 Algo2 Algo3 Algo4 adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine average rank

162 62/1 Comparaison des classifieurs Illustration χ 2 F = [ ] 52 = F F = = 3.69 Avec 4 classfieurs et N = 14, F F est distribué selon une loi F à 4 1 = 3 et (4 1) (14 1) = 39 degrés de liberté. Au seuil α = 0.05, F (3; 39) = 2.85 donc la différence est significative, on rejette H 0

163 Réseaux Bayésiens 163/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens

164 164/1 Réseaux Bayésiens Modèles génératifs On a vu jusqu à présent des modèles pour P(y x). Il faut connaître x pour prévoir y. Ce sont des modèles dits discriminatifs. Il existe des modèles plus riches, dits génératifs, qui estiment P(y, x) directement. Ils permettent d échantillonner de nouvelles données. Pour classer un nouvel individu, P(y x) = P(y, x)/p(x). Les réseaux bayésiens sont des modèles génératifs.

165 Réseaux Bayésiens Définition d un réseau bayésien Définition Un réseau bayésien est défini par la description qualitative des dépendances (ou des indépendances conditionnelles) entre des variables S i graphe orienté sans circuit (DAG) la description quantitative de ces dépendances probabilités conditionnelles (CPD) Conséquence 165/1 P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

166 166/1 Réseaux Bayésiens Conséquence Rappel du théorème de Bayes généralisé P(S) = P(S 1 ) P(S 2 S 1 ) P(S 3 S 1, S 2 ) P(S n S 1... S n 1 ) Conséquence dans un RB P(S i S 1... S i 1 ) = P(S i parents(s i )) d où P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)

167 167/1 Réseaux Bayésiens Exemple

168 168/1 Réseaux Bayésiens Exemple illustratif On cherche la structure du RB < G, P > où G =< U, E > associé à U = {F, V, C}. Les variables désignent : Forme, Valeur et Couleur. La seule propriété d indépendence conditionnelle observée est V F C (V F ). On en déduit P(V, C, F ) = P(C)P(V C)P(F C) = P(V )P(C V )P(F C) = P(F )P(C F )P(V C) D où les trois représentations graphiques équivalentes :

169 169/1 Réseaux Bayésiens Intérêts et motivation Intérêts des réseaux bayésiens outil de représentation graphique des connaissances représentation de l incertain raisonnement à partir de données incomplètes : inférence Motivation comment déterminer la structure, avec des données complètes ou incomplètes?

170 Réseaux Bayésiens Intérêts et motivation Autre intérêt outil de découverte de connaissances à partir de données Motivation 170/1 comment découvrir des connaissances : relations causales, variables latentes?

171 171/1 Réseaux Bayésiens Intérêts et motivation Des domaines d application variés diagnostic, fiabilité, maintenance, sécurité informatique psychologie, sciences de la cognition, maîtrise des risques Motivation fournir des outils pour la modélisation de systèmes complexes

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos olivier.bos@u-paris2.fr

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

Modélisation et simulation

Modélisation et simulation Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.

Plus en détail

Les algorithmes de base du graphisme

Les algorithmes de base du graphisme Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............

Plus en détail

de calibration Master 2: Calibration de modèles: présentation et simulation d

de calibration Master 2: Calibration de modèles: présentation et simulation d Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Apprentissage par renforcement (1a/3)

Apprentissage par renforcement (1a/3) Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche 3 Principes d AdWords Les deux premiers chapitres de ce livre, plutôt généraux, ont présenté l univers d Internet et de la publicité en ligne. Vous devriez maintenant être convaincu de l intérêt d une

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Feuille d exercices 2 : Espaces probabilisés

Feuille d exercices 2 : Espaces probabilisés Feuille d exercices 2 : Espaces probabilisés Cours de Licence 2 Année 07/08 1 Espaces de probabilité Exercice 1.1 (Une inégalité). Montrer que P (A B) min(p (A), P (B)) Exercice 1.2 (Alphabet). On a un

Plus en détail

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette Compression et Transmission des Signaux Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette 1 De Shannon à Mac Donalds Mac Donalds 1955 Claude Elwood Shannon 1916 2001 Monsieur X 1951 2 Où

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Economie de l Incertain et des Incitations

Economie de l Incertain et des Incitations Economie de l Incertain et des Incitations CHAPITRE 2 Eléments de théorie des jeux en information symétrique et asymétrique Equilibres Bayesiens - Université de Tours - M1 AGE - Arnold Chassagnon - Automne

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand

Plus en détail

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Chapitre 6 Apprentissage des réseaux de neurones et régularisation Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la

Plus en détail