Machine Learning Option : Ouverte Recherche Big data
|
|
- Colette Guérin
- il y a 8 ans
- Total affichages :
Transcription
1 /1 Option : Ouverte Recherche Big data Alexandre Aussem Département Informatique - Polytech Lyon Université Claude Bernard Lyon 1 Web : perso.univ-lyon1.fr/alexandre.aussem 16h CM, 16h TD 2 octobre 2015
2 2/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
3 Introduction à l apprentissage numérique 3/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
4 4/1 Introduction à l apprentissage numérique Introduction L apprentissage numérique (ou statistique) fait référence au développement, à l analyse et à l implémentation de méthodes statistiques qui permettent à une machine d apprendre à remplir une tâche à partir d exemples Il est difficile voire impossible de remplir ces tâches par des moyens algorithmiques plus classiques. Exemples de tâches : reconnaissance de formes ou de signaux, prévision, diagnostic, détection, prise de décision en environnement complexe, incertain et évolutif.
5 5/1 Introduction à l apprentissage numérique Introduction Ses applications sont multiples dans le monde de la production industrielle (aide à la conception de produits, maintenance préventive, robotique, planification d expériences), dans le domaine de la biologie et de la santé (aide à la découverte de médicaments, aide au diagnostic, bioinformatique), en télécommunications, en marketing et finance etc. Ce module aborde les fondements théoriques de l apprentissage numérique et offre de solides bases méthodologiques à tout ingénieur ou chercheur soucieux d exploiter ses données.
6 6/1 Introduction à l apprentissage numérique Applications nouvelles La publicité en ligne (ads) se fait généralement sous forme de campagne publicitaire, grâce à la diffusion de bandeaux publicitaires ou de liens sponsorisés. Les régies publicitaires sont les intermédiaires entre les annonceurs (souhaitant diffuser une campagne publicitaire) et les éditeurs (propriétaires de sites). Il existe différents modes de rémunération : CPC (Coût par clic), CPM (Coût par mille), CPS (Cost per Sale). Enjeu : comment trouver en temps réel le best match entre utilisateur, publicité et contexte? Le contexte = requête sur un moteur de recherche, lecture d une page web, interaction avec un mobile etc. But : predire l impact de la publicité sur le comportement de l usager. Marché de 28 milliards de dollars en 2011.
7 7/1 Introduction à l apprentissage numérique Applications nouvelles Kinect est un périphérique destiné à la console de jeux vidéo Xbox 360 permettant de contrôler des jeux vidéo sans utiliser de manette. Elle utilise une technologie 3D depth sensor (capteur de profondeur/distance 3D). C est un émetteur de lumière infrarouge, une partie de ces rayonnements est réfléchie. La lampe infrarouge projette ses rayons sur la scène, la caméra infrarouge filme cette scène et une puce traite les données afin d estimer la distance de chaque objet par rapport à la caméra. Il y a un processus d apprentissage statistique pour reconnaître la silhouette du joueur et les différents points de motion control et anticiper sa dynamique.
8 8/1 Introduction à l apprentissage numérique Applications nouvelles Des applications mobiles de santé ont vu le jour, permettant de conseiller les patients et apporter des conseils personnalisés à tous ceux qui ont du mal à joindre un médecin, par ex. Alerte Fièvre est capable de recommander la prise de médicaments pour lutter contre la fièvre et de proposer la dose adaptée au profil du patient. Un arbre de décision permet de savoir s il est nécessaire de consulter un médecin en fonction de divers paramètres (intensité de la fièvre, antécédents, réaction aux prises de médicaments). Google se lance également dans le diagnostic médical. Un internaute qui entre des symptômes dans la version anglophone du moteur de recherche se voit désormais proposer une liste de pathologies pouvant correspondre à son cas.
9 9/1 Introduction à l apprentissage numérique Applications nouvelles Réseaux sociaux et web marketing : L analyse de réseaux sociaux comme Facebook ou Twitter est un domaine de recherche maintenant établi. De nombreuses techniques existent pour identifier des communautés d utilisateurs en se basant sur leur relations explicites (amitiés, etc.), et sur la dynamique temporelle et le contenu des échanges (posts). Les données transitant sur les réseaux sociaux permettent des usages variés : compréhension les attitudes, les opinions, les tendances, la fiabilité ou la capacité d influence des utilisateurs, identification des menaces sur la réputation en ligne, prédiction du comportement des utilisateurs et améliorer leur satisfaction en recommandant les meilleures options à prendre, création de campagnes et de promotions personnalisées résonnant auprès des communautés de chaque réseau.
10 10/1 Introduction à l apprentissage numérique Terminologie Quelques synomymes : Apprentissage machine (), Apprentissage statistique (Statistical Learning), Extraction de connaissance à partir de données (Knowledge Discovery in Databases), Reconnaissance de formes (Pattern Recognition), Fouille de données (Data mining),
11 11/1 Introduction à l apprentissage numérique Illustration : Reconnaissance de chiffres manuscrits
12 12/1 Introduction à l apprentissage numérique Individus/attributs Le KDD, c est tout le cycle de découverte d information. Dans ce cours, on ne s intéresse pas à la conception des entrepots et à l accès aux données, mais aux algorithmes numériques pour en extraire de l information. On se donne un tableau X = {x ij } i = 1,..., n décrit les individus, instances ou enregistrements, j = 1,..., m décrit les champs, attributs ou variables du domaine. Les données peuvent être discrètes énumératives (e.g. couleur, code postal etc.), discrètes ordonnées (e.g. classe de salaire ou d âge etc.) ou continues. Prétraitement nécessaire pour l extraction de features dans les données structurées : image, son, video, texte, XML etc.
13 13/1 Introduction à l apprentissage numérique Problématiques en apprentissage (non temporel) 1 Apprentissage supervisé : attribuer une classe, (t N), à partir de données déjà étiquetées. Variantes : multi-class et multi-label classification, ranking. 2 Apprentissage semi-supervisé : attribuer une classe (t N) aux observations (symptômes) à partir de données étiquetées et non étiquetées. 3 Apprentissage non supervisé : former des groupes (clusters) homogènes à l intérieur d une population non étiquetée. 4 Apprentissage par renforcement : trouver à chaque instant l action qui maximise la somme des récompenses futures. Dans le cas de la régression, la valeur cible est réelle (t R).
14 14/1 Introduction à l apprentissage numérique Example : Image annotation/retrieval
15 15/1 Introduction à l apprentissage numérique Multi-label learning
16 16/1 Introduction à l apprentissage numérique Multivariate prediction
17 17/1 Introduction à l apprentissage numérique Label ranking
18 18/1 Introduction à l apprentissage numérique Multi-task learning
19 19/1 Introduction à l apprentissage numérique Collaborative filtering
20 20/1 Introduction à l apprentissage numérique Dyadic prediction
21 21/1 Introduction à l apprentissage numérique Les problèmes multi target Multi-label classification Multivariate regression / Multi-output regression Structured output prediction Multi-task learning and transfer learning dyadic prediction Label ranking Matrix factorization and collaborative filtering methods Recommender systems Sequence learning, time series prediction and data stream mining...
22 22/1 Introduction à l apprentissage numérique Outils logiciels
23 Introduction à l apprentissage numérique Apprentissage supervisé Formellement, étant donné un échantillon i.i.d. de n exemples D = (x 1, t 1 ),..., (x n, t n ) selon la distribution p(x, t) (inconnue) sur X T, avec X un espace à d dimensions prenant ses valeurs dans R d, ainsi que T la variable à prédire. L objectif de l apprentissage est d inférer une hypothèse y(., w) : X T à partir de D qui minimise : Erreur de généralisation ou erreur théorique : E(w) = E[L(y(X, w), T )] = L(y(x, w), t)p(x, t)dxdt 3/1 L( ) est la fonction de coût et E[ ] l espérance mathématique calulée sur X et T.
24 24/1 Introduction à l apprentissage numérique Fonctions d erreur classiques En régression, typiquement, L( ) est l erreur quadratique. On cherche donc à minimiser la fonction coût des moindres carrés : E[L(y(X, w), t)] = (y(x, w) t) 2 p(x, t)dxdt En classification, typiquement, L( ) est le taux d erreur. On cherche donc à minimiser : E[L(y(X, w), t)] = P (X,T ) [y(x, w) T ] = I[y(x, w) t]p(x, t)dx t
25 5/1 Introduction à l apprentissage numérique Autres fonctions d erreur... La fonction coût des moindres carrés n est pas la seule fonction coût en régression. Elle est inadaptée dans le cas où p(t x) est multimodale. La fonction coût de Minkowski est donnée par E[L(y(X, w), t)] = y(x, w) t q p(x, t)dxdt On montre que la solution optimale, ŷ(x), est donnée par, L espérance conditionnelle, E[t x], pour q = 2. La médiane de la distribution conditionnelle p(t x) pour q = 1. Le mode de la distribution conditionnelle p(t x) lorsque q 0.
26 26/1 Introduction à l apprentissage numérique Moindres carrés t y(x) y(x 0 ) p(t x 0 ) x 0 x La solution optimale, ŷ(x), est donnée par l espérance conditionnelle, E[t x], pour q = 2.
27 27/1 Introduction à l apprentissage numérique Erreur empirique L erreur théorique E(w) est impossible à calculer de façon exacte car la distribution p(x, t) est inconnue. Or on peut appliquer l approximation suivante, E[f (X)] = f (x)p(x)dx 1 n n f (x j ) Donc à défaut de minimiser l erreur théorique, on cherche une hypohèse y(., w) qui minimise : Erreur empirique : j=1 Ê(w) = 1 n n L(y(x j, w), t j ) j=1
28 8/1 Introduction à l apprentissage numérique Problème de dimensionnalité Chercher la meilleure décision t à partir d une observation x est un problème de décision optimale dans un univers incertain. La distribution conjointe p(t x) fournit toute la connaissance de l incertitude associée à la cible sachant les variables descriptive. L estimation de p(t x) (et à fortiori de p(t, x)) est un problème ardû en grande dimension. Elle se heurte au Pb du cours de la dimensionnalité (curse of dimensionality). D où la nécessité d utiliser un modèle paramétrique qui va lisser les valeurs de y dans l espace des x
29 29/1 Introduction à l apprentissage numérique Problème de dimensionnalité x 2 x 2 x 1 D = 1 x 1 D = 2 x 1 x 3 D = 3
30 Introduction à l apprentissage numérique Problème de dimensionnalité 2 1 D = 20 D = 1 volume fraction D = 5 D = 2 D = 1 p(r) 1 D = 2 D = ɛ r 0/1 Gauche : fraction de volume d une sphère entre 1 ɛ et 1 en fonction de la dimension D. Droite : densité de probabilité d une gaussienne en fonction du rayon.
31 31/1 Introduction à l apprentissage numérique Classification binaire supervisée Nombre de problèmes pratiques peuvent être traités par l apprentissage d un ou plusieurs classifieurs binaires. L objectif de la classification supervisée est d inférer une fonction f : X { 1, +1} à partir de D telle que l erreur en généralisation P (X,T ) [f (X, w) T ] soit aussi faible que possible. Il arrive souvent que la sortie de f : X R soit interprété comme une degré d appartenance à la classe +1 auquel cas il faut appliquer un seuil θ en sortie. Un classifeur probabiliste estime en sortie P(t = 1 x), mais une calibration des probabilités est souvent nécessaire à l issue de l apprentissage.
32 32/1 Introduction à l apprentissage numérique Choix du modèle y(x, w) est généralement paramétrée par w dont la taille mémoire est intimement liée à la complexité du modèle, mais il existe des approches non paramétriques (e.g., plus proche voisin). Les modèles les plus couramment utilisés sont présentés : réseaux de neurones (ANN), machines à vecteurs supports (SVM), arbres de décisions (DT), réseau bayésien naïf (NB), régression logistique (LR), k plus proches voisins (KNN), méthodes ensemblistes, etc. Tous ces algorithmes abordent généralement le problème de manière différente et ont chacun leurs propres fondements théoriques.
33 33/1 Introduction à l apprentissage numérique Illustration en régression polynomiale t x 1 y(x, w) = w 0 + w 1 x + w 2 x w M x M = M j=0 w jx j
34 Introduction à l apprentissage numérique Erreur empirique t t n y(x n, w) x n x On estime l erreur théorique par l erreur empirique : 34/1 Ê(w) = 1 N N {y(x n, w) t n } 2 n=1
35 35/1 Introduction à l apprentissage numérique Polynôme d ordre 0 t 1 M = x 1
36 36/1 Introduction à l apprentissage numérique Polynôme d ordre 1 t 1 M = x 1
37 37/1 Introduction à l apprentissage numérique Polynôme d ordre 3 t 1 M = x 1
38 38/1 Introduction à l apprentissage numérique Polynôme d ordre 9 t 1 M = x 1
39 Introduction à l apprentissage numérique Polynôme d ordre 9 39/1 On observe que w j quand M.
40 40/1 Introduction à l apprentissage numérique Sur-apprentissage 1 Training Test ERMS M 6 9
41 1/1 Introduction à l apprentissage numérique Régularisation Idée : Pénaliser les larges valeurs des coeffcients, Ê(w) = 1 2 M {f (x n, w) t n } 2 + λ 2 w 2 n=1 λ réalise un compromis entre flexibilité et complexité du modèle. On parle aussi de compromis biais-variance où le biais est l erreur systématique du modèle et la variance est mesure l incertitude du modèle par rapport aux variations de l échantillon.
42 42/1 Introduction à l apprentissage numérique Régularisation ln λ = 18 t 1 ln λ = x 1
43 43/1 Introduction à l apprentissage numérique Régularisation ln λ = 0 t 1 ln λ = x 1
44 44/1 Introduction à l apprentissage numérique Régularisation : E RMLS vs. ln λ 1 Training Test ERMS ln λ 25 20
45 45/1 On observe que la magnitude des w j décroît à mesure que λ augmente. Introduction à l apprentissage numérique Polynôme d ordre 9
46 46/1 Introduction à l apprentissage numérique Dilemme biais-variance En régression, on suppose que y = f (x, w) + ɛ où ɛ est un bruit gaussien de variance σ 2. L erreur quadratique théorique E[w] se décompose alors : E[w] = = + (f (x, w) y) 2 f X,Y (x, y)dxdy (f (x, w) E[y x]) 2 f X,Y (x, y)dxdy (E[y x] y) 2 f Y /X (y)dxdy avec E[t x] = tp(t x))dt, la meilleure prédiction possible. Le terme (E[y x] y) 2 f Y /X (y)dxdy = σ 2 est le bruit. Il est par définition irréductible.
47 47/1 Introduction à l apprentissage numérique Dilemme biais-variance Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [(f (x, w) E[y x]) 2 ] = (E D [(f (x, w)] E[y x]) 2 + E D [(f (x, w) E D [(f (x, w)]) 2 ] Au final, on obtient la décomposition : Erreur = (biais) 2 + variance + bruit Conclusion : il faut chercher un compromis entre biais (modèle trop simple) et variance (modèle trop paramétré).
48 48/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.6 t x 1 0 x 1
49 49/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 0.31 t x 1 0 x 1
50 50/1 Introduction à l apprentissage numérique Décomposition biais-variance en fonction de ln λ t 1 ln λ = 2.4 t x 1 0 x 1
51 51/1 Introduction à l apprentissage numérique Compromis biais-variance (bias) 2 variance (bias) 2 + variance test error ln λ Un modèle trop régularisé model est très biaisé, tandis qu un modèle pas assez régularisé a une grande variance.
52 52/1 Introduction à l apprentissage numérique Dilemme biais-spread en classification Le modèle f (x, w) est dépendant de D. On montre en moyennant sur D que E D [P(Y f (X, w))] = 1 P(j X ) + E X [(P(j X ) P(ĵ X ))P(ĵ f, X )] + E X [ ((P(j X ) P(j X ))P(j f, X ))] j ĵ avec les notations P(j f, x)) = P D (f (x, w) = j X = x)) P(j x)) = P(Y = j x)) j (x) = argmaxp(j x) j ĵ(x) = argmaxp(j f, x) j
53 53/1 Introduction à l apprentissage numérique Dilemmes biais-spread et biais-variance Au final, on obtient les décompositions Dilemme biais-variance en régression Erreur = (biais) 2 + variance + bruit Dilemme biais-spread en classification Erreur = biais + spread + erreur bayésienne Le spread est l équivalent de la variance en régression. Le bruit et l erreur bayésienne sont irréductibles. L enjeu est dimininuer conjointement biais et variance (ou biais et spread).
54 54/1 Introduction à l apprentissage numérique Théorie de la décision On a vu que les probabilité fournissent un cadre mathématique pour quantifier et manipuler l incertitude. Comment en déduire des décisions quant à la classe? La distribution p(x, t) résume entièrement l incertitude associée à ces variables. Mais déterminer p(x, t) à partir d une base d apprentissage est une tâche d inférence ardue. On cherche une règle qui assigne une classe à chaque valeur du vecteur d entrée x. Cette règle divise l espace d entrée en régions de décision R k de sorte que tous les points de R k se voient assignés la classe C k. Les frontières (ou surfaces) de décision séparent ces regions.
55 55/1 Introduction à l apprentissage numérique Minimiser le taux d erreur Lorsque p(x, y) est connue, avec y {C 1,..., C K }, le problème de la décision optimale devient trivial. D après le théorème de Bayes : p(c k x) = p(x C k)p(c k ) p(x) L a posterori la vraisemblance l a priori Décider revient à chercher k tq p(c k x) > p(c j x), j k. On définit donc des régions R k = {x p(c k x) > p(c j x), j k} Décision : si x est dans R k, alors on décide que t C k
56 56/1 Introduction à l apprentissage numérique Minimiser le taux d erreur On a clairement p(c k x) > p(c j x) équivalent à p(x C k )p(c k ) > p(x C j )p(c j ) Donc au lieu d estimer p(c k x), on estime p(x C k ) et p(c k ) pour k = 1,..., Nbclasses
57 57/1 Introduction à l apprentissage numérique Erreur de classification minimale x 0 x p(x, C 1 ) p(x, C 2 ) x R 1 R 2
58 Introduction à l apprentissage numérique Minimiser le coût moyen 8/1 La probabilité de commettre une erreur, dans le cas de deux classes, est P(erreur) = p(x, C 1 )dx + p(x, C 2 )dx R 2 R 1 Dans le cas généréral, on peut définir une matrice de coûts L kj lorsqu on assigne x à C j alors que x C k. On montre que E(L) = L kj p(x, C k )dx k j R j Le but est de minimiser E(L). Pour cela, il faut chercher les régions R j qui minimisent k L kjp(x, C k ) A un nouveau x, on associe la classe j telle que k L kjp(x, C k ) est minimale.
59 Introduction à l apprentissage numérique Région de rejet 1.0 θ p(c 1 x) p(c 2 x) 0.0 reject region x 59/1 Taux de rejet : si max k p(c k x) < θ, on rejette x sinon on le classe.
60 60/1 Introduction à l apprentissage numérique Inférence & décision On identifie 3 approches distinctes pour résoudre les problèmes de décision. Dans l ordre décroissant complexité 1 Modèles génératifs : Apprendre p(x C k ) pour en déduire p(c k x) avec les probabilités a priori p(c k ) par la règle de Bayes. Cela revient de façon équivalente à inférer p(x, C k ). 2 Modèles discriminatifs : Inférer directement p(c k x) et utilisent la théorie de la décision pour assigner la classe C k à x. 3 Modèles non probabilistes : ils assignent directement la classe sans référence aux probabilités.
61 61/1 Introduction à l apprentissage numérique Inférence & décision Avantages et inconvénient : 1 Modèles génératifs : approximer p(x C k ) nécessite beaucoup d exemples, mais permet de calculer p(x) (et ses marginales) p(x) = k p(x C k )p(c k ) Très utile pour la détection de données aberrantes (outlier detection) et la détection de nouveauté (novelty detection) pour lesquels p(x) est anormalement faible selon le modèle. 2 Modèles discriminatifs : Tâche moins complexe. Les distributions conditionnelles des classes contiennent parfois des structures inutiles pour le calcul des probabilités a posteriori. 3 Modèles non probabilistes : Simple et efficace mais nécessite un ré-apprentissage si la matrice de coût change.
62 62/1 Introduction à l apprentissage numérique Illustration 5 4 p(x C 2) p(c 1 x) p(c 2 x) class densities 3 2 p(x C 1) x x
63 63/1 Introduction à l apprentissage numérique Illustration : classifieur probabiliste
64 Evaluation d un classifieur 64/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
65 65/1 Evaluation d un classifieur Sélection de modèle et généralisation En pratique, pour contrôler le risque de sur-apprentissage, on décompose la base de données D en 3 sous-bases Une base d apprentissage pour ajuster les paramètres du modèle, Une base de validation pour comparer les modèles entre eux ou ajuster la taille du modèle (ou choisir un modèle) en estimant l erreur de généralisation sur cette base. Une base de test pour évaluer objectivement l erreur réelle.
66 Evaluation d un classifieur Validation croisée Lorsqu on ne dispose pas suffisamment de données, on peut utiliser la technique de la validation croisée pour estimer l erreur de généralisation du modèle : On découpe D en n parties disjointes égales D j Pour j = 1 à n : On ajuste les paramètres du modèle sur D D j et on calcule l erreur E j sur D j On retourne une estimation de l erreur réelle E = 1 n E j 6/1
67 67/1 Evaluation d un classifieur Problème de dimensionnalité run 1 run 2 run 3 run 4
68 68/1 Evaluation d un classifieur Evaluation d un classifieur Pour mesurer les performances d un classifieur, plusieurs critères existent. Ils reposent sur la table de contingence (confusion matrix) : Positif Négatif Prédiction positive TP FP Prédiction négative FN TN Attention, les critère de performance varient avec le taux de positifs (prévalence de la maladie). Un classifieur stupide fait mieux que 50% de réussite dans des données non équilibrées (imbalanced data sets). La fonction coût est souvent asymétrique, elle dépend de l application. C est la fonction coût qu on veut minimiser.
69 Evaluation d un classifieur Evaluation d un classifieur Précision = Spécificité = TP TP + FP ; Rappel = TP TP + FN TN TN + FP ; Sensibilité = TP TP + FN TP + TN Accuracy = TP + TN + FP + FN ; Balanced Acc. = 1 2 (Spé.+Sens.) Sensibilité et spécificité, (resp. précision et rappel) idéalement égales à 1, varient en sens inverse en fonction du seuil de positivité. Pb multi-critère. Parfois on veut les combiner pour obtenir un seul critère : 69/1 F-mesure = (1 + β 2 ) Précision Rappel β 2 Précision + Rappel
70 70/1 Evaluation d un classifieur Evaluation d un classifieur Supposons par exemple qu on s intéresse à la température comme prédicteur de la grippe. On décide que le patient a la grippe si la température dépasse un certain seuil, par exemple 39 C. Si on augmente le seuil pour le porter à 40 C, la probabilité de dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue. En revanche, la probabilité d être en dessous du seuil (chez les sujets non grippés) va augmenter, donc la spécificité augmente. Un test diagnostique de bonne sensibilité est utile en dépistage. Si le test possède une bonne spécificité peut être utilisé en tant qu examen de confirmation du diagnostic.
71 Evaluation d un classifieur Choix d un seuil : courbes ROC 71/1 Un classifieur fournit un score (valeur discriminante, probabilité, rang) pour chaque individu à classer. Un petite valeur indique une classe négative et vice-versa. La courbe ROC (Receiver Operating Characteristics) trace graphiquement la sensibilité en fonction de la spécificité, en variant continûment ce seuil. La droite diagonale correspond à un classifieur aléatoire. L évaluation est souvent fondée sur la surface sous la courbe (Area Under Curve). L AUC est égale à la probabilité que le classifieur classe mieux un positif qu un négatif, tous deux choisis au hasard L AUC se calcule par la méthode des trapezoides. Dans le cas binaire, on peut approximer la courbe par une courbe linéaire par morceaux, dans ce cas l AUC est juste la Balanced Accuracy (BAC).
72 Evaluation d un classifieur Courbe ROC 72/1 L AUC = probabilité que le classifieur classe mieux un exemple positif tiré au hasard qu un exemple négatif tiré au hasard.
73 Principe de la classification supervisée 73/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
74 74/1 Principe de la classification supervisée Maximum de vraisemblance Lorsqu on cherche à ajuster un modèle y(x, w) au regard des données D, il faut ajuster les paramètres w. Si le modèle est probabiliste, du type P(t x) = y(x, w) alors un principe phare (et intuitif) de la statistique inférentielle est de maximiser p(w D) à la recherche d une valeur optimale w C était l approche privilégiée précédemment dans la régression polynomiale.
75 Principe de la classification supervisée Maximum de vraisemblance Les paramètres w les plus probables d un modèle y(x, w) au regard des données D sont ceux qui maximisent la probabilité a posteriori : 75/1 w = argmax w p(w D) = argmax w p(d w)p(w) p(d) = argmax w {log(p(d w)) + log(p(w))} p(d w) s appelle la vraisemblance. Maximiser l a posteriori revient à minimiser log(vraisemblance) + la probabilité a priori sur les paramètres. Si l a priori est uniforme, cela revient à appliquer le principe du maximum de vraisemblance.
76 76/1 Principe de la classification supervisée Maximum de vraisemblance Exemple illustratif : On veut ajuster une gaussienne de paramètres w = {µ, σ 2 } aux données D = (x 1,..., x N ). Pour chaque x D, on a N (x µ, σ 2 ) = 1 σ 1 exp { 2π 2σ 2 (x µ)2 } En supposant les {x 1,..., x N } indépendants, il vient p(x 1,..., x N µ, σ 2 ) = N N (x n µ, σ 2 ) n=1
77 77/1 Principe de la classification supervisée Maximum de vraisemblance log p(d w) est notre fonction d erreur. La minimiser revient à maximiser log p(x 1,..., x N µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 ln σ2 N 2 n=1 ln 2π En maximisant cette relation par rapport à µ et σ, on trouve ˆµ = 1 N N x n, n=1 ˆσ 2 = 1 N N (x n ˆµ) 2 n=1
78 78/1 Principe de la classification supervisée Overfitting Le principe du maximum de vraisemblance sous-estime systématiquement la variance d un modèle trop paramétré Maximiser la vraisemblance du modèle sur les données d apprentissage nous expose au risque de sur-apprentissage (overfitting), en particulier si le modèle est trop complexe (trop paramétré) au regard du nombre de données Il faut pénaliser l erreur d apprentissage par un terme lié à la complexité du modèle (e.g., nombre de paramètres, taille mémoire)
79 Principe de la classification supervisée Approche probabiliste Il est possible de revisiter la régression polynomiale dans un cadre probabiliste en introduisant une incertitude sur la prédiction p(t x, w, β) = N (t y(x, w), β 1 ) où β 1 est l inverse de la variance σ 2, ce qui nous permet d écrire la fonction d erreur ln p(t x, w, β) = N {y(x n, w) t n } 2 + N 2 ln β N 2 n=1 On trouve sans suprise ln (2π) 79/1 1 β ML = 1 2 N {y(xn, w ML ) t n } 2
80 80/1 Principe de la classification supervisée Approche probabiliste t y(x, w) y(x 0, w) p(t x 0, w, β) 2σ x 0 x
81 Principe de la classification supervisée Maximium a posteriori On peut aller plus loin en posant p(w α) = N (w 0, α 1 I) = ( α 2π )(M+1)/2 exp { α 2 wt w} où α est la précision de la distribution (hyperparamètre) et M + 1 le nombre de paramètres de polynôme d ordre M. On trouve d après la règle de Bayes p(w x, t, α, β) p(t x, w, β)p(w α) Maximiser l a posteriori revient à minimiser 1/1 β 2 M {f (x n, w) t n } 2 + α 2 wt w n=1 On retombe sur la régularisation précédente avec λ = α/β.
82 Principe de la classification supervisée Approche bayésienne L approche MAP intègre un apriori mais repose encore sur estimation ponctuelle de w. Une approche entièrement bayésienne somme selon toutes les valeurs possibles de w p(t x, x, t, α, β) = p(t x, w, β)p(w x, t, α, β)dw 2/1 Dans le cas précis de la régression polynômiale et sous les hypothèses d incertitude gaussienne, la distribution p(t x, x, t, α, β) peut se calculer analytiquement. Elle est encore gaussienne mais sa moyennne µ(x) et son écart-type σ(x) dépendent cette fois de x. Dans le cas général, il faut se tourner vers des méthodes numériques d échantillonnage stochastique de type Monte Carlo pour echantillonner selon la distribution
83 3/1 Principe de la classification supervisée Approche bayésienne t x 1 Distribution prédictive resultant d un traitement bayésien d une régression polynomiale avec M = 9, α = et β = 11. En rouge, la courbe moyenne avec son intervalle ±σ.
84 Classification multi-classe 84/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
85 5/1 Classification multi-classe Classification multi-classe La classification multi-classe (K > 2 classes) peut être résolue par trois méthodes : 1 one-against-all : un classifieur par classe. C est le plus simple à mettre en oeuvre. Le classifieur est appris sur tous les exemples, les exemples positifs sont ceux de la classe, les autres sont négatifs. 2 One-against-one ou all-pairs : K(K 1)/2 classifieurs impliquant seulement 2 classes, avec seulement les individus de l une ou l autre classe. 3 Error-Correcting Output Codes (ECOC), en assignant à chaque classe un vecteur binaire unique de taille n.
86 86/1 Classification multi-classe Illustration C 1 C 3? R 1 R 1 R 2 C 1? R 3 C 1 R 3 not C 1 C 2 not C 2 C 2 R 2 C 2 C 3
87 Classification multi-classe ECOC - Illustration Classe vl hl dl cc ol or Table : Reconnaissance de chiffres manuscrits 87/1 Code 6-bits distribué, un classifieur distinct par colonne. Les colonnes et les lignes sont distinctes. Lors de la classifcation de x, on appelle les 6 fonctions pour obtenir un mot de 6 bits. La distance de Hamming de ce mot aux 10 codewords est calculée. La plus proche donne la classe. Exemple : est plus proche de et donne la
88 88/1 Classification multi-classe ECOC - Illustration Chaque colonne à un sens Colonne Abréviation Sens 1 vl contient une ligne verticale 2 hl contient une ligne horizontale 3 dl contient une ligne diagonale 4 cc contient une courbe fermée 5 ol contient une courbe ouverte à droite 6 or contient une courbe ouverte à gauche
89 89/1 Classification multi-classe One-against-one Comment combiner les sorties des K(K 1)/2 classifieurs binaires du One-against-one pour obtenir les probabilités a posteriori des classes? Posons P ij = P(C i C ij, X = x) Comment exprimer P(C i X = x) en fonction des P ij? Idée simple : La classe recevant le maximum de votes est celle choisie. Cette approche expose à des ambiguïtés.
90 Classification multi-classe One-against-one Chaque pattern appartient à une seule classe, on a K P( C j X = x) = 1 j=1 avec K = P( C ij X = x) j=1,i j K = P(C ij X = x) (K 2) P(C i X = x) j=1,i j 90/1 P ij = P(C i C ij, X = x) = P(C i X = x) P(C ij X = x)
91 91/1 Classification multi-classe One-against-one On obtient les K probabilités a posteriori sachant les K(K 1)/2 probabilités P ij : Recombinaison P(C i X = x) = K j=1,i j 1 1 P ij (K 2) En faisant P ij = 1, i, on retrouve bien P(C i X = x) = 1. Pas d avantage clair entre One-against-one technique et one-against-all.
92 Classification multi-label 92/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
93 93/1 Classification multi-label Classification Multi-label Les individus (patterns) sont étiquetés par un sous-ensemble fini d étiquettes (labels) Applications : Annotation/indexing sémantique semi-automatique de collection de media pour l aide à la recherche sémantique. Texte : infos, brevets, documents légaux, rapports médicaux, articles de recherche, etc. Image/vidéo : ImageCLEF 2010 photo annotation task : collection de 8000 images flickr annotées manuellement selon 93 concepts. Web : s, Web pages (Yahoo! directory), images Web Audio : music tracks, sélection des morceaux dans les mobiles
94 4/1 Classification multi-label Classification Multi-label La classification multi-label (K labels) peut être résolue efficacement en partitionnant le probleme original en K(K 1)/2 sous problèmes impliquant seulement 2 labels. Construire un classifieur sur toutes les paires de labels, avec seulement les individus de l un ou l autre label. Combiner les sorties des K(K 1)/2 classfieurs binaires pour obtenir les probabilités a posteriori des labels.
95 95/1 Classification multi-label Ranking by Pairwise Comparison
96 96/1 Classification multi-label Ranking by Pairwise Comparison
97 Méthodes de classification 97/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
98 98/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf C est un classifieur probabiliste simple qui fournit en sortie p(y x) où y est la classe. Il repose sur l estimation de p(x, y) à partir de D. C est l équivalent en classification de la régression linéaire.
99 99/1 Méthodes de classification Classifieur bayésien naïf Classifieur de Bayes naïf Autant il est facile d estimer p(c k ), autant l estimation de p(x C k ) peut devenir très imprécise si la dimensionalité de x est élévée. C est ici qu intervient l hypothèse simplificatrice, dite naive, pour réduire le nombre de paramètres à renseigner. Elle suppose que X i indépendent de tous les X j, tq i j, est conditionnellement à la classe. Un classifieur de Bayes naïf opère selon la règle : Classe(x) arg max k n p(x i C k )p(c k ) i=1 On estime les p(x i C k ) et p(c k ) à partir des fréquences relatives de la base d apprentissage.
100 00/1 Méthodes de classification Arbres de décision Arbres de décision Un arbre de décision est un classifieur simple et graphique. Sa lisibilité, sa rapidité d apprentissage et d exécution expliquent sa popularité. But : prédire les valeurs prises par la variable à prédire à partir d un ensemble de variables prédictives (ou variables discriminantes). Cette technique fait partie des méthodes d apprentissage supervisé. Son succès repose sur la lisibilité du modèle de prédiction car les variables discriminantes sont hiérarchisées sous forme d un arbre. Le travail de l analyste consiste aussi à faire comprendre ses résultats afin d emporter l adhésion des décideurs.
101 101/1 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 1 > θ 1 x 2 θ 2 x 2 > θ 3 x 1 θ 4 A B C D E
102 Méthodes de classification Arbres de décision Illustration d un arbre binaire x 2 E θ 3 B θ 2 C D A θ 1 θ 4 x 1 102/1 Pavage obtenu dans l espace d entrée.
103 103/1 Méthodes de classification Arbres de décision Explications Un arbre de décision binaire est le résultat d une procédure récursive qui consiste à partitionner l espace de représentation X en cherchant la coupure transversale qui maximise un critère prédéfini qui assure la meilleure sépération possible des individus selon la classe. L algorithme commence avec le noeud racine contenant tous les exemples et cherche une coupure de la forme X j > θ j ou X j θ j où θ j est un seuil. Deux nouveaux noeuds sont ainsi ajoutés à l arbre, l un contenant les exemples respectant X j > θ j et l autre les exemples respectant X j θ j. Ce processus de coupure est répété pour chaque nouveau noeud crée jusqu à ce qu un critere d arrêt soit verifié. L arbre opère un pavage (discrétisation) dans l espace X.
104 104/1 Méthodes de classification Arbres de décision Construction d un arbre de décision Pour construire un arbre de décision, il faut : Choisir, parmi les variables qui restent, la variable de segmentation du sommet courant. Lorsque la variable est continue, déterminer le seuil de coupure. Déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Affecter la valeur de la variable à prédire aux feuilles?
105 105/1 Méthodes de classification Arbres de décision Critère de segmentation Teste toutes les variables potentielles et choisit celle qui maximise un critère donné. Le critère caractérise le gain en pureté lors du passage du sommet à segmenter vers les feuilles produites par la segmentation. Plusieurs critères existent. Leur choix a peu d influence sur les performances des algorithmes. Le problème est de trouver le meilleur test associé à une variable nominale de n modalités, dans un arbre L-aire avec k classes. Un autre problème est de comparer les meilleurs tests entre variables de nature différente (nominale et continue).
106 06/1 Méthodes de classification Arbres de décision Critère de choix de variable Posons p(c k ) la proba de la classe C k dans le noeud considéré, Critères les plus utilisés pour mesurer de l hétérogénéité du noeud candidat : Entropie (ID3, C4.5) : H = k p(c k) log 2 (p(c k )), minimum 0 si une seule classe représentée et maximum log 2 (nbclasses) si classes équi-réparties Indice Gini (CART) : Gini = 1 k p2 (C k ) Indice d erreur : Er = 1 max k (p(c k ))
107 107/1 Méthodes de classification Arbres de décision Gain d homogénéité Soit un test T à m alternatives et divisant le noeud N en m sous-noeuds N j Soit I (N j ) les mesures d hétérogénéité (entropie, Gini,...) des sous-noeuds, et p(n j ) les proportions des éléments de N dirigés vers N j par le test T Le gain d homogénéité/information apporté par le test T est Gain(N, T ) = I (N) m p(n j )I (N j ) j=1 A chaque noeud, choix du test maximisant le gain
108 108/1 Méthodes de classification Arbres de décision Tests sur les variables Il y a un nb fini de tests possibles à chaque noeud car un nombre fini d instances en apprentissage. En pratique, tri des exemples par valeur croissante de la variable continu et examen d au maximum N 1 seuils, typiquement les médianes entre valeurs successives croissantes. Par exemple si valeurs de A atteintes sur les exemples d apprentissage sont {1, 3, 6, 10, 12}, on considérera les tests A > 1.5; A > 4.5; A > 8; A > 11 Dans le cas d une variable nominale, il y a 2 n 1 tests possibles pour séparer n catégories. Des heuristiques sont nécessaires... Sinon, un noeud fils par catégorie (arbre n-aire).
109 109/1 Méthodes de classification Arbres de décision Définir la bonne taille de l arbre Il y a un risque de surajustement du modèle : le modèle semble performant (son erreur moyenne est très faible) mais il ne l est en réalité pas du tout. Il faut trouver l arbre le plus petit possible ayant la plus grande performance possible. Plus un arbre est petit et plus il sera stable dans ses prévisions futures (en statistiques, le principe de parcimonie prévaut). Pour éviter un sur-ajustement, il convient d appliquer un principe de parcimonie et de réaliser des arbitrages performance/complexité. A performance comparable, on préfèrere toujours le modèle le plus simple, si l on souhaite pouvoir utiliser ce modèle sur de nouvelles données totalement inconnues.
110 110/1 Méthodes de classification Arbres de décision Le problème du sur-ajustement L erreur d ajustement de l arbre de décision en fonction du nombre de feuilles de l arbre (complexité) décroît constamment sur l échantillon d apprentissage, à partir d un certain niveau de complexité. Le modèle s éloigne de la réalité, réalité que l on essaie de mesurer sur l échantillon test. Les techniques de pré ou de post élégage des arbres peuvent y remédier.
111 111/1 Méthodes de classification Arbres de décision Elagage Pré-élagage : critères d arrêt lors de la phase d expansion. (e.g., effectif trop faible, pureté d un sommet suffisante) Post-élagage : construire l arbre en deux temps. L arbre le plus pur possible est élagué en s appuyant sur l échantillon de validation ou l échantillon de test. Pruning set en anglais. Une fois l arbre construit, on affecte aux feuilles la classe majoritaire ou un score = proportion de la classe majoritaire. Attention, il faut calibrer ce score pour estimer la probabilité, tout comme les modèles bayésien naïfs, car le score est biaisé vers les valeurs extrêmes, 0 ou 1.
112 112/1 Méthodes de classification Arbres de décision Les algorithmes classiques Les algorithmes se distinguent par le ou les critères de segmentation utilisés, par les méthodes d élégage implémentées et leur manière de gérer les données manquantes. Liste non exhaustive des algorithmes classiquement utilisés : CART (Breiman et al., 1984), ID3, C4.5, C5 (Quinlan, 1986 ; Quinlan, 1993).
113 113/1 Méthodes de classification Arbres de décision Exemple de C4.5 Les tests par défaut considérés par C4.5 sont : A =? pour une variable nominale A, avec un noeud fils pour chaque valeur de A. A t pour un attribut continu A, avec deux noeuds fils, vrai et faux. Pour trouver le seuil t qui maximise le critère de splitting, les individus sont classés selon la valeur de l attribut pour donner des valeurs ordonnées distinctes v 1, v 2,..., v N. Chaque paire de valeurs adjacentes suggère une seuil potentiel t = (v i + v i+1 )/2. Le gain de pureté est affecté par le nombre de résultats du test. Un biais existe vers les attributs ayant de multiples modalités ou de valeurs distinctes.
114 114/1 Méthodes de classification Arbres de décision Discrétisation avec les arbres Les arbres sont des modèles de prédilection pour la discrétisation supervisée des variables continues, et nominales avec de nombreuses modalités (cas fréquent). Dans le cas des variables continues, il suffit de lancer un algorithme standard. Le nombre de bins est le nombre de noeuds feuilles qu il est facile d ajuster itérativement Dans le cas des variables nominales, on utilise des heuristiques de splitting de complexité linéaire. Pour créer de nouvelles variables d interaction : pour chaque paire Y i, Y j, construire un arbre avec {Y i, Y j }. Récupérer la classe prédite comme nouvelle variable.
115 15/1 Méthodes de classification Apprentissage par mesure de similarité Mesure de similarité Idée intuitive : calculer une mesure de similarité entre exemples, puis affecter à un nouvel exemple x la classe la plus representée parmi les exemples d apprentissage dont il est proche. Définition Une mesure de similarité sur X est une fonction K : X X [ 1, 1]. On dit que K est symétrique si K(x, y) = K(y, x) pour tout x, y issu de P. Si la mesure est non borneé entre -1 et 1, on peut considérer sans perte de generalité la mesure de similarite normalisée : K(x, y) = K(x, y) K(x, x)k(y, y)
116 Méthodes de classification Apprentissage par mesure de similarité Classifieur de Parzen Etant donnée une mesure de similarité K, on peut affecter à un nouvel exemple x une classe prédite en utilisant la fonction de classification f suivante : f (x) = signe( n y i K(x, x i )) i=1 Ce classifieur dit classifieur de Parzen consiste simplement à affecter l étiquette correspondant aux exemples les plus similaires. Pour améliorer la classification, on peut donner une importance différente, β i > 0, à chaque exemple, 16/1 n f (x) = signe( β i y i K(x, x i )) i=1
117 117/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins C est le classifieur non-paramétrique le plus simple et intuitif. Il s agit pour chaque x de la base de test, de classer les x i de la base d apprentissage selon K(x, x i ), dans l ordre décroissant et de ne chosir que les k premiers x i. La classe de x est alors donnée par la classe majoritaire parmi ces k plus proches voisins x i. Inconvénient : complexité spatiale et temporelle importante par rapport aux modèles paramétriques
118 118/1 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins x 2 x 2 (a) x 1 (b) x 1
119 Méthodes de classification Apprentissage par mesure de similarité k-plus proches voisins 2 K = 1 2 K = 3 2 K = 3 1 x 7 x 7 x x x x 6 119/1 Les frontières de décision sont plus lisses à mesure que K augmente.
120 120/1 Méthodes de classification SVM SVM Définition succinte Les séparateurs à vastes marges (SVM) formulent le problème de classification comme un problème d optimisation quadratique lié à la maximisation de la marge maximale. Ce choix est justifié par la théorie statistique de l apprentissage, qui montre que la frontière de séparation de marge maximale possède la plus petite erreur en généralisation. La marge est la distance entre la frontière de séparation et les échantillons les plus proches (vecteurs supports). Dans le cas non linéairement séparables, l idée clé est de transformer l espace de représentation des données d entrées en un espace de redescription de plus grande dimension (possiblement infinie), dans lequel il est probable qu il existe une séparatrice linéaire, grâce à une fonction noyau, Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension en une simple évaluation ponctuelle d une fonction (kernel trick)
121 Méthodes de classification SVM SVM Plus formellement, on applique aux vecteurs d entrée x une transformation non-linéaire φ. L espace d arrivée φ(x ) est appelé espace de redescription. Dans cet espace, on cherche alors l hyperplan y(x) = w T φ(x) + b qui vérifie t k y(x k ) > 0, pour tous les points x k de l ensemble d apprentissage, c est-à-dire l hyperplan séparateur dans l espace de redescription. Le problème de cette formulation est qu elle implique un produit scalaire entre vecteurs dans l espace de redescription, de dimension élevée, ce qui est couteux en terme de calcul. Pour contourner ce problème, on utilise une astuce (kernel trick) qui consiste à utiliser une fonction noyau, qui vérifie 121/1 K(x i, x j ) = φ(x i ) T φ(x j ) L intérêt de la fonction noyau est double : Le calcul se fait dans l espace d origine, ceci est beaucoup moins coûteux qu un produit scalaire en grande dimension. La transformation φ n a pas besoin d être connue explicitement, seule la fonction noyau intervient dans les calculs. On peut donc envisager des transformations complexes, et même des espaces de redescription de dimension infinie.
122 122/1 Méthodes de classification SVM Illustration y = 1 y = 0 y = 1 y = 1 y = 0 y = 1 y = 1 y = 0 ξ > 1 y = 1 ξ < 1 margin ξ = 0 A droite, une marge souple qui tolère les mauvais classements par l introduction de variables ressort (slack variables), qui permettent de relacher les contraintes. ξ = 0
123 Méthodes de classification SVM Illustration 123/1 Exemple de données synthétiques à 2 classes en 2 dimensions montrant les courbes de niveaux de y(x) obtenues par un SVM avec un noyau gaussien. La frontière de séparation et de marge et les vecteurs supports sont visibles.
124 24/1 Méthodes de classification SVM Illustration Exemple non séparable sur des données synthétiques à 2 classes en 2 dimensions avec des slack variables.
125 Approches ensemblistes 125/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
126 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Définition Une méthode ensembliste combine les décisions individuelles de plusieurs classifieurs y 1,..., y M pour classer de nouveaux exemples Conditions pour qu une méthode ensembliste soit efficace : Les classifieurs construits ont un taux de succès meilleur que l aléatoire Les classifieurs présentent une certaine diversité Question Pourquoi combiner plusieurs classifieurs? 126/1 Un vote réduit la variance Réduire le risque de tomber dans des minima locaux Réduire le biais en augmentant l espace des fonctions possibles
127 127/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes On a déjà évoqué l équilibre bias-variance en régression avec une fonction polynomiale sur un jeu de données bruitées. En pratique, il faut introduire de la variabilité au sein du comité. Le bootstrap permet de combiner M modèles ycom(x) = 1 M M y m (x). m=1 Sous l hypothèse y m (x) = h(x) + ɛ m (x) avec les {ɛ m } i.i.d., on montre facilement que Ecom = 1 M E av avec Eav = 1 M M E x [ɛ 2 m(x)] m=1 Sans l hyptohèse d indépendance, on a toujours Ecom Eav.
128 28/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes Une classification possible des méthodes ensemblistes repose sur la nature des classifieurs de base [Dzeroski & Zenko 2004] Méthodes ensemblistes homogènes : combinent un ensemble de classifieurs produits par des algorithmes différents sur une même distribution des exemples de D Méthodes ensemblistes hétérogènes : combinent un ensemble de classifieurs produits par un même algorithme d apprentissage. La diversité provient de la modification de la distribution des exemples utilisés pour l apprentissage des classifieurs.
129 129/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes hétérogènes La diversité provient des algorithmes d apprentissage Stacking [Wolpert, D.H. 1992] 1 Apprentissage de M classifieurs y 1,..., y M avec des algorithmes différents 2 Apprendre un méta-classifieur sur les réponses de y 1,..., y M. Cascade Generalization [Gamma & Brazdil 2000] 1 Apprentissage d un classifieur y 1 avec un algorithme L 1. Etiquetage avec y 1 des exemples d apprentissage 2 Apprentissage d un classifieur y 2 avec un algorithme L 2 à partir des attributs d origine et l étiquette prédite au niveau précédent. Etiquetage avec y 2 des exemples d apprentissage. 3 Le processus est répété.
130 30/1 Approches ensemblistes Méthodes ensemblistes Méthodes ensemblistes homogènes La diversité provient de la distribution des exemples d apprentissage Bagging [Breiman 1996] 1 Apprentissage de M classifieurs y 1,..., y M à partir d échantillons bootstrappés D 1,..., D M. 2 Etiquetage des exemples par simple vote des M classifieurs. Output flipping [Breiman 2000, Martinez & Suarez 2005] 1 Apprentissage de M classifieurs y 1,..., y M à partir déchantillons D 1,..., D M obtenus par label switching P j i = wp j et un switching rate de p = w(1 j P2 j ). 2 Etiquetage des exemples par simple vote des M classifieurs. Random Forests [Breiman 2001] Boosting [Freund and Schapire 1996]
131 131/1 Approches ensemblistes Forêt aléatoire Caractéristiques des Random Forests Efficace et performant sur de grandes bases, avec des milliers de variables, et des données manquantes. Estime quelles variables sont importantes (voire détecte les interactions) pour la classification et fournit des prototypes pour chaque classe. Fournit un estimateur non biaisé de l erreur de généralisation sans base de test. Estime la données manquantes, y compris les étiquettes manquantes. Permet de traiter les classes déséquilibrées Calcule des proximités entre paires d exemples. Permet l imputation de valeurs manquantes, le clustering, la détection de valeurs aberrantes..
132 132/1 Approches ensemblistes Forêt aléatoire Algorithme Répéter k fois de manière indépendante le processus suivant : Un nombre d d (le nombre total d attributs) (par défaut d = d). Un ensemble de M arbres chacun developpé sur un échantillon bootstrap de l echantillon initial est construit ; Chaque arbre est developpé jusqu à avoir uniquement des feuilles pures (si possible) ; A chaque noeud, d des d attributs sont selectionnés aléatoirement et le meilleur partitionnement selon ces d attributs est utilisé. La prédiction d un nouvel exemple est la classe la plus fréquemment attribuée par l ensemble d arbres.
133 33/1 Approches ensemblistes Forêt aléatoire Variantes Lorsque d = d, on obtient un Bagging d arbres. Dans le Bagging, l utilisation des echantillons bootstprap permet de reduire la variance globale du classifieur en moyennant les predictions de plusieurs classifieurs divers. Les RF introduisent une double randomisation en augmentant la diversité de l ensemble par le bootstrap d une part, mais également par un tirage aléatoire d un petit groupe d attributs avant la recherche de la meilleure coupure. Il existe de nombreuses variations. En adaptant correctement d, on obtient un gain de temps de calcul important sans détérioration de performance. Le niveau de randomisation introduit dans la procédure via le choix de d contrôle le compromis force-correlation.
134 134/1 Approches ensemblistes Forêt aléatoire Estimation out-of-bag de l erreur Pas besoin de cross-validation ou de jeu de test set pour obtenir un estimateur non biasé de l erreur de généralisation. Il est estimé en interne, durant l apprentissage de la forêt comme suit : Chaque arbre est construit avec sur échantillon bootstrappé. Environ 1/3 des exemples ne sont utilisés dans sa construction. Idée : classer les exemples oob dans chaque arbre. Ainsi un jeu de test est obtenu pour chaque exemple dans environ 1/3 des arbres. Soit j la classe qui reçoit le plus de votes chaque fois que l exemple n était oob. La proportion des erreurs, moyennée sur tous les exemples, est l erreur out-of-bag (non biasée en pratique)..
135 135/1 Approches ensemblistes Forêt aléatoire Sélection de variables La sélection d un sous-ensemble de variables explicatives parmi un grand nombre, permet généralement : Réduire de beaucoup les temps de calcul. Obtenir une plus grande variété de modèles. L agrégation des probabilités de sortie (ou classes prédites par vote majoritaire) par tous les modèles générés devrait alors donner un classifieur plus robuste et plus précis.
136 136/1 Approches ensemblistes Forêt aléatoire Estimer l importance des variables Une variable f est discriminante si la modification de sa valeur pour un individu entraîne sa mauvaise classification. Principe : Classer les exemples oob dans chaque arbre et compter le nombre de votes corrects. Ensuite permuter les valeurs de la variable m dans les exemples oob puis reclasser les exemples oob. Soustraire le nombre de votes de la classe correcte entre l exemple oob non permuté et l exemple oob permuté. La moyenne de cette différence sur tous les arbres où l individu x est oob fournit un score de la variable m pour cet x. En moyennant sur tous les x, on obtient le score de la variable m Une procédure du type Recursive Feature Elimination (RFE) est possible en grande dimension.
137 137/1 Approches ensemblistes Forêt aléatoire Proximités et prototypes Dans chaque arbre, projeter les exemples (training + oob). Si les exemples k et n sont dans le même noeud terminal, incrémenter leur indice de proximité. A la fin, diviser les proximités par le nombre d arbre pour obtenir une valeur normalisée. Si un jeu test est présent, la proximité des individus en test peut-etre calculé avec ls individus en apprentissage. Prototypes : Pour chaque classe j, trouver l individu qui a le plus grand nombre de voisins de classe j parmi ses k plus proches voisins. Parmi les k voisins, on calcule la médiane (ou catégorie majoritaire) de chaque variable prototype de la classe j.
138 138/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en apprentissage Comment imputer un individu x de le base d apprentissage? Principe : 1 Remplacer les valeurs manquantes par la médiane ou la catégorie la plus fréquente parmi les x de la même classe, 2 Construire la forêt et calculer les proximités, 3 Si x(n, m) est une valeur manquante, estimer sa valeur par une moyenne pondérée des autres valeurs non manquantes de la variable m parmi les k plus proches, pondérées par les proximités entre ces individus. Itérer la procédure (imputation puis construction du RF) une dizaine de fois.
139 139/1 Approches ensemblistes Forêt aléatoire Imputation des données manquantes en test Comment imputer un individu x de le base de test où la classe est inconnue? Principe : 1 Répliquer C fois l individu (C =nombre de classes) avec les valeurs de x mais un numéro de classe différent, 2 Imputer les valeurs manquantes par la médiane en ne prenant que les individus de la même classe. 3 Projeter ces individus dans la forêt. 4 L individu qui reçoit le plus de votes justes est celui que l on conserve.
140 140/1 Approches ensemblistes Forêt aléatoire Données aberrantes Un outlier est un individu éloigné des autres, donc douteux. Autre façon de voir : un outlier dans la classe j est un individu dont la proximité aux individus des autres classes est petite. La proximité moyenne d un individu n aux individus de sa classe est : P(n) = d(k)=j prox 2 (n, k) Dans chaque classe, calculer la médiane. Soustraire à P(n) la médiane,et diviser par l écart type, fournit un indice d éloignement à la norme. Permet aussi de détecter les données mal étiquetées!
141 41/1 Approches ensemblistes Boosting Boosting C est un principe qui regroupe de nombreux algorithmes qui s appuient sur des ensembles de classifieurs binaires. Par itérations successives, la connaissance d un classifieur faible (weak classifier) est ajoutée au classifieur final (strong classifier). Les classifieurs faibles sont capables de reconnaître deux classes au moins aussi bien que le hasard ne le ferait. Le classifieur fourni est pondéré par la qualité de sa classification : plus il classe bien, plus il sera important. Les exemples mal classés sont boostés pour qu ils aient davantage d importance vis-à-vis de l apprenant faible au prochain tour. Un des algorithmes les plus utilisés en boosting est AdaBoost, qui signifie adaptative boosting.
142 142/1 Approches ensemblistes Boosting Strong vs Weak Learnability Le boosting trouve son origine théorique dans le cadre PAC (Probability Approximatively Correct) Définition Un algorithme d apprentissage L est strong PAC ssi : ɛ < 1/2 et δ < 1/2 avec un nombre polynomial d exemples d apprentissage en 1/ɛ distribution sur D L est capable d induite une classifieur y ayant une erreur en génélalisation ɛ avec une probabilité 1 δ
143 Approches ensemblistes Boosting Illustration {w (1) n } {w (2) n } {w (M) n } y 1 (x) y 2 (x) y M (x) ( M ) Y M (x) = sign α m y m (x) m 143/1 Adaboost repose sur la sélection itérative de classifieurs faibles y m(x) en fonction d une distribution des exemples d apprentissage. Chaque exemple est pondéré en fonction de sa difficulté avec le classifieur courant. Les poids w n (m) dépendent des performances des clasfieurs précédents y m 1 (x).
144 Approches ensemblistes Boosting Algorithme 1 Initialiser les {w m} par {w (1) m } = 1/N pour n = 1,..., N. 2 Pour m = 1,..., M : Trouver le classifieur y m : X { 1, +1} qui minimise la fonction d erreur N J m = w n (m) I(y m(x n) t n) n=1 où I(y m(x n) t n) est la fonction indicatrice. Evaluer les quantités N n=1 ɛ m = w n (m) I(y m(x n) t n) N n=1 w n (m) et poser α m = ln{ 1 ɛm } ɛ m Modifier les coéfficients de pondération 44/1 3 La prédiction finale w n(m + 1) = w n(m)exp{α mi(y m(x n) t n)} ( M ) Y M (x) = sign α my m(x) m=1
145 145/1 Approches ensemblistes Boosting Illustration avec des decision stumps
146 Approches ensemblistes Boosting Théorie des marges Définition La marge d un point est définie comme étant la différencer entre le poids attribué à une étiquette correcte et le poids attribué à une étiquette incorrecte margin(x) = t M m=1 α my m (x) M m=1 α m 146/1 Observation attendue : Ê(Y M ) baisse pour atteindre éventuellement 0. Risque de sur-apprentissage! Observation pratique : Le boosting tend à augmenter la marge des exemples d apprentissage Ê(Y M ) baisse pour atteindre éventuellement 0.
147 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Cete borne dépend : du nombre d exemples en apprentissage N de la VC dimension d y des classifieurs faibles de la distribution des marges des exemples d apprentissage 147/1 Théorème ˆPr(margin(x) θ) tend exponentiellement vers O en fonction du nombre d itérations M quand l hyptohèse d apprentissage faible est vérifiée.
148 148/1 Approches ensemblistes Boosting Propriétés théoriques du boosting en généralisation Théorème [Shapire, Freund, Barlett & Lee 1997] Avec une probabilité élévée, θ > 0 E(Y M ) ˆPr(margin(x) θ) + O( dy Nθ Le boosting choisit les α 1,..., α m tels que la borne soit minimisées Pour y arriver, il faut rendre les marges des exemples d apprentissage les plus larges possibles. SVM et boosting cherchent à maximiser la marge minimale des exemples, mais moins explicitement pour le boosting
149 149/1 Approches ensemblistes Boosting Avantages et inconvénient du boosting Avantages Facile à mettre en oeuvre, aucun paramètre à tuner sauf M Améliore les performances de n importe quel algorithme d apprentissage Possède des résultats théoriques de convergence Inconvénients Choix de weak learner : si trop riche, risque d overfitting, sinon trop lent à converger Présence d outliers augmentation exponentielle de leur poids overfitting Présence d erreur sur le étiquettes ralentissement de la convergence car Adaboost étiquette alternativement les exemples bruiteés par +1 et -1.
150 150/1 Approches ensemblistes Boosting Fonction d erreur du boosting Les bornes supérieures sur l erreur de généralisation sont trop larges pour expliquer, à elles seules, les performances du boosting. Friedman et al. (2000) ont donné une interpretation plus simple en terme de minimisation séquentielle d une fonction d erreur exponentielle E = N exp{t n f m(x n)} n=1 où f m(x) est le classifieur défini par une combinaison linéaire de classifieurs de base y k (x) de la forme f m(x) = 1 m α k y k (x) 2 k=1 On montre que le boosting réalise une minimisation séquentielle (greedy) de E par rapport à {α k } et aux parametres des classifieurs de base y k (x).
151 151/1 Approches ensemblistes Boosting Fonction d erreur du boosting La fonction d erreur exponentielle minimisée par AdaBoost diffère des autres. Considérons l espérance de cette erreur E x,t = [exp{ ty(x)}] = t exp{ ty(x)}p(t x)p(x)dx Une minimisation variationelle par rapport aux fonctions y(x) aboutit à y(x) = 1 p(t = 1 x) ln( 2 p(t = 1 x) ) AdaBoost cherche la meilleure approximation du log odds ratio, dans l espace des fonctions représenté par les combinaisons linéaires de classifieurs de base, sous les contraintes d une minimisation séquentielle.
152 152/1 Approches ensemblistes Boosting Fonctions d erreur vs. z = ty(x) E(z) z Fonction d erreur exponentielle E = exp ( yt)(vert) ; entropie croisée recentrée (rouge) (avec p(t = +1 y) = σ(y) d où E = ln (1 + exp ( yt)) ; erreur de hinge des SVMs E = [1 yt] + (bleu) ; taux d erreur de classification (noir).
153 153/1 Approches ensemblistes Boosting Conséquences de l erreur exponentielle Pour les fortes valeurs négatives de z = ty(x), l entropie croisée croît linéairement tandis que la fonction d erreur exponentielle penalise à outrance. Faiblesses la fonction d erreur exponentielle est beaucoup moins robuste aux données aberrantes ainsi qu aux instances mal étiquetées.
154 Comparaison des classifieurs 154/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
155 155/1 Comparaison des classifieurs Comparaison de deux classifieurs Il arrive que l on compare deux classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Y a-t-il une différence siginificative entre les deux au vu des scores? Test t (Student) à deux échantillons : test paramétrique qui suppose que les scores sont distribués selonune loi normale. Test de rang de Wilcoxon : test non paramétrique réputé plus robuste qu un test de Student. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.
156 156/1 Comparaison des classifieurs Test t à deux échantillons appariés Il est présumé que ces scores ont la même moyenne (H 0 : µ 1 = µ 2 ), et la question est de savoir si leur différence est suffisamment importante pour contredire cette hypothèse (H 1 : µ 1 µ 2 ). On suppose que les deux populations normales sont de même variance σ 2 inconnue, estimée par s 2 = n j (x 1j x 2j ) 2 / n 1. Nous en déduisons que la statistique T = x 2 x 2 s 2 /(n 1) t n 1 L hypothèse nulle est rejetée en faveur de l hypothèse alternative si la valeur de T est dans la région critique définie par la valeur choisie pour le niveau de risque α.
157 57/1 Comparaison des classifieurs Test de rang de Wilcoxon On pose d i la différence absolue de score sur le jeu i R + = rank(d i ) + 1 rank(d i ), 2 d>0 d=0 R = rank(d i ) + 1 rank(d i ) 2 d<0 d=0 On pose T = min{r, R + }. Pour N > 25, z = 1 24 T 1 4N(N + 1) N(N + 1)(2N + 1) suis approximativement une loi normale.
158 158/1 Comparaison des classifieurs Illustration Algo1 Algo2 difference rank adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine R + = = 93, R = = 12. Au seuil α = 0.05 et N = 14 la différence est significative car 12 < 21 (21 est la valeur critique exacte lue dans une table).
159 59/1 Comparaison des classifieurs Comparaisons entre de multiples classifieurs Il arrive que l on compare de multiples (> 2) classifieurs. On suppose qu on cherche à maximiser une fonction score qui reflête la précision du classifieur, et qu on teste les classifieurs sur de multiples jeux de données. Le problème des tests multiple est connu : il faut contrôler la family-wise error la probabilité de faire au moins une erreur de type 1 dans l ensemble des tests réalisés. Y a-t-il une différence siginificative entre les classifieurs au vu des scores? Test de Friedman : test non paramétrique réputé plus robuste qu une ANOVA. Hypothèse nulle H 0 : les différences observées entre les scores ne sont pas statistiquement significatives et peuvent être attribuées au hasard.
160 Comparaison des classifieurs Test de Friedman On pose rj i le rang du j-ème algorithmes parmi les k sur le i-ème jeu de données parmi les N. Le test de Friedman compare les rangs moyens, R j = 1 N Sous l hypothèse nulle H 0 qui dit que tous les R j devraient etre égaux. On pose χ 2 F = 12N k(k + 1) j R 2 j k(k + 1)2 4 i r j i. 60/1 F F = (N 1)χ2 F N(k 1) χ 2 F est distribué selon une loi de Fisher-Snedecor, notée F, avec k 1 et (k 1)(N 1) degrés de liberté.
161 161/1 Comparaison des classifieurs Illustration Algo1 Algo2 Algo3 Algo4 adult breast cancer breast cancer wisconsin cmc ionosphere iris liver disorders lung cancer lymphography mushrooms primary tumor rheum voting wine average rank
162 62/1 Comparaison des classifieurs Illustration χ 2 F = [ ] 52 = F F = = 3.69 Avec 4 classfieurs et N = 14, F F est distribué selon une loi F à 4 1 = 3 et (4 1) (14 1) = 39 degrés de liberté. Au seuil α = 0.05, F (3; 39) = 2.85 donc la différence est significative, on rejette H 0
163 Réseaux Bayésiens 163/1 Plan 1 Introduction à l apprentissage numérique 2 Evaluation d un classifieur 3 Principe de la classification supervisée 4 Classification multi-classe 5 Classification multi-label 6 Méthodes de classification Classifieur bayésien naïf Arbres de décision Apprentissage par mesure de similarité SVM 7 Approches ensemblistes Méthodes ensemblistes Forêt aléatoire Boosting 8 Comparaison des classifieurs 9 Réseaux Bayésiens
164 164/1 Réseaux Bayésiens Modèles génératifs On a vu jusqu à présent des modèles pour P(y x). Il faut connaître x pour prévoir y. Ce sont des modèles dits discriminatifs. Il existe des modèles plus riches, dits génératifs, qui estiment P(y, x) directement. Ils permettent d échantillonner de nouvelles données. Pour classer un nouvel individu, P(y x) = P(y, x)/p(x). Les réseaux bayésiens sont des modèles génératifs.
165 Réseaux Bayésiens Définition d un réseau bayésien Définition Un réseau bayésien est défini par la description qualitative des dépendances (ou des indépendances conditionnelles) entre des variables S i graphe orienté sans circuit (DAG) la description quantitative de ces dépendances probabilités conditionnelles (CPD) Conséquence 165/1 P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)
166 166/1 Réseaux Bayésiens Conséquence Rappel du théorème de Bayes généralisé P(S) = P(S 1 ) P(S 2 S 1 ) P(S 3 S 1, S 2 ) P(S n S 1... S n 1 ) Conséquence dans un RB P(S i S 1... S i 1 ) = P(S i parents(s i )) d où P(S) = Π n i=1 P(S i parents(s i )) La loi jointe (globale) se décompose en un produit de lois conditionnelles locales RB = représentation compacte de la loi jointe P(S)
167 167/1 Réseaux Bayésiens Exemple
168 168/1 Réseaux Bayésiens Exemple illustratif On cherche la structure du RB < G, P > où G =< U, E > associé à U = {F, V, C}. Les variables désignent : Forme, Valeur et Couleur. La seule propriété d indépendence conditionnelle observée est V F C (V F ). On en déduit P(V, C, F ) = P(C)P(V C)P(F C) = P(V )P(C V )P(F C) = P(F )P(C F )P(V C) D où les trois représentations graphiques équivalentes :
169 169/1 Réseaux Bayésiens Intérêts et motivation Intérêts des réseaux bayésiens outil de représentation graphique des connaissances représentation de l incertain raisonnement à partir de données incomplètes : inférence Motivation comment déterminer la structure, avec des données complètes ou incomplètes?
170 Réseaux Bayésiens Intérêts et motivation Autre intérêt outil de découverte de connaissances à partir de données Motivation 170/1 comment découvrir des connaissances : relations causales, variables latentes?
171 171/1 Réseaux Bayésiens Intérêts et motivation Des domaines d application variés diagnostic, fiabilité, maintenance, sécurité informatique psychologie, sciences de la cognition, maîtrise des risques Motivation fournir des outils pour la modélisation de systèmes complexes
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailCapacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailFonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailBaccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Plus en détailVision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
Plus en détailNombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailEconomie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de
Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos olivier.bos@u-paris2.fr
Plus en détailBaccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé
Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détail5. Apprentissage pour le filtrage collaboratif
686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,
Plus en détailIntroduction à l étude des Corps Finis
Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur
Plus en détailCalculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
Plus en détailModélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Plus en détailLes algorithmes de base du graphisme
Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailApprentissage par renforcement (1a/3)
Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailIncertitude et variabilité : la nécessité de les intégrer dans les modèles
Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailIntégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailMaster d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien
Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation
Plus en détailPrincipes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche
3 Principes d AdWords Les deux premiers chapitres de ce livre, plutôt généraux, ont présenté l univers d Internet et de la publicité en ligne. Vous devriez maintenant être convaincu de l intérêt d une
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailFeuille d exercices 2 : Espaces probabilisés
Feuille d exercices 2 : Espaces probabilisés Cours de Licence 2 Année 07/08 1 Espaces de probabilité Exercice 1.1 (Une inégalité). Montrer que P (A B) min(p (A), P (B)) Exercice 1.2 (Alphabet). On a un
Plus en détailCompression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette
Compression et Transmission des Signaux Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette 1 De Shannon à Mac Donalds Mac Donalds 1955 Claude Elwood Shannon 1916 2001 Monsieur X 1951 2 Où
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailComplément d information concernant la fiche de concordance
Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailEconomie de l Incertain et des Incitations
Economie de l Incertain et des Incitations CHAPITRE 2 Eléments de théorie des jeux en information symétrique et asymétrique Equilibres Bayesiens - Université de Tours - M1 AGE - Arnold Chassagnon - Automne
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailCHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal
III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand
Plus en détailChapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Plus en détail