MAP 553 Apprentissage statistique

Documents pareils

1 Complément sur la projection du nuage des individus

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Dérivés Financiers Contrats à terme

La classification automatique de données quantitatives

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

INF6304 Interfaces Intelligentes

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Principe de symétrisation pour la construction d un test adaptatif

Théorie des sondages : cours 5

PROBABILITES ET STATISTIQUE I&II

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Extraction d informations stratégiques par Analyse en Composantes Principales

Apprentissage non paramétrique en régression

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercice : la frontière des portefeuilles optimaux sans actif certain

Quantification Scalaire et Prédictive

Apprentissage par renforcement (1a/3)

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Cours d Analyse. Fonctions de plusieurs variables

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Simulation de variables aléatoires

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

3. Caractéristiques et fonctions d une v.a.

Etude des propriétés empiriques du lasso par simulations

Complément d information concernant la fiche de concordance

Chapitre 3 : INFERENCE

Loi binomiale Lois normales

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

IBM SPSS Direct Marketing 21

Méthodes de Simulation

Température corporelle d un castor (une petite introduction aux séries temporelles)

3. Conditionnement P (B)

Probabilités III Introduction à l évaluation d options

données en connaissance et en actions?

TESTS D'HYPOTHESES Etude d'un exemple

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Introduction à la Statistique Inférentielle

MCMC et approximations en champ moyen pour les modèles de Markov

Optimisation, traitement d image et éclipse de Soleil

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Économetrie non paramétrique I. Estimation d une densité

3 Approximation de solutions d équations

Introduction à l analyse numérique : exemple du cloud computing

Programmes des classes préparatoires aux Grandes Ecoles

Introduction au Data-Mining

Introduction à la statistique non paramétrique

Estimation et tests statistiques, TD 5. Solutions

Évaluation de la régression bornée

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Relation entre deux variables : estimation de la corrélation linéaire

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

ANALYSE NUMERIQUE ET OPTIMISATION. Une introduction à la modélisation mathématique et à la simulation numérique

Table des matières. I Mise à niveau 11. Préface

CAPTEURS - CHAINES DE MESURES

Lois de probabilité. Anita Burgun

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Mesure agnostique de la qualité des images.

La fonction exponentielle

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Intégration et probabilités TD1 Espaces mesurés Corrigé

VI. Tests non paramétriques sur un échantillon

Un code-barre sur la tête?

Logiciel XLSTAT version rue Damrémont PARIS

I. Ensemble de définition d'une fonction

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

TSTI 2D CH X : Exemples de lois à densité 1

Métriques de performance pour les algorithmes et programmes parallèles

Interception des signaux issus de communications MIMO

Les devoirs en Première STMG

Méthodologie du calcul de la VaR de marché : revue de l approche basée sur des simulations historiques

Statistiques Descriptives à une dimension

Probabilités sur un univers fini

Théorie Financière 2. Valeur actuelle Evaluation d obligations

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

INTRODUCTION AU DATA MINING

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Big Data et Graphes : Quelques pistes de recherche

Calcul intégral élémentaire en plusieurs variables

1S Modèles de rédaction Enoncés

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

Le suivi de la qualité. Méthode MSP : généralités

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

I La théorie de l arbitrage fiscal de la dette (8 points)

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Transcription:

MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39

Apprentissage? 2/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc http://c-command.com/ spamsieve/ 3/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc 3/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc 3/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc 3/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc 3/39

Apprentissage? L apprentissage au quotidien 1 filtres SPAM 2 Reconnaissance de chiffre: lecture automatique de codes postaux 3 Diagnostique médical: de cancers, alzheimer, diabète, etc 4 In silico chemometrics: recherche virtuelle de médicaments 5 Business analytics, Google ranking, web-data, etc 3/39

Apprentissage? Les deux aspects de l apprentissage: aspect statistique aspect algorithmique 4/39

Le fléau de la dimension 5/39

Renversement de point de vue Cadre statistique classique: petit nombre p de paramètres grand nombre n d expériences on étudie le comportement asymptotique des estimateurs lorsque n (résultats type théorème central limite) 6/39

Renversement de point de vue Cadre statistique classique: petit nombre p de paramètres grand nombre n d expériences on étudie le comportement asymptotique des estimateurs lorsque n (résultats type théorème central limite) Données actuelles: inflation du nombre p de paramètres taille d échantillon reste réduite: n p ou n p = penser différemment les statistiques! (penser n ne convient plus) 6/39

Le fléau de la dimension: exemple 1 On observe X 1,..., X n [0, 1] p i.i.d. selon une densité f : [0, 1] p R inconnue. On cherche à estimer f. Une idée naturelle est de faire un histogramme avec disons des cases de 0.1 de côté. 7/39

Le fléau de la dimension: exemple 1 En dimension p = 1: Histogram of x Density 0.0 0.5 1.0 1.5 2.0 0.0 0.2 0.4 0.6 0.8 1.0 Histogramme d un échantillon de n = 100 tirages d une loi beta. x 8/39

Le fléau de la dimension: exemple 1 On observe X 1,..., X n [0, 1] p i.i.d. selon une densité f : [0, 1] p R inconnue. On cherche à estimer f. Une idée naturelle est de faire un histogramme avec disons des cases de 0.1 de côté. Questions : 1 Pour avoir en moyenne 10 observations par cases, quelle taille doit avoir n (en fonction de p)? 2 Conclusion? Comment faire avec des échantillons plus petits? 9/39

Le fléau de la dimension: exemple 2 Echec des méthodes locales en régression. On observe Y 1,..., Y n R et X 1,..., X n R p avec Y i = f (X i ) + ε i, i = 1,..., n, où f est inconnue et les E[ε i ] = 0. ˆf (x) = Moyenne{Y i : X i B(x, r)} avec un r petit. on supposera les X i i.i.d. U(B(0, 1)) 1 Pour r < 1 montrer P( X i B(0, r)) = 1 (1 r p ) n. 2 Pour quelle valeur de r est-ce supérieur à 1/2? 3 Pour estimer f (0) avec au moins un point, quel est l ordre de grandeur du diamètre r minimal? Conclusion? 10/39

Le fléau de la dimension: exemple 2 r 0.2 0.4 0.6 0.8 1.0 5 10 50 100 500 5000 log(p) valeurs de r pour lesquelles (1 r p ) n = 1/2, cas n = 100. 11/39

Le fléau de la dimension: exemple 3 Puces ADN: Modèle: log-intensité du spot (après normalisation) X i = θ i + ɛ i avec i.i.d. ε i N (0, 1) Déviation gaussienne à 5%: on a P [ (N (0, 1)) 2 > 3.84 ] 5% 12/39

Le fléau de la dimension: exemple 3 Puces ADN: Modèle: log-intensité du spot (après normalisation) X i = θ i + ɛ i avec i.i.d. ε i N (0, 1) Déviation gaussienne à 5%: on a P [ (N (0, 1)) 2 > 3.84 ] 5% Les valeurs X 2 i supérieures à 3.84 sont-elles significatives? 12/39

Le fléau de la dimension: exemple 3 0 5 10 15 x 0 200 400 600 800 1000 Avec p = 1000 et θ i = 0 i (donc X 2 i = ε 2 i ). Niveaux représentés: 3.84 et 2 log p. z 13/39

Le fléau de la dimension: exemple 3 Combien de faux positifs? Supposons que p = 5000 et 4% des gènes sont positifs. Quel est le nombre moyen de faux positifs si on conserve tous les X 2 i > 3.84? Pourquoi un seuil à 2 log(p)? ( ) P max i=1,...,p ε2 i > t p t p α log p { 0 si α 2 1 si α < 2 Quel est le problème si p grand? 14/39

Le fléau de la dimension: pour aller plus loin Introduction to High-Dimensional Statistics. To appear. http://www.cmap.polytechnique.fr/~giraud/msv/ LectureNotes.pdf Jiashun Jin. Impossibility of successful classification when useful features are rare and weak. Proceedings of the National Academy of Sciences of the USA. 106 (22); 2009. pp.8859-64. http://www.pnas.org/content/106/22/8859.full 15/39

Réduction de dimension : ACP 16/39

Réduire la dimension Objectif: trouver un espace V de petite dimension tel que (simultanément) les observations X i R p soient proches de leur projection sur cet espace X[,3] -1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0 X[,2] X[,1] Ex: dimension p = 3 : meilleur plan approximant. 17/39

Un exemple visuel : MNIST Base MNIST : 1100 chiffres scannés Figure : chaque image 16 16 correspond à un vecteur dans R 256 18/39

Un exemple visuel : MNIST image originale image originale image originale image originale image projetée image projetée image projetée image projetée Figure : Projection des images sur un espace affine de dimension 10 donné par l ACP 19/39

Un exemple visuel : MNIST image 1 image MNIST moyenne image 1 recentrée image 1 projetée sur 10 axes Figure : Réduction de dimension d un facteur 25 par ACP 20/39

Réduire la dimension: exemple 2 Epreuve d heptathlon, jeux olympiques de Seoul, 1988. hurdles highjump shot run200m longjump javelin run800m Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51 John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12 Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20 Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24 Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90 Schulz (GDR) 13.75 1.83 13.50 24.65 6.33 42.82 125.79 Fleming (AUS) 13.38 1.80 12.88 23.59 6.37 40.28 132.54 Greiner (USA) 13.55 1.80 14.13 24.48 6.47 38.00 133.65 Lajbnerova (CZE) 13.63 1.83 14.28 24.86 6.11 42.20 136.05 Bouraga (URS) 13.25 1.77 12.62 23.59 6.28 39.06 134.74 Wijnsma (HOL) 13.75 1.86 13.01 25.03 6.34 37.86 131.49 Dimitrova (BUL) 13.24 1.80 12.88 23.59 6.37 40.28 132.54 Scheider (SWI) 13.85 1.86 11.58 24.87 6.05 47.50 134.93 Braun (FRG) 13.71 1.83 13.16 24.78 6.12 44.58 142.82 Ruotsalainen (FIN) 13.79 1.80 12.32 24.61 6.08 45.44 137.06 Yuping (CHN) 13.93 1.86 14.21 25.00 6.40 38.60 146.67 Hagger (GB) 13.47 1.80 12.75 25.47 6.34 35.76 138.48 Brown (USA) 14.07 1.83 12.69 24.83 6.13 44.34 146.43 Mulliner (GB) 14.39 1.71 12.68 24.92 6.10 37.76 138.02 Hautenauve (BEL) 14.04 1.77 11.81 25.61 5.99 35.68 133.90 Kytola (FIN) 14.31 1.77 11.66 25.69 5.75 39.48 133.35 Geremias (BRA) 14.23 1.71 12.95 25.50 5.50 39.64 144.02 Hui-Ing (TAI) 14.85 1.68 10.00 25.23 5.47 39.14 137.30 Jeong-Mi (KOR) 14.53 1.71 10.83 26.61 5.50 39.26 139.17 Launa (PNG) 16.42 1.50 11.78 26.16 4.88 46.38 163.43 21/39

ACP en action Résultat d une ACP sur les données d heptathlon. -0.5 0.0 0.5 1.0 PC2-4 -2 0 2 4 6 1 17 20 highjump 11 run200m 8 21 10 16 19 23 24 longjump 12 7 6 22 9 2 3 4 14 13 1518 hurdles run800m shot 5 javelin 25-0.5 0.0 0.5 1.0-4 -2 0 2 4 6 PC1 22/39

ACP : notations Epreuve d heptathlon, jeux olympiques de Seoul, 1988. [ tableau n p : X = X (v) i ] i = 1... n v = 1... p = [ X (1),..., X (p)] = X T 1. X T n p = 7 variables: 1 hurdles: results 100m hurdles. 2 highjump: results high jump. 3 shot: results shot. 4 run200m: results 200m race. 5 longjump: results long jump. 6 javelin: results javelin. 7 run800m: results 800m race. n = 25 athlètes. 23/39

Réduire la dimension But: représenter les obervations X i R p dans un espace de plus petite dimension avec le moins de perte d information possible. Ex: avec p = 2 variables: axes de projections (1er en rouge, 2nd en vert). 24/39

Réduire la dimension But: représenter les obervations X i R p dans un espace de plus petite dimension avec le moins de perte d information possible. X[,3] -1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0-1.0-0.5 0.0 0.5 1.0 X[,2] X[,1] Ex: avec p = 3 variables: meilleur plan approximant. 25/39

Etape préliminaire Normalisation: étape préliminaire de normalisation des données: centrer: X (v) X (v) X (v) réduire: X (v) X (v) / var ( X (v)) (sauf si comparables) Dorénavant on supposera les données centrées. 26/39

ACP Objectif : Obtenir un espace vectoriel V de petite dimension tel que Proj V (X i ) X i pour i = 1,..., n. Questions : on notera Σ = 1 n XT X 1 Montrer que V d := argmin dim(v )=d = argmax dim(v )=d n X i Proj V (X i ) 2 i=1 n Proj V (X i ) 2 i=1 2 Par quels vecteurs V d est-il engendré? (commencer par d = 1) 3 Que vaut n i=1 Proj V d (X i ) 2? 27/39

ACP : définitions Axes principaux: a (1)... a (d) R p vecteurs propres orthonormés de Σ = 1 n XT X, ordonnés selon les valeurs propres décroissantes Composantes principales: c k = Xa (k) R n pour k = 1,..., d Remarques: c 1... c d R n : car c j, c k = n(a (j) ) T Σ a (k) = nλ k δ jk a (k) = 1 et c k 2 = nλ k c 1,..., c d R n vecteurs propres de XX T 28/39

ACP : projections Projection des individus: X i, a (k) = (c k ) i donc d Proj Vd (X i ) = (c k ) i a (k) k=1 Projection des variables: X (v), c k / c k 2 = (a (k) ) v donc d Proj <c1,...,c d >(X (v) ) = (a (k) ) v c k k=1 29/39

ACP: biplot -0.5 0.0 0.5 1.0 PC2-4 -2 0 2 4 6 1 17 20 highjump 11 run200m 8 21 10 16 19 23 24 longjump 12 7 6 22 9 2 3 4 14 13 1518 hurdles run800m shot 5 javelin 25-0.5 0.0 0.5 1.0-4 -2 0 2 4 6 PC1 30/39

ACP : variance expliquée valeurs propres pour les données d heptathlon. acp Variances 0 1 2 3 4 31/39

Cercle des corrélations Cercle des corrélations: pour chaque variable v on définit le vecteur ρ (v) R d par On a ρ (v) k = cor(x (v), c k ) = X (v), c k X (v), k = 1,..., d. c k ρ (v) 2 = Proj <c 1,...,c d >(X (v) ) 2 X (v) 2 1. La norme de ρ (v) représente la qualité de la représentation de la variable v par les d premiers axes. 32/39

Cercle des corrélations : d = 2 PC 2-1.0-0.5 0.0 0.5 1.0 longjump highjump shot javelin run200m hurdles run800m -1.0-0.5 0.0 0.5 1.0 PC 1 Les variables sont bien expliquées par les deux premières composantes (proche du cercle) 33/39

ACP: exemple 3 Exemple: budget de l état français sur 24 années. Les variables: part du budget alloué à différents postes (en pourcentage du budget) PVP: Pouvoirs publics AGR: Agriculture CMI: Commerce et industrie TRA: Travail LOG: Logement EDU: Éducation ACS: Action sociale ANC: Ancien combattants DEF: Défense DET: Remboursement dette DIV: Divers donc p = 11 Observations: on a 24 observations pour chaque variable (n = 24) 34/39

ACP: exemple 3 valeurs propres valeurs propres 0 1 2 3 4 5 2 4 6 8 10 35/39

ACP: exemple 3 Projection sur les 2 premiers axes 36/39

ACP: exemple 3 Projection sur les 3 premiers axes 37/39

ACP: exemple 3 Cercle des corrélations Variables proches du cercle: bien expliquées par les deux premiers axes. 38/39

ACP : récapitulatif Axes principaux: a (1)... a (d) R p vecteurs propres orthonormés de Σ = 1 n XT X, Composantes principales: c 1... c d R n, avec c k = Xa (k) Projection des individus: Proj Vd (X i ) = d k=1 (c k) i a (k) Projection des variables: Proj <c1,...,c d >(X (v) ) = d k=1 (a(k) ) v c k Ratio de variance expliquée: par les d premières composantes λ 1 +... + λ d λ 1 +... + λ p. 39/39