Erreur de prédiction

Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

Introduction au Data-Mining

ITIL Gestion de la capacité

Introduction au Data-Mining

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Arbres binaires de décision

Soutenance de stage Laboratoire des Signaux et Systèmes

Probabilités III Introduction à l évaluation d options

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Intérêt du découpage en sous-bandes pour l analyse spectrale

TSTI 2D CH X : Exemples de lois à densité 1

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Chp. 4. Minimisation d une fonction d une variable

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

INF6304 Interfaces Intelligentes

4.2 Unités d enseignement du M1

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Etude des propriétés empiriques du lasso par simulations

Méthodes de Simulation

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

IBM SPSS Regression 21

TABLE DES MATIERES. C Exercices complémentaires 42

Évaluation de la régression bornée

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Introduction à l approche bootstrap

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Modélisation aléatoire en fiabilité des logiciels

Coup de Projecteur sur les Réseaux de Neurones

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Annexe commune aux séries ES, L et S : boîtes et quantiles

PROBABILITES ET STATISTIQUE I&II

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

données en connaissance et en actions?

Quantification Scalaire et Prédictive

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Programmes des classes préparatoires aux Grandes Ecoles

Programmation linéaire

Résolution de systèmes linéaires par des méthodes directes

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Méthodes d apprentissage statistique «Machine Learning»

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Probabilités sur un univers fini

L ANALYSE COUT-EFFICACITE

Analyse des risques financiers

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Correction de l examen de la première session

Résumé des communications des Intervenants

IBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics

Conventions d écriture et outils de mise au point

Introduction au datamining

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

FINANCEMENT OPTIMAL DE LA SOLVABILITE D UN ASSUREUR

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La classification automatique de données quantitatives

Scénario: Score d appétence de la carte visa premier

Introduction des. comptes d épargne libre d impôt

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Image d un intervalle par une fonction continue

8 Certifications Minergie

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Projet de Traitement du Signal Segmentation d images SAR

«Cours Statistique et logiciel R»

Equation LIDAR : exp 2 Equation RADAR :

Data mining II. Modélisation Statistique & Apprentissage

FIMA, 7 juillet 2005

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

Repères Gérer la capacité

Température corporelle d un castor (une petite introduction aux séries temporelles)

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Simulation de variables aléatoires

ANNEXE VII EFFETS MACROECONOMIQUES DE LA REFORME PIECE JOINTE N 2 SIMULATIONS REALISEES A PARTIR DU MODELE MACROECONOMETRIQUE MESANGE

Chapitre 2 Le problème de l unicité des solutions

FORMATION ECLAIRAGE PUBLIC

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Modèles et Méthodes de Réservation

Probabilités Loi binomiale Exercices corrigés

Les clients puissance cube

Transcription:

Erreur de prédiction Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 1 / 27

PLAN Introduction Erreur de prédiction Définition Décomposition Estimation Estimation par pénalisation C p, AIC, BIC. Estimation par simulation Validation croisée Bootstrap Estimateur naïf Estimateur out-of-bag Estimateur.632-bootstrap Remarques H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 2 / 27

Introduction La performance du modèle issu d une méthode d apprentissage s évalue par sa capacité de prédiction. La mesure de cette performance est très importante. Elle permet d opérer une sélection de modèle dans une famille associée à la méthode d apprentissage. Elle guide le choix de modèle en comparant chacun des modèles optimisés à l étape précédente. Elle fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 3 / 27

Introduction Trois stratégies sont proposées 1 Un partage de l échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l erreur de prédiction. 2 Une pénalisation de l erreur d ajustement par la complexité du modèle. 3 Un usage intensif du calcul (computational statistics) par la mise en oeuvre de simulations.. Le choix dépend de plusieurs facteurs dont la taille de l échantillon initial, la complexité du modèle envisagé, la variance de l erreur, la complexité des algorithmes, c-à-d le volume de calcul admissible. L estimation de l erreur de prédiction est donc un élément central de la mise en place de la stratégie de data-mining. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 4 / 27

Définition Soient Y la variable à prédire, X la variable p-dimensionnelle ou l ensemble des variables explicatives, F la loi conjointe de Y et de X, z = {(x 1, y 1 ),..., (x n, y n )} et Y = φ(x) + ɛ le modèle à estimer avec E(ɛ) = 0, Var(ɛ) = σ 2 et ɛ indépendant de X ; X, comme chacun des x i est de dimension p. L erreur de prédiction est définie par E P (z, F) = E F {Q où Q est une fonction de perte. [ Y, φ(x) ]} Interprétation : Erreur mesurée par Q si les observations (X, Y ) étaient générées par la loi jointe F alors que le modèle appris sur D est ˆφ. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 5 / 27

Définition Si Y est quantitative : Q(y, ŷ) = (y ŷ) 2 : fonction de perte quadratique moyenne observée. Q(y, ŷ) = y ŷ, plus robuste car moins sensible aux valeurs extrêmes. Mais cette fonction de perte nécessite des algorithmes d optimisation plus complexes et pas nécessairement à solution unique. Si Y est qualitative, alors Q est une indicatrice de mals classés Q(y, ŷ) = 1I {y ŷ} : erreur de classification. Dans le cas quantitatif, l estimation du modèle par minimisation de E P revient à une approximation de la fonction φ et la solution est l espérance conditionnelle (connaissant l échantillon). Dans le cas qualitatif, c est la classe la plus probable désignée par le mode conditionnel qui est prédite. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 6 / 27

Décomposition L erreur de prédiction se décompose dans le cas quantitatif de la façon suivante. Soit x 0 un point de R p. [ { E P (x 0 ) = E F Y φ(x } ] 2 0 ) X = x0 [ } 2 }] 2 = σ 2 + E F { φ(x0 ) φ(x)] + EF [ φ(x0 ) E F { φ(x0 ) = σ 2 + Biais 2 + Variance. En général, plus un modèle (la famille des fonctions φ admissibles) est complexe, plus il est flexible et peut s ajuster aux données observées et donc plus le biais est réduit. Par contre, la partie variance augmente avec le nombre de paramètres à estimer et donc avec cette complexité. Objectif : rechercher un meilleur compromis entre biais et variance afin de minimiser le risque quadratique. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 7 / 27

Estimation Le premier type d estimation à considérer exprime la qualité d ajustement du modèle sur l échantillon observé. Ê P = 1 n n i=1 [ Q y i, φ(x ] i ). Estimation biaisée, car trop optimiste, de l erreur de prédiction : elle est liée aux données qui ont servi à l ajustement du modèle et est d autant plus fiable que le modèle est complexe. Estimation qui ne dépend que de la partie "biais" de l erreur de prédiction et ne prend pas en compte la partie "variance" de la décomposition. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 8 / 27

Estimation Idée : Calculer ÊP sur un échantillon indépendant n ayant pas participé à l estimation du modèle. Ainsi on divise l échantillon en 3 parties respectivement appelées apprentissage, validation et test : D = D Appr D Valid D Test. 1 Ê P (D Appr ) est minimisée pour estimer un modèle ˆφ. 2 Ê P (D Valid ) sert à la comparaison des modèles au sein d une même famille afin de sélectionner celui qui minimise cette erreur, 3 Ê P (D Test ) est utilisée pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 9 / 27

Estimation Cette solution n est acceptable que si la taille de l échantillon initial est importante, sinon la qualité de l ajustement est dégradée car n est petit, la variance de l estimation de l erreur peut être importante et ne peut être estimée. Si la taille de l échantillon est insuffisante, la sélection de modèle est basée sur une estimation de l erreur de prédiction faisant appel soit à une pénalisation soit à des simulations. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 10 / 27

Estimation avec pénalisation L erreur de prédiction se décompose en E P = ÊP(D Appr ) + Pénalité qui est l estimation par resubstitution ou taux d erreur apparent plus une pénalité qui corrige le biais par abus d optimisme. Il s agit d estimer cet optimisime pour apporter une correction et ainsi une meilleure estimation de l erreur recherchée. Cette correction est liée à l estimation de la variance dans la décomposition en biais et variance de l erreur ou c est encore une pénalisation associée à la complexité du modèle. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 11 / 27

Estimation avec pénalisation Le C P de Mallows fut le premier critère visant à une meilleure estimation de l erreur de prédiction que la seule considération de l erreur d ajustement (ou le R 2 ) dans le modèle linéaire. C P = ÊP + 2 d n s2 où d est le nombre de paramètres du modèle, n le nombre d observations et s 2 une estimation de la variance de l erreur par un modèle de faible biais. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 12 / 27

Estimation avec pénalisation Le critère d Akaike (AIC) se présente sous une forme similaire mais plus générale. Basé sur un critère de déviance, il s applique en effet à tout modèle estimé par minimisation d une log-vraisemblance log(l). AIC = 2 log(l) + 2 d n. Il suppose que la famille de densités considérées pour modéliser la loi de Y contient la "vraie" densité. Dans le cas gaussien à variance connue, moindres carrés et déviance coïncident, AIC est équivalent à C P. Il est facile de choisir le modèle présentant le plus faible AIC parmi ceux considérés, ce qui revient à minimiser un critère de vraisemblance pénalisée. Celui-ci n est vérifié qu asymptotiquement d où la motivation de proposer des critères modifiés plus adaptés à de petits échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 13 / 27

Estimation avec pénalisation Une argumentation de type bayésienne conduit à un autre critère BIC (Bayesian information criterion) qui cherche, approximativement, le modèle associé à la plus grande probabilité a posteriori dans le cadre de la maximisation d une log-vraisemblance. BIC = 2 log(l) + log(n) d n. On montre dans le cas gaussien et en supposant la variance connue que BIC est proportionnel à AIC avec le facteur 2 remplacé par log(n). Si n > e 2 7.4, BIC tend à pénaliser plus lourdement les modèles complexes. Asymptotiquement, on montre que la probabilité pour BIC de choisir le bon modèle tend vers 1 lorsque n tend vers l infini. Ce n est pas le cas d AIC qui tend alors à choisir des modèles trop complexes. Néanmoins à taille fini, BIC risque de se limiter à des modèles trop simples. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 14 / 27

Validation croisée Idée : Itérer l estimation de l erreur sur plusieurs échantillons de validation puis en calculer la moyenne. C est indispensable pour réduire la variance et améliorer la précision lorsque la taille de l échantillon initial est trop réduite pour en extraire un échantillon de validation ou test de taille suffisante. Découper aléatoirement l échantillon D en K parts de tailles approximativement égales selon une loi uniforme. Répéter K fois l opération qui consiste à mettre de côté l une des parties, estimer le modèle sur les K 1 parties restantes, calculer l erreur sur chacune des observations n ayant pas participé à l estimation. Moyenner toutes ces erreurs pour aboutir à l estimation par validation croisée. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 15 / 27

Validation croisée Soit τ : {1,..., n} {1,..., K } la fonction d indexation qui, pour chaque observation, donne l attribution uniformément aléatoire de sa classe. Ê CV = 1 n Q(y i, n φ ( τ(i)) (x i )), i=1 où φ ( k) désigne l estimation de φ sans prendre en compte la k ième partie de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 16 / 27

Validation croisée Le choix K = 10 est le plus courant, cas par défaut dans R. Le choix K = n (delete-one cross validation) n est possible que pour n petit à cause du volume des calculs et l estimation présente une variance souvent importante (chaque modèle estimé trop similaire au modèle estimé avec toutes les obsevations). En revanche si K est petit (K = 5), la variance sera plus faible mais le biais devient un problème dépendant de la façon dont la qualité de l estimation se dégrade avec la taille de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 17 / 27

Validation croisée Minimiser l erreur estimée par validation croisée est une approche largement utilisée pour optimiser le choix d un modèle au sein d une famille paramétrée. φ est défini par θ = argminê CV (θ). θ H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 18 / 27

Bootstrap Idée : Approcher par simulation (Monte-Carlo) la distribution d un estimateur lorsque l on ne connaît par la loi de l échantillon ou, plus souvent, lorsque l on ne peut pas supposer qu elle est gaussienne. Principe : Substituer, à la distribution de probabilité inconnue F dont est issu l échantillon d apprentissage, la distribution empirique F n qui donne un poids 1/n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon la distribution empirique F n par n tirages aléatoires avec remise parmi les n observations initiales. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 19 / 27

Bootstrap Il est facile de construire un grand nombre d échantillons bootstrap (B = 100) sur lesquels calculer l estimateur concerné. La loi simulée de cet estimateur est une approximation asymptotiquement convergente sous des hypothèses raisonnables de la loi de l estimateur. Cette approximation fournit ainsi des estimations du biais, de la variance, donc d un risque quadratique et même des intervalles de confiance (avec B plus grand) de l estimateur sans hypothèse de normalité sur la vraie loi. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 20 / 27

Bootstrap ESTIMATEUR NAÏF Soit D un échantillon bootstrap des données D = { (x 1, y 1 ),..., (x n, y n ) }. L estimateur plug-in de l erreur de prédiction E P (D, F) est défini par E P (D, F n ) = 1 n n Q {y i, φ D (x i )}, i=1 où φ D désigne l estimation de φ à partir de l échantillon bootstrap. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 21 / 27

Bootstrap L estimateur plug-in conduit à l estimation bootstrap de l erreur moyenne de prédiction E F [E P (D, F)] par [ ] E Boot = E Fn [E P (D 1 n, F n )] = E Fn Q {y i, φ D (x i )}. n i=1 Cette estimation est approchée par simulation Ê Boot = 1 B B b=1 1 n n Q {y i, φ D b(x i )}. i=1 Cette estimation de l erreur de prédiction est généralement biaisée par optimisme. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 22 / 27

Bootstrap ESTIMATEUR OUT-OF-BAG Cette méthode s inspire de la validation croisée. Elle considère d une part, les observations tirées dans l échantillon bootstrap et d autre part, celles qui sont laissées de côté pour l estimation du modèle mais retenue pour l estimation de l erreur. Ê oob = 1 n n i=1 1 Q {y i, φ B D b(x i )}, i b K i où K i est l ensemble des indices b des échantillons bootstrap ne contenant pas la i ème observation à l issue des B simulations et B i = K i le nombre de ces échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 23 / 27

Bootstrap B doit être suffisamment grand pour que toute observation n ait pas été tirée au moins une fois ou bien les termes avec K i = 0 sont supprimés. L estimation Ê oob résout le problème d un biais optimiste auquel est confrontée Ê boot mais n échappe pas au biais introduit par la réduction tel qu il est signalé pour l estimation par validation croisée E CV. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 24 / 27

Bootstrap ESTIMATEUR.632-BOOTSTRAP La probabilité qu une observation soit tirée dans un échantillon bootstrap est [ P x i x b] ( = 1 1 1 ) n 1 1 0, 632. n e Très approximativement, la dégradation de l estimation provoquée par le bootstrap et donc la surévaluation de l erreur sont analogues à celle de la validation croisée avec K = 2. Ainsi on compense l excès d optimisme du taux apparent d erreur et l excès de pessimisme du bootstrap out-of-bag par une combinaison Ê.632 = 0.368ÊP + 0.632Êoob. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 25 / 27

Remarques Toutes les estimations de l erreur de prédiction considérées (pénalisation, validation croisée, bootstrap) sont asymptotiquement équivalentes. Il n est pas possible de savoir à n fini, laquelle sera la plus précise. Conceptuellement, le bootstrap est plus compliqué et pratiquement encore peu utilisé. Néanmoins cet outil joue un rôle central dans les algorithmes de combinaisons de modèles en association avec une estimation out-of-bag de l erreur. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 26 / 27

Conclusion L estimation d une erreur de prédiction est une opération délicate aux conséquences importantes. Il est donc nécessaire d utiliser le même estimateur pour comparer l efficacité des méthodes, de se montrer très prudent, en dehors de tout système d hypothèses probabilistes, sur le caractère absolu d une estimation dans l objectif d une certification. Dans cette situation, le recours à un échantillon test de bonne taille est difficilement contournable, alors qu en situation de choix de modèle au sein d une même famille, un estimateur (petit échantillon de validation, validation croisée) plus écomnomique est adapté en supposant implicitement que le biais induit est identique d un modèle à l autre. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 27 / 27