Erreur de prédiction Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 1 / 27
PLAN Introduction Erreur de prédiction Définition Décomposition Estimation Estimation par pénalisation C p, AIC, BIC. Estimation par simulation Validation croisée Bootstrap Estimateur naïf Estimateur out-of-bag Estimateur.632-bootstrap Remarques H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 2 / 27
Introduction La performance du modèle issu d une méthode d apprentissage s évalue par sa capacité de prédiction. La mesure de cette performance est très importante. Elle permet d opérer une sélection de modèle dans une famille associée à la méthode d apprentissage. Elle guide le choix de modèle en comparant chacun des modèles optimisés à l étape précédente. Elle fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 3 / 27
Introduction Trois stratégies sont proposées 1 Un partage de l échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l erreur de prédiction. 2 Une pénalisation de l erreur d ajustement par la complexité du modèle. 3 Un usage intensif du calcul (computational statistics) par la mise en oeuvre de simulations.. Le choix dépend de plusieurs facteurs dont la taille de l échantillon initial, la complexité du modèle envisagé, la variance de l erreur, la complexité des algorithmes, c-à-d le volume de calcul admissible. L estimation de l erreur de prédiction est donc un élément central de la mise en place de la stratégie de data-mining. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 4 / 27
Définition Soient Y la variable à prédire, X la variable p-dimensionnelle ou l ensemble des variables explicatives, F la loi conjointe de Y et de X, z = {(x 1, y 1 ),..., (x n, y n )} et Y = φ(x) + ɛ le modèle à estimer avec E(ɛ) = 0, Var(ɛ) = σ 2 et ɛ indépendant de X ; X, comme chacun des x i est de dimension p. L erreur de prédiction est définie par E P (z, F) = E F {Q où Q est une fonction de perte. [ Y, φ(x) ]} Interprétation : Erreur mesurée par Q si les observations (X, Y ) étaient générées par la loi jointe F alors que le modèle appris sur D est ˆφ. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 5 / 27
Définition Si Y est quantitative : Q(y, ŷ) = (y ŷ) 2 : fonction de perte quadratique moyenne observée. Q(y, ŷ) = y ŷ, plus robuste car moins sensible aux valeurs extrêmes. Mais cette fonction de perte nécessite des algorithmes d optimisation plus complexes et pas nécessairement à solution unique. Si Y est qualitative, alors Q est une indicatrice de mals classés Q(y, ŷ) = 1I {y ŷ} : erreur de classification. Dans le cas quantitatif, l estimation du modèle par minimisation de E P revient à une approximation de la fonction φ et la solution est l espérance conditionnelle (connaissant l échantillon). Dans le cas qualitatif, c est la classe la plus probable désignée par le mode conditionnel qui est prédite. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 6 / 27
Décomposition L erreur de prédiction se décompose dans le cas quantitatif de la façon suivante. Soit x 0 un point de R p. [ { E P (x 0 ) = E F Y φ(x } ] 2 0 ) X = x0 [ } 2 }] 2 = σ 2 + E F { φ(x0 ) φ(x)] + EF [ φ(x0 ) E F { φ(x0 ) = σ 2 + Biais 2 + Variance. En général, plus un modèle (la famille des fonctions φ admissibles) est complexe, plus il est flexible et peut s ajuster aux données observées et donc plus le biais est réduit. Par contre, la partie variance augmente avec le nombre de paramètres à estimer et donc avec cette complexité. Objectif : rechercher un meilleur compromis entre biais et variance afin de minimiser le risque quadratique. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 7 / 27
Estimation Le premier type d estimation à considérer exprime la qualité d ajustement du modèle sur l échantillon observé. Ê P = 1 n n i=1 [ Q y i, φ(x ] i ). Estimation biaisée, car trop optimiste, de l erreur de prédiction : elle est liée aux données qui ont servi à l ajustement du modèle et est d autant plus fiable que le modèle est complexe. Estimation qui ne dépend que de la partie "biais" de l erreur de prédiction et ne prend pas en compte la partie "variance" de la décomposition. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 8 / 27
Estimation Idée : Calculer ÊP sur un échantillon indépendant n ayant pas participé à l estimation du modèle. Ainsi on divise l échantillon en 3 parties respectivement appelées apprentissage, validation et test : D = D Appr D Valid D Test. 1 Ê P (D Appr ) est minimisée pour estimer un modèle ˆφ. 2 Ê P (D Valid ) sert à la comparaison des modèles au sein d une même famille afin de sélectionner celui qui minimise cette erreur, 3 Ê P (D Test ) est utilisée pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 9 / 27
Estimation Cette solution n est acceptable que si la taille de l échantillon initial est importante, sinon la qualité de l ajustement est dégradée car n est petit, la variance de l estimation de l erreur peut être importante et ne peut être estimée. Si la taille de l échantillon est insuffisante, la sélection de modèle est basée sur une estimation de l erreur de prédiction faisant appel soit à une pénalisation soit à des simulations. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 10 / 27
Estimation avec pénalisation L erreur de prédiction se décompose en E P = ÊP(D Appr ) + Pénalité qui est l estimation par resubstitution ou taux d erreur apparent plus une pénalité qui corrige le biais par abus d optimisme. Il s agit d estimer cet optimisime pour apporter une correction et ainsi une meilleure estimation de l erreur recherchée. Cette correction est liée à l estimation de la variance dans la décomposition en biais et variance de l erreur ou c est encore une pénalisation associée à la complexité du modèle. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 11 / 27
Estimation avec pénalisation Le C P de Mallows fut le premier critère visant à une meilleure estimation de l erreur de prédiction que la seule considération de l erreur d ajustement (ou le R 2 ) dans le modèle linéaire. C P = ÊP + 2 d n s2 où d est le nombre de paramètres du modèle, n le nombre d observations et s 2 une estimation de la variance de l erreur par un modèle de faible biais. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 12 / 27
Estimation avec pénalisation Le critère d Akaike (AIC) se présente sous une forme similaire mais plus générale. Basé sur un critère de déviance, il s applique en effet à tout modèle estimé par minimisation d une log-vraisemblance log(l). AIC = 2 log(l) + 2 d n. Il suppose que la famille de densités considérées pour modéliser la loi de Y contient la "vraie" densité. Dans le cas gaussien à variance connue, moindres carrés et déviance coïncident, AIC est équivalent à C P. Il est facile de choisir le modèle présentant le plus faible AIC parmi ceux considérés, ce qui revient à minimiser un critère de vraisemblance pénalisée. Celui-ci n est vérifié qu asymptotiquement d où la motivation de proposer des critères modifiés plus adaptés à de petits échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 13 / 27
Estimation avec pénalisation Une argumentation de type bayésienne conduit à un autre critère BIC (Bayesian information criterion) qui cherche, approximativement, le modèle associé à la plus grande probabilité a posteriori dans le cadre de la maximisation d une log-vraisemblance. BIC = 2 log(l) + log(n) d n. On montre dans le cas gaussien et en supposant la variance connue que BIC est proportionnel à AIC avec le facteur 2 remplacé par log(n). Si n > e 2 7.4, BIC tend à pénaliser plus lourdement les modèles complexes. Asymptotiquement, on montre que la probabilité pour BIC de choisir le bon modèle tend vers 1 lorsque n tend vers l infini. Ce n est pas le cas d AIC qui tend alors à choisir des modèles trop complexes. Néanmoins à taille fini, BIC risque de se limiter à des modèles trop simples. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 14 / 27
Validation croisée Idée : Itérer l estimation de l erreur sur plusieurs échantillons de validation puis en calculer la moyenne. C est indispensable pour réduire la variance et améliorer la précision lorsque la taille de l échantillon initial est trop réduite pour en extraire un échantillon de validation ou test de taille suffisante. Découper aléatoirement l échantillon D en K parts de tailles approximativement égales selon une loi uniforme. Répéter K fois l opération qui consiste à mettre de côté l une des parties, estimer le modèle sur les K 1 parties restantes, calculer l erreur sur chacune des observations n ayant pas participé à l estimation. Moyenner toutes ces erreurs pour aboutir à l estimation par validation croisée. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 15 / 27
Validation croisée Soit τ : {1,..., n} {1,..., K } la fonction d indexation qui, pour chaque observation, donne l attribution uniformément aléatoire de sa classe. Ê CV = 1 n Q(y i, n φ ( τ(i)) (x i )), i=1 où φ ( k) désigne l estimation de φ sans prendre en compte la k ième partie de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 16 / 27
Validation croisée Le choix K = 10 est le plus courant, cas par défaut dans R. Le choix K = n (delete-one cross validation) n est possible que pour n petit à cause du volume des calculs et l estimation présente une variance souvent importante (chaque modèle estimé trop similaire au modèle estimé avec toutes les obsevations). En revanche si K est petit (K = 5), la variance sera plus faible mais le biais devient un problème dépendant de la façon dont la qualité de l estimation se dégrade avec la taille de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 17 / 27
Validation croisée Minimiser l erreur estimée par validation croisée est une approche largement utilisée pour optimiser le choix d un modèle au sein d une famille paramétrée. φ est défini par θ = argminê CV (θ). θ H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 18 / 27
Bootstrap Idée : Approcher par simulation (Monte-Carlo) la distribution d un estimateur lorsque l on ne connaît par la loi de l échantillon ou, plus souvent, lorsque l on ne peut pas supposer qu elle est gaussienne. Principe : Substituer, à la distribution de probabilité inconnue F dont est issu l échantillon d apprentissage, la distribution empirique F n qui donne un poids 1/n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon la distribution empirique F n par n tirages aléatoires avec remise parmi les n observations initiales. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 19 / 27
Bootstrap Il est facile de construire un grand nombre d échantillons bootstrap (B = 100) sur lesquels calculer l estimateur concerné. La loi simulée de cet estimateur est une approximation asymptotiquement convergente sous des hypothèses raisonnables de la loi de l estimateur. Cette approximation fournit ainsi des estimations du biais, de la variance, donc d un risque quadratique et même des intervalles de confiance (avec B plus grand) de l estimateur sans hypothèse de normalité sur la vraie loi. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 20 / 27
Bootstrap ESTIMATEUR NAÏF Soit D un échantillon bootstrap des données D = { (x 1, y 1 ),..., (x n, y n ) }. L estimateur plug-in de l erreur de prédiction E P (D, F) est défini par E P (D, F n ) = 1 n n Q {y i, φ D (x i )}, i=1 où φ D désigne l estimation de φ à partir de l échantillon bootstrap. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 21 / 27
Bootstrap L estimateur plug-in conduit à l estimation bootstrap de l erreur moyenne de prédiction E F [E P (D, F)] par [ ] E Boot = E Fn [E P (D 1 n, F n )] = E Fn Q {y i, φ D (x i )}. n i=1 Cette estimation est approchée par simulation Ê Boot = 1 B B b=1 1 n n Q {y i, φ D b(x i )}. i=1 Cette estimation de l erreur de prédiction est généralement biaisée par optimisme. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 22 / 27
Bootstrap ESTIMATEUR OUT-OF-BAG Cette méthode s inspire de la validation croisée. Elle considère d une part, les observations tirées dans l échantillon bootstrap et d autre part, celles qui sont laissées de côté pour l estimation du modèle mais retenue pour l estimation de l erreur. Ê oob = 1 n n i=1 1 Q {y i, φ B D b(x i )}, i b K i où K i est l ensemble des indices b des échantillons bootstrap ne contenant pas la i ème observation à l issue des B simulations et B i = K i le nombre de ces échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 23 / 27
Bootstrap B doit être suffisamment grand pour que toute observation n ait pas été tirée au moins une fois ou bien les termes avec K i = 0 sont supprimés. L estimation Ê oob résout le problème d un biais optimiste auquel est confrontée Ê boot mais n échappe pas au biais introduit par la réduction tel qu il est signalé pour l estimation par validation croisée E CV. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 24 / 27
Bootstrap ESTIMATEUR.632-BOOTSTRAP La probabilité qu une observation soit tirée dans un échantillon bootstrap est [ P x i x b] ( = 1 1 1 ) n 1 1 0, 632. n e Très approximativement, la dégradation de l estimation provoquée par le bootstrap et donc la surévaluation de l erreur sont analogues à celle de la validation croisée avec K = 2. Ainsi on compense l excès d optimisme du taux apparent d erreur et l excès de pessimisme du bootstrap out-of-bag par une combinaison Ê.632 = 0.368ÊP + 0.632Êoob. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 25 / 27
Remarques Toutes les estimations de l erreur de prédiction considérées (pénalisation, validation croisée, bootstrap) sont asymptotiquement équivalentes. Il n est pas possible de savoir à n fini, laquelle sera la plus précise. Conceptuellement, le bootstrap est plus compliqué et pratiquement encore peu utilisé. Néanmoins cet outil joue un rôle central dans les algorithmes de combinaisons de modèles en association avec une estimation out-of-bag de l erreur. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 26 / 27
Conclusion L estimation d une erreur de prédiction est une opération délicate aux conséquences importantes. Il est donc nécessaire d utiliser le même estimateur pour comparer l efficacité des méthodes, de se montrer très prudent, en dehors de tout système d hypothèses probabilistes, sur le caractère absolu d une estimation dans l objectif d une certification. Dans cette situation, le recours à un échantillon test de bonne taille est difficilement contournable, alors qu en situation de choix de modèle au sein d une même famille, un estimateur (petit échantillon de validation, validation croisée) plus écomnomique est adapté en supposant implicitement que le biais induit est identique d un modèle à l autre. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID 2011-2012 27 / 27