Statistique Numérique et Aalyse des Doées Arak DALALYAN Septembre 2011
Table des matières 1 Élémets de statistique descriptive 9 1.1 Répartitio d ue série umérique uidimesioelle.............. 9 1.2 Statistiques d ue série umérique uidimesioelle.............. 11 1.3 Statistiques et représetatios graphiques de deux séries umériques..... 14 1.4 Résumé du Chapitre 1................................ 18 2 Aalyse des doées multivariées 21 2.1 Itroductio...................................... 21 2.2 Exemple : billets suisses............................... 22 2.3 La théorie de l Aalyse e Composates Pricipales............... 23 2.4 Représetatios graphiques et iterprétatio................... 27 2.5 Résumé du Chapitre 2................................ 30 3 Rappel des bases de la statistique paramétrique 35 3.1 Itroductio...................................... 35 3.2 Modèle statistique................................... 36 3.3 Estimatio....................................... 37 3.4 Itervalle de cofiace................................ 43 3.5 Test d hypothèses................................... 47 3.6 Exercices........................................ 51 3.7 Résumé du Chapitre 3................................ 51 4 Régressio liéaire multiple 55 4.1 Gééralités....................................... 55 4.2 Lois associées aux échatillos gaussies..................... 59 4.3 Le modèle gaussie.................................. 60 4.4 Régressio liéaire multiple............................. 65 4.5 Exercices........................................ 71 4.6 Résumé du Chapitre 4................................ 71 5 Tests d adéquatio 73 5.1 Itroductio...................................... 73 5.2 Tests du chi-deux................................... 73 5.3 Test de Kolmogorov.................................. 76 5.4 Résumé du Chapitre 5................................ 80
4 Table des matières Chapitre 0 6 Tables umériques 83 6.1 Quatiles de la loi ormale cetrée réduite.................... 83 6.2 Table de la loi du khi-deux.............................. 85 6.3 Table de la loi de Studet............................... 86 6.4 Quatiles pour le test de Kolmogorov....................... 87
Table des figures 1.1 Histogrammes..................................... 11 1.2 Foctio de répartitio empirique......................... 11 1.3 Répartitios asymétriques.............................. 13 1.4 Boxplot......................................... 14 1.5 Nuage de poits.................................... 15 1.6 Nuage de poits pour les doées trasformées................. 16 1.7 Nuage de poit et droite de régressio....................... 16 1.8 QQ-plots........................................ 17 2.1 1000 Fracs Suisses.................................. 22 2.2 Billets suisses : boxplots............................... 23 2.3 Billets Suisses : matrice de scatter plots....................... 24 2.4 Billets suisses : projectio des idividus...................... 27 2.5 Billets suisses : scree-graph et cercle des corrélatios............... 29 3.1 La log-vraisemblace du modèle de Beroulli................... 41 3.2 La log-vraisemblace du modèle expoetielle.................. 42 3.3 La log-vraisemblace du modèle Uiforme.................... 43 3.4 Itervalles de cofiace pour le modèle de Beroulli............... 45 3.5 Les quatiles de la loi N (0, 1)............................ 46 4.1 Doées de pluie................................... 58 4.2 La répartitio des doées du taux d alcool.................... 61 4.3 Doées de pluie : droite de régressio...................... 70 5.1 Le test de Kolmogorov s appuie sur la distace etre foctio de répartitio empirique et théorique................................. 79 5.2 Présetatio usuelle de la distace de Kolmogorov................ 80
Liste des tableaux 1.1 Doées PIB-Cosommatio d éergie par habitat............... 19 2.1 Doées des billets suisses authetiques...................... 32 2.2 Doées des billets suisses cotrefaits....................... 33 4.1 Hauteurs d arbres das 3 forêts........................... 56 4.2 Jour et quatité de pluie par aées........................ 58 6.1 Quatiles de la statistique de Kolmogorov..................... 87
1 Élémets de statistique descriptive Le but de ce chapitre est de préseter les outils graphiques les plus répadus de la statistique descriptive. O cosidérera les cas d ue série umérique uidimesioelle et bidimesioelle. Avat de retrer das le vif du sujet, apportos ue petite précisio à ue idée très largemet répadue, selo laquelle le but de la disciplie statistique est d aalyser des doées issues d ue expériece à caractère aléatoire. Cela sous-eted qu il est pas possible ou qu il est pas utile d appliquer la méthodologie statistique aux doées recueillies par u procédé détermiiste (o aléatoire). Cette ue déductio erroée. La boe défiitio de l objectif de la Statistique e tat que disciplie scietifique, à otre avis, serait d explorer les «propriétés fréquetielles» d u jeu de doées. Par «propriétés fréquetielles», o compred les propriétés qui restet ivariates par toute trasformatio des doées (comme, par exemple, la permutatio) qui e modifie pas la fréquece des résultats. Le but de ce chapitre est d itroduire les statistiques pricipales et de doer u aperçu des outils graphiques les plus utilisés. 1.1 Répartitio d ue série umérique uidimesioelle Supposos que les doées qu o a à otre dispositio représetet valeurs réelles otées x 1,..., x costituat les résultats d ue certaie expériece répétée fois. Des exemples de source de telles doées sot : les sodages, les expérieces scietifiques (physiques, chimiques, médicales,...), les eregistremets historiques (météorologiques, socioécoomiques,...). Das certais cas, ces doées sot volumieuses et difficiles à iterpréter. O a alors besoi de les résumer et de trouver des outils pertiets pour les visualiser. Afi que l aalyse statistique d ue série umérique ait u ses, il faut que les différets élémets de cette série représetet la même quatité mesurée sur des etités différetes. Par exemple, x 1,..., x peuvet être les hauteurs de immeubles choisis au hasard à Paris, ou les températures jouralières moyees à Paris eregistrées au cours de l aée 2009, etc. O dit alors que x 1,..., x sot les valeurs d ue variable (statistique) observées sur idividus.
10 Élémets de statistique descriptive Chapitre 1 O va différecier deux types de séries umériques : celles qui représetet ue variable discrète et celles qui représetet ue variable cotiue 1. O dit qu ue variable est discrète, si le ombre de valeurs différetes parmi x 1,..., x est petit devat. Cette défiitio est loi d être rigoureuse, mais cela est e gééral pas très gêat. Das les deux exemples doés au paragraphe précédet, les variables «hauteur d immeuble» et «température jouralière moyee» sot cotiues. Si au lieu de mesurer la hauteur d u immeuble, o comptait le ombre d étages, ce serait ue variable discrète. 1.1.1 Histogramme Pour les séries umériques représetates ue variable discrète, o défiit l histogramme comme la foctio h : R N qui à chaque x R associe le ombre d élémets das la série x 1,..., x égaux à x. Par exemple, l histogramme de la série umérique 10 8 9 6 5 9 8 7 6 5 6 9 10 8 7 8 7 8 7 6 9 10 9 8 5 9 (1.1) est tracé das la Figure 1.1 (à gauche). Ue approche alterative cosiste à défiir h(x) comme la proportio des élémets das la série égaux à x. O utilise alors la forme aalytique h(x) = 1 1(x i = x). i=1 Das le cas où la série umérique qu o cherche à aalyser est cotiue, o commece par choisir ue partitio de R e u ombre fii d itervalles : I 0, I 1,..., I k. Ayat fixé la partitio, o défiit l histogramme de la série x 1,..., x comme la foctio h : R R + doée par la formule h(x) = j I j, si x I j, où j est le ombre d élémets de la série qui se trouvet das le jème itervalle I j de la partitio et I j est la logueur de l itervalle I j. Le choix de la partitio est ue questio délicate que l o approfodira pas ici. Das la plupart des cas, o choisit ue partitio uiforme (c est-à-dire, tous les I j sot de même logueur) d u itervalle coteat toutes les valeurs de la série umérique. De plus, o essaye de faire e sorte qu il y ait au mois 5 observatios das chaque itervalle o-vide. Par exemple, l histogramme de la série umérique 0.11 0.81 0.94 0.62 0.50 0.29 0.48 0.17 0.26 0.55 0.68 0.17 0.28 0.57 0.98 0.77 0.56 0.49 0.31 0.89 0.76 0.39 0.64 0.05 0.91 0.78 0.59 0.79 0.07 0.86 (1.2) est tracé das la Figure 1.1 (à droite). 1.1.2 Foctio de répartitio empirique Ue représetatio alterative des fréqueces des valeurs coteues das ue série umérique est la foctio de répartitio, appelée égalemet histogramme cumulé. Pour u x R, 1. Le terme variable cotiue est pas très bie choisi, mais cela e pose pas de problème majeur.
Sectio 1.2 Statistiques d ue série umérique uidimesioelle 11 FIGURE 1.1 Exemples d histogrammes. A gauche : l histogramme de la série discrète (1.1). A droite : l histogramme de la série (1.2). FIGURE 1.2 Foctio de répartitio empirique (FDRE). A gauche : la FDRE de la série discrète (1.1). A droite : la FDRE de la série (1.2). O voit bie que c est ue foctio e escalier croissate, qui vaut 0 sur l itervalle ], mi i x i [ et qui vaut 1 sur l itervalle ] max i x i, + [. la valeur e x de la foctio de répartitio d ue série umérique x 1,..., x est la proportio des élémets de la série iférieurs ou égaux à x, c est-à-dire : ˆF (x) = 1 1(x i x). i=1 L avatage de la foctio de répartitio, comparé à l histogramme, est que sa défiitio est idetique das le cas d ue variable discrète et das le cas d ue variable cotiue. 1.2 Statistiques d ue série umérique uidimesioelle O appelle ue statistique toute foctio qui associe aux doées x 1,..., x u vecteur S(x 1,..., x ) R p. O utilise les statistiques pour résumer les doées. 1.2.1 Statistiques de tedace cetrale et de dispersio Les trois statistiques de tedace cetrale les plus utilisées sot la moyee, la médiae et le mode. O les appelle égalemet les statistiques de positio.
12 Élémets de statistique descriptive Chapitre 1 La moyee, otée x, est défiie par : x = 1 x i. i=1 La médiae, otée Med x, est u ombre réel tel qu au mois la moitié des doées sot Med x et au mois la moitié des doées sot Med x. Le mode, oté Mode x, est la valeur la plus fréquete à l itérieur de l esemble des doées. Cotrairemet à la moyee, la médiae et le mode e sot pas toujours uiques. Les trois statistiques de dispersio les plus utilisées sot la variace, l écart-type et l écart iterquartile. La variace, otée v x, est la valeur moyee des carrés des écarts etre les doées et la moyee : v x = 1 i=1 (x i x) 2. L écart-type, otée s x, est la racie carré de la variace : s x = v x. L écart iterquartile est la différece etre le troisième et le premier quartile : Q 3 Q 1, où le premier quartile Q 1 (respectivemet, le troisième quartile Q 3 ) est la médiae des doées < Med x (resp. > Med x ). 1.2.2 Statistiques d ordre et quatiles Etat doé ue série de doées uidimesioelles x 1,..., x, o s itéresse souvet à la plus petite valeur mi i x i ou à la plus grade valeur max i x i prise par les x i. E statistique, o utilise les otatios x (1) = mi 1 i x i, x () = max 1 i x i, et o les appelle première et derière statistiques d ordre. Plus gééralemet, o défiit la statistique d ordre de rag k, otée x (k), comme la k ème plus petite valeur parmi x 1,..., x. Plus précisémet, soit (i 1,..., i ) ue permutatio (il peut y e avoir plusieurs) des idices (1,..., ) qui classe les doées das l ordre croissat : x i1 x i2... x i. O appelle alors statistique d ordre k la valeur x (k) = x ik. Pour toute valeur α [0, 1], o appelle quatile d ordre α, oté q x α, de la série x 1,..., x, la statistique d ordre x (m) avec m = [α]. E utilisat la otio de quatile, o peut redéfiir les quartiles et la médiae comme suit : Q 1 = q x 0.25, Med x = q x 0.5, Q 3 = q x 0.75. E pratique, ces défiitios de quartiles et médiae coduiset vers des résultats qui diffèret légèremet de ceux obteus par la première défiitio, mais gééralemet la différece est pas importate et décroît lorsque la taille de la série augmete.
Sectio 1.2 Statistiques d ue série umérique uidimesioelle 13 1.2.3 Statistiques de forme Les deux statistiques de forme les plus utilisées sot le coefficiet d asymétrie et le coefficiet d aplatissemet. Le coefficiet d asymétrie (skewess), otée α x, et le coefficiet d aplatissemet (kurtosis), otée β x, sot défiis par : α x = 1 s 3 x i=1 (x i x) 3, β x = 3 + 1 s 4 x i=1 (x i x) 4. O peut facilemet vérifier que le coefficiet d asymétrie de toute série umérique symé- FIGURE 1.3 Exemples de répartitios asymétriques : le coefficiet d asymétrie est positive pour la distributio à gauche et égative pour celle de droite. trique est ul. (O dit qu ue série umérique est symétrique par rapport à u ombre réel mu, si pour tout a > 0 la fréquece de la valeur µ + a das la série est égale à celle de µ a. O peut égalemet vérifier que le coefficiet d aplatissemet ted vers zéro lorsque si la série umérique représete des réalisatios idépedates de la loi gaussiee N (0, 1). 1.2.4 Box plots (Boîtes à moustaches) U résumé simple et pratique de la répartitio d ue série x 1,..., x est doé par le quituplé (A, Q 1, Med x, Q 3, B), où A et B représetet les limites iférieure et supérieure de l itervalle e dehors duquel les doées sot cosidérées comme aberrates (o les appelle aussi atypiques ou des outliers). Q 1 et Q 3 sot respectivemet le premier et le troisième quartile. Med x est la médiae de l échatillo. Ce quituplé est utilisé pour costruire le diagramme e boîte ou à moustaches que ous appelleros désormais boxplot. La forme géérale d u boxplot est motrée das la Figure 1.4. Les valeurs A et B sot détermiées par les formules { } A = mi x i : x i Q 1 1.5(Q 3 Q 1 ), { } B = max x i : x i Q 3 + 1.5(Q 3 Q 1 ). Si la série umérique a ue répartitio ormale (Gaussiee), la probabilité qu ue valeur de la série se trouve e dehors de l itervalle [A, B] est de 0.7%.
14 Élémets de statistique descriptive Chapitre 1 FIGURE 1.4 La forme typique d ue boîte à moustaches (ou boxplot), le rectagle bleu état la boîte et les segmets [A, Q 1 ] et [Q 3, B] état les moustaches. Pour compléter le boxplot, o fait apparaître les valeurs aberrates. Toutes les valeurs qui se trouvet e dehors de l itervalle [A, B] sot désigées par u symbole (souvet par ue étoile). Das l exemple de la Fig. 1.4, il y a pas de valeur aberrate. Pour iterpréter u boxplot, il faut oter que la moitié des valeurs de la série se trouvet etre Q 1 et Q 3, c est-à-dire das la boîte du boxplot, la moitié des valeurs de la série se trouvet à gauche de la médiae, s il y a pas de valeurs aberrates, toutes les valeurs de la série se trouvet etre A et B. Les boxplots sot pratiques pour comparer deux séries statistiques. 1.3 Statistiques et représetatios graphiques de deux séries umériques Cosidéros maiteat le cas de deux séries umériques x 1,..., x et y 1,..., y correspodat aux valeurs de deux variables prélevées sur le même idividu. Par exemple, x i et y i peuvet costituer la taille et le poids d ue persoe, la température moyee et le iveau de pollutio à Paris u jour doé,... 1.3.1 Covariace et corrélatio La statistique la plus utilisée das le cotexte de deux séries umériques est la corrélatio. Pour la défiir, la otio de covariace doit être itroduite. O appelle covariace des séries umériques x 1,..., x et y 1,..., y la valeur s xy = 1 i=1 (x i x)(y i ȳ), où x et ȳ sot respectivemet la moyee des x i et celle des y i. O appelle coefficiet corrélatio ou coefficiet corrélatio liéaire des séries umériques x 1,..., x et y 1,..., y la valeur ρ xy = s xy s x s y, où s x et s y sot respectivemet l écart-type des x i et celui des y i. Par covetio, o pose ρ xy = 0 si au mois l u des deux écart-types s x, s y est ul. Propositio 1.1. Le coefficiet de corrélatio est toujours etre 1 et +1 : 1 ρ xy 1.
Sectio 1.3 Statistiques et représetatios graphiques de deux séries umériques 15 De plus, ρ xy = 1 si et seulemet si les séries x 1,..., x et y 1,..., y sot liées par ue relatio affie, c est-à-dire x i = ay i + b pour tout i = 1,...,. Démostratio. E utilisat l iégalité de Cauchy-Schwarz, o vérifie que s xy 1 (x i x)(y i ȳ) 1 ( i=1 i=1 (x i x) 2 i=1 (y i ȳ) 2) 1 2 = s x s y. Cela implique que le coefficiet de corrélatio ρ xy = s xy /(s x s y ) est toujours etre 1 et +1. De plus, l iégalité de Cauchy-Schwarz est ue égalité si et seulemet si x i x = a(y i ȳ), ce qui etraîe la secode assertio de la propositio. 1.3.2 Nuage de poits et droite de régressio Supposos que l o dispose de deux séries umériques x 1,..., x et y 1,..., y représetat les valeurs de deux variables prélevées sur idividus. Il est aturel et pratique de représeter ces doées sous forme d u uage de poits. Il s agit de représeter par u symbole (losage, das l exemple de la Fig. 4.1) les poits de coordoées (x i, y i ). A titre d exemple, cosidéros les doées présetées das la Table 1.1. Ces doées représetet deux variables dot les valeurs sot eregistrées pour = 38 idividus. Les idividus sot des pays, alors que les deux variables X et Y sot respectivemet le PIB (produit itérieur brut) par habitat et la cosommatio d éergie par habitat. Le uage de poit de ces doées est affiché das la partie haute de la Figure 4.1. Das ce cotexte, l idetité des idividus représete u itérêt (cela est pas toujours le cas). Il est alors pratique de marquer à côté de chaque poit du uage ue chaîe de caractère permettat l idetificatio de l idividu représeté par le poit. C est ce qui est fait das la partie basse de la Fig. 4.1. Cosommatio d éergie Cosommatio d éergie 10 8 6 4 2 0 10 8 6 ArSa Kow Ca Aus 4 Rus CorS Alm Fr R UJap Sui Isr Esp It AfS Por Gr 2 Ir Ve Arg Nig Egy Ch Alg BréTur Vie Bé Id Par Mar Col 0 Sé Phi 0 1 2 3 4 5 6 7 FIGURE 1.5 Le uage de poits représetat les doées de la Table 1.1. E haut : le uage simple. E bas : le uage aoté PIB E U Suè Nor Lu x 10 4
16 Élémets de statistique descriptive Chapitre 1 Pour redre le uage de poit plus lisible, o a souvet recours à ue trasformatio d ue ou des deux variables. Das l exemple de la Table 1.1, o obtiet u uage de poit plus iterprétable (voir la Fig. 4.3) e preat le logarithme des deux variables. log(cosommatio d éergie) 2.5 2 1.5 1 0.5 0 0.5 1 Nig Vie Bé Id Sé Egy Par Phi Ch Mar Ir Col Alg Bré Arg Rus Ve Tur AfS 1.5 6 7 8 10 11 12 log(pib) ArSa Kow Ca E U Aus Suè Nor Fr CorS Alm Jap Esp Sui Isr It R U Por Gr FIGURE 1.6 Le uage de poits représetat les logarithmes des doées de la Table 1.1. Lu Afi d obteir ue droite approximat le uage de poits, o calcule la droite de régressio de Y sur X, doée par l équatio y = ax + b où a = s xy s 2, b = ȳ a x. (1.3) x Pour les doées de la Table 1.1, la droite de régressio aisi que so équatio sot doées das la Fig. 1.7. O voit das la formule (1.3) que la droite de régressio de Y sur X e coïcide pas, e gééral, avec la droite de régressio de X sur Y. Si l o ote M i le poit qui a pour coordoées (x i, y i ) et par d i la distace etre M i et le poit M i = (x i, ax i + b), alors la droite de régressio est la droite pour laquelle la somme des d i au carré est miimale. C est la raiso pour laquelle o dit que la droite de régressio est obteue par la méthode des moidres carrés. O reparlera de cette propriété das u cadre plus gééral plus loi das ce documet. Cosommatio d éergie 10 8 6 4 2 y = 0.00011*x + 1.3 0 0 1 2 3 4 5 6 7 FIGURE 1.7 Le uage de poits représetat les doées de la Table 1.1 superposé de la droite de régressio. PIB d i M i x 10 4 1.3.3 QQ-plot (graphiques quatile-quatile) U QQ-plot permet de voir rapidemet l adéquatio d ue série umérique à ue distributio, ou comparer les répartitios de deux séries umériques. 1er cas : Lorsque l o s itéresse à l adéquatio à ue distributio, l axe des ordoées porte les quatiles q j de la distributio observée, tadis que l axe des abscisses porte les quatiles q j correspodats de la loi théorique.
Sectio 1.3 Statistiques et représetatios graphiques de deux séries umériques 17 2ème cas : Lorsque l o s itéresse à la comparaiso de deux distributios, l axe des ordoées porte les quatiles q x j de la série x 1,..., x, tadis que l axe des abscisses porte les quatiles q y j de la série y 1,..., y. Le uage des poits (q j, q j) (respectivemet (q y j, qx j )) s alige sur la première bissectrice lorsque la distributio théorique proposée est ue boe représetatio des observatios (resp., lorsque les répartitios des x i et des y i sot égales). Si le uage des poits (q j, q j) s alige sur ue droite, alors il existe ue trasformatio affie des observatios telle que la distributio théorique proposée est ue boe représetatio des observatios trasformées. Quatiles of Iput Sample 8 x 104 6 4 2 0 2 Y Quatiles 10 9 8 7 6 5 4 3 2 1 4 3 2 1 0 1 2 3 Stadard Normal Quatiles 0 0 1 2 3 4 5 6 7 X Quatiles x 10 4 FIGURE 1.8 QQ-plots pour les doées de la Table 1.1. Le graphe de gauche idique que la répartitio du PIB est sigificativemet différete d ue loi ormale. Le graphe de droite motre que les répartitios du PIB et de la cosommatio d éergie e sot pas liées par ue trasformatio affie. Exercice 1.1. Le tableau suivat présete les doées du PIB par habitat pour 15 pays dot la majeure partie se trouve e Asie. Ces doées ot été obteues sur le site http: //www.statistiques-modiales.com/. Le boxplot de ces doées a la forme suivate : 1. Selo ce diagramme, quelle est la valeur médiae du PIB/habitat e Asie? 2. Y a-t-il des doées atypiques? 3. La répartitio du PIB/habitat est-elle symétrique? Commet s iterprète cette asymétrie? 4. Répodre à la questio 3 e utilisat l iformatio que la moyee des 15 observatios qu o dispose est de 7670. Pays PIB / habitat (e $ US, 2004) Afghaista 174 Arabie Saoudite 9285 Arméie 1034 Chie 1258 Corée du Sud 13929 Ide 631 Ira 2350 Israël 18404 Japo 36647 Koweït 21420 Pakista 81 Philippies 948 Russie 4071 Turquie 4296 Vietam 520
18 Élémets de statistique descriptive Chapitre 1 1.4 Résumé du Chapitre 1 Série umérique : Variable discrète : Variable cotiue : Histogramme : variable discrète : variable cotiue : Foctio de répartitio empirique : Statistiques de tedace cetrale : moyee : médiae : mode : Statistiques de dispersio : variace : écart-type : écart iterquartile : Statistiques d ordre : Quatiles : Boxplots : Covariace : Corrélatio : Nuage de poits : Droite de régressio : QQ-plot :
Sectio 1.4 Résumé du Chapitre 1 19 Pays PIB par habitat Cosommatio d éergie par habitat (e $ US, e 2004) (e Toes d équivalet pétrole, e 2002) Afrique du sud 5700 2.502 Algérie 2575 0.985 Béi 512 0.340 Egypte 976 0.789 Maroc 1505 0.363 Nigeria 541 0.718 Séégal 637 0.319 Allemage 33422 4.198 Espage 25777 3.215 Frace 33614 4.470 Grèce 19226 2.637 Italie 28909 2.994 Luxembourg 66808 9.112 Norvège 54894 5.843 Portugal 15835 2.546 Royaume-Ui 35193 3.824 Suède 38746 5.718 Suisse 47577 3.723 Arabie Saoudite 9285 5.775 Chie 1258 0.960 Corée du Sud 13929 4.272 Ide 631 0.513 Ira 2350 2.044 Israël 18404 3.191 Japo 36647 4.058 Koweït 21420 9.503 Philippies 948 0.525 Russie 4071 4.288 Turquie 4296 1.083 Vietam 520 0.530 Argetie 3808 1.543 Brésil 3210 1.093 Caada 30014 7.973 Colombie 2234 0.625 Etats-Uis 39114 7.943 Paraguay 1032 0.709 Veezuela 4203 2.141 Australie 30498 5.732 TABLE 1.1 Ces doées sot obteues du site http://www.statistiques-modiales.com/
2 Aalyse des doées multivariées 2.1 Itroductio 2.1.1 Objectif Das toute étude appliquée, la démarche première du statisticie est de décrire et d explorer les doées dot il dispose, avat d e tirer de quelcoques lois ou modèles prédictifs. Or la statistique traite gééralemet du grad ombre et, les outils iformatiques aidat, les bases de doées devieet de plus e plus volumieuses, tat e largeur (quatité d iformatios recueillies) qu e hauteur (ombre d uités sur lesquelles ces iformatios sot recueillies). Cette phase d exploratio descriptive des doées est e coséquece pas aisée. Si le statisticie est déjà outillé pour aalyser la distributio d ue variable ou la relatio etre deux variables, ces outils basiques e permettet pas d appréheder ce vaste esemble iformatif das sa globalité. Il e s agit aturellemet pas d e doer alors ue visio exhaustive, mais bie de répodre à l ue des pricipales missios du statisticie : extraire d ue masse de doées ce qu il faut e reteir, e la sythétisat ou e simplifiat les structures. Les techiques d aalyse de doées répodet à ce besoi. O présetera ici l Aalyse e Composates Pricipales (ACP) qui s appuie sur la réductio de rag découlat des travaux de décompositio matricielle d Eckart et Youg (1936). Le but pricipal de l ACP est de détermier les pricipales relatios liéaires das u esemble de variables umériques. Il s agit bie de réduire u esemble complexe et de grade dimesio à ses pricipaux élémets, de faço à e mieux compredre les structures sous-jacetes. 2.1.2 Notatios O dispose de p variables X 1,..., X j,..., X p, que l o observe sur uités statistiques - ou idividus : o ote x j i la valeur de la variable Xj observée sur le i-ème idividu. Cet esemble de doées peut doc être mis sous la forme d u tableau X à liges et p coloes, et de terme courat x j i.
22 Aalyse des doées multivariées Chapitre 2 Das la suite - et c est très gééralemet le cas e aalyse des doées, cotrairemet aux autres domaies de la statistique - o cofodra la otio de variable avec le vecteur de dimesio qui la défiit sur otre échatillo, c est-à-dire X j = (x j 1,..., xj ). De même, chaque idividu sera assimilé au vecteur de dimesio p qui compile ses valeurs sur les variables : X i = (x 1 i,..., xp i ). x1 1... xp 1 X =..... x 1... x p } {{ } p variables idividu # 1, oté X 1 idividu #, oté X. 2.2 Exemple : billets suisses Nous choisiros ici u exemple décrivat 6 mesures, otée X 1,..., X 6, relevées sur 200 billets de 1000 Fracs Suisses. La Figure 2.1 présete la ature des mesures effectuées alors que l esemble des doées recueillies est doé das les Tables 2.1 et 2.2. Sur les 200 billets examiés, il y a eu 100 billets authetiques et 100 billets cotrefaits. Cet exemple comporte volotairemet u ombre réduit de variables, pour e faciliter la compréhesio. Pour compredre ce qu apportet les méthodes d aalyse de doées, meos au préalable ue brève aalyse descriptive de ces tableaux du poit de vue des variables. FIGURE 2.1 Cette figure motre ue coupure de 1000 Fracs Suisses (acies) avec les 6 mesures effectuées. Etude descriptive des variables Classiquemet, o peut se livrer à ue aalyse de la distributio de chaque variable. Cela peut se faire, par exemple, e visualisat les boxplots de chacue des 6 variables X i. La Fig. 2.2 motre ces boxplots, qui ous reseiget sur les caractéristiques idividuelles des variables X i. O y voit, etre autre, qu il y a 2 billets dot la logueur est aormalemet
Sectio 2.3 La théorie de l Aalyse e Composates Pricipales 23 grade et u billet dot la logueur est aormalemet petite. O remarque égalemet, e comparat les boxplots de X 2 et X 3, que la largeur à gauche est typiquemet légèremet plus grade que la largeur à droite. X 1 X 2 X 3 X 4 X 5 X 6 FIGURE 2.2 Les boxplots des doées de billets suisses Cette figure e dit cepedat rie sur la relatio etre les variables. Pour appréheder les distributios bivariées, des outils d aalyse vus à la fi du chapitre précédet peuvet être appliqués à tous les paires de variables. Exemples de tels outils sot la matrice de «scatter plots» (voir Fig. 2.3), ou la matrice des coefficiets de corrélatio liéaire. Ce derier représete u itérêt surtout lorsque les uages sot aplatis ou les répartitios bidimesioelles sot approximativemet gaussiees. Voici le tableau des corrélatios : X 1 X 2 X 3 X 4 X 5 X 6 X 1 1.00 0.23 0.15-0.19-0.06 0.19 X 2 0.23 1.00 0.74 0.41 0.36-0.50 X 3 0.15 0.74 1.00 0.49 0.40-0.52 X 4-0.19 0.41 0.49 1.00 0.14-0.62 X 5-0.06 0.36 0.40 0.14 1.00-0.59 X 6 0.19-0.50-0.52-0.62-0.59 1.00 Ce tableau motre que les variables X 2 et X 3 sot les plus corrélées, ce qui est tout à fait logique et cela se voyait déjà sur le scatter plot de la Fig. 2.3. O voit doc qu o dispose des outils qui ous permettet d aalyser les variables idividuellemet ou deux par deux. Il ous maque cepedat des outils de sythèse, qui permettraiet de dégager la structure globale de ces doées. Nous allos e développer u, parmi les plus utilisés. 2.3 La théorie de l Aalyse e Composates Pricipales 2.3.1 Problématique O se place ici das la situatio où les p variables d itérêt X 1,..., X j,..., X p, sot umériques. Pour appréheder l iformatio coteue das le tableau umérique X, o peut teter de visualiser le uage de poits représetat les idividus das R p. Mais très souvet, le ombre de variables p peut atteidre quelques dizaies. Quoiqu il e soit, même
24 Aalyse des doées multivariées Chapitre 2 FIGURE 2.3 Scatter plots des différetes variables avec des outils de visualisatio performats, X e peut être appréhedé de faço simple das sa globalité, i les relatios etre les variables. La problématique est alors double : Commet visualiser la forme du uage des idividus? Commet sythétiser les relatios etre variables? L ACP permet justemet de répodre à ce type de besoi. 2.3.2 Choix de la métrique La méthode d Aalyse e Composates Pricipales requiert u espace vectoriel mui d u produit scalaire. Das ce chapitre, ous cosidéreros l espace euclidie R p mui de so produit scalaire caoique. La métrique associée est doée par X i X i 2 = p ( j x i ) 2. xj i j=1 Défiitio 2.1. Soiet x j = 1 i=1 xj i et s 2 j = 1 i=1 ( x j i xj) 2 la moyee et la variace de la variable d itérêt X j. La représetatio cetrée de l idividu i est doée par x j 1,..., xj p, où pour tout 1 j p, x j i = xj i xj.
Sectio 2.3 La théorie de l Aalyse e Composates Pricipales 25 La représetatio cetrée-réduite de l idividu i est doée par x j 1,..., xj p, où pour tout 1 j p, x j i = xj i xj s j. Ue ACP ormée est ue ACP meée sur la représetatio cetrée-réduite. L ACP opère toujours sur les représetatios cetrées. Pour simplifier la présetatio, o cosidérera das la suite que les variables ot été déjà cetrées, das le ses où i=1 X i = 0. Les différetes variables X j pouvat être hétérogèes, et correspodre à des échelles de mesure disparates, la représetatio cetrée-réduite est utilisée pour éviter que le choix de ces uités ait ue ifluece das le calcul des distaces. Cette représetatio red les variables cetrées et de variace 1. 2.3.3 Moidre déformatio du uage Pour visualiser le uage des idividus (et doc e coaître la forme, pour savoir commet sot liées os p variables), il est écessaire de réduire la dimesio de l espace qui le porte. L ACP réduit cette dimesio par projectio orthogoale sur des sous-espaces affies. Défiitio 2.2. Soit X 1,..., X u uage de poits dot le barycetre coïcide avec l origie (c est le cas pour des variables réduites). L iertie du uage X 1,..., X est doée par I = 1 X i 2. i=1 L iertie J H du uage autour du sous-espace liéaire H est doée par J H = 1 où P H X i le projeté orthogoal de X i sur H. X i P H X i 2, i=1 L iertie J H autour de H mesure la déformatio du uage lorsque celui-ci est projeté orthogoalemet sur H. Pour que la représetatio des doées par leur projectio sur u sous-espace affie ait u ses, il faut qu elle modifie peu la forme du uage de poits, doc qu elle miimise l iertie J H. Remarquos que d après le théorème de Pythagore, o a I = 1 ( Xi P H X i 2 + P H X i 2) déf = J H + I H. i=1 Par coséquet, la moidre déformatio d u uage de poits par projectio orthogoale sur u sous-espace liéaire est obteue, de maière équivalete, par miimisatio de l iertie par rapport au sous-espace liéaire ou par maximisatio de l iertie du uage projeté. Das le but de pouvoir visualiser le uage de poits des idividus, o aimerait trouver das R p u sous-espace liéaire de dimesio 2 (c est-à-dire, u pla) qui approche bie les doées. O est doc tout aturellemet itéressé par la résolutio du problème H 2 = arg mi J H = arg max I H H:dim(H)=2 H:dim(H)=2 } {{ } } {{ } miimisatio de la déformatio du uage maximisatio de l iértie du uage projeté
26 Aalyse des doées multivariées Chapitre 2 D ue faço plus géérale, o s itéresse aux sous-espaces liéaires H k, pour k {1,..., p 1}, défiis par H k = arg mi J H = arg max I H. (2.1) H:dim(H)=k H:dim(H)=k Par exemple, si le uage des idividus das R p est pas bie approximable par u pla, il pourrait être plus itéressat de cosidérer ue visualisatio 3 dimesioelle e projetat les doées sur H 3. Das certais cas, cela peut cosidérablemet augmeter l iertie du uage projeté. Motros maiteat que la recherche d u sous-espace affie de dimesio fixée maximisat l iertie du uage projeté peut être meée de maière séquetielle et que l iertie se décompose e la somme des ierties moyees du uage projeté sur des droites orthogoales, dites directios pricipales de l ACP. Soit Γ la matrice de variace-covariace associée au uage de poits (das la représetatio cetrée, les moyees X j sot ulles) : Γ = 1 (X)t X, autremet dit Γ j,j = i=1 xj i xj i est la covariace etre les variables d itérêt X j et X j. Notos au passage que lorsqu o cosidère des variables réduites, la matrice Γ est égalemet la matrice des corrélatios des variables X j. Théorème 2.1. Les assertios suivates caractériset la résolutio séquetielle du problème de réductio de dimesio par moidre déformatio. Soit u k u vecteur propre uitaire de Γ associée à la k-ième plus grade valeur propre. Alors H k = Vect(u 1,..., u k ) est l espace vectoriel egedré par les k premiers vecteurs propres de Γ. La k-ième plus grade valeur propre λ k de Γ vaut l iertie du uage projeté sur le k-ième axe propre u k : I uk = λ k. l iertie sur H k est la somme des ierties moyees sur les k axes propres pricipaux : I Hk = k λ l. l=1 Démostratio. Cherchos d abord le vecteur uitaire, i.e. de orme 1, u maximisat l iertie du uage projeté sur u. Cosidéros la projectio du uage sur la directio doée par le vecteur uitaire u. Le projeté X i de l idividu i s écrit X i = u, X i u et l iertie du uage projeté (ous ous plaços toujours das le cadre de la représetatio réduite) est I u = 1 i=1 u, X i u 2 = 1 i=1 u, X i 2 = 1 u t X i (X i ) t u = u t Γu. i=1 La matrice Γ est symétrique, semi-défiie positive ; elle est diagoalisable, a toutes ses valeurs propres réelles, et il existe ue base orthoormale de vecteurs propres de R p. Notos λ 1... λ p les valeurs propres triées par ordre décroissat, et u 1,..., u p les vecteurs propres uitaires associés. Alors I u = p p 2 2 λ j u, uj λ 1 u, uj = λ 1 u 2 = λ 1. j=1 j=1
Sectio 2.4 Représetatios graphiques et iterprétatio 27 Il suffit alors de choisir u = u 1 pour maximiser I u. Par coséquet, la meilleure droite de projectio du uage est celle de vecteur directeur u 1, associé à la plus grade valeur propre λ 1 de la matrice Γ. O admet sas démostratio que pour tout etier k < p, l espace H k+1 est obteu à partir de l espace H k par H k+1 = Vect(H k, v k+1 ) où v k+1 est u vecteur orthogoal à H k. Pour les H k suivats, o procède par récurrece. Asi, pour H 2 o cherche le vecteur directeur u 2 orthogoal à u 1 portat l iertie maximale. Pour tout vecteur u orthogoal à u 1, o a p 2 I u = λ j u, uj λ 2. j=2 Doc le maximum est atteit pour u = u 2, et aisi de suite. Au passage, o a égalemet prouvé la deuxième assertio du théorème : I uk = λ k. La troisième assertio découle alors du théorème de Pythagore. L iertie I du uage de poits est doc égale à la trace de matrice de variace-covariace, ce qui implique I = p, e ACP ormée. (E ACP o ormée, elle vaut la somme des variaces : I = p j=1 s2 j = p l=1 λ l.) O défiit la part d iertie expliquée sur le l-ième axe propre : τ l = λ l /I. L iertie portée par u sous-espace de dimesio k est doc au mieux k l=1 τ l pour cet de l iertie totale I. 2.4 Représetatios graphiques et iterprétatio Sur otre exemple cocerat les billets suisses, o peut chercher à visualiser les proximités (e termes de distace ormée sur les 6 caractéristiques) etre billets sur le premier pla factoriel (u 1 horizotalemet, u 2 verticalemet) (voir Fig.2.4 à gauche). Das cet exemple, FIGURE 2.4 A gauche : projectio des idividus sur le premier pla factoriel. A droite : la même projectio avec des symboles différets pour les billets authetiques et les billets cotrefaits. Les triagles correspodet aux billets cotrefaits, alors que les cercles représetet les billets authetiques. l iertie I = 4.494 se décompose sur les premiers axes aisi : I 1 = 3 (doc τ 1 = 66.7%), I 2 = 0, 93 (doc τ 2 = 20.8%). O visualise doc de faço simplifiée, mais optimale (τ 1 2 = I u1 u 2 /I =87.5% de l iertie représetée sur ce pla), les proximités etre les billets. Les vecteurs directeurs de ces deux premiers axes s exprimet aisi, das l aciee base :
28 Aalyse des doées multivariées Chapitre 2 Vecteur propre X 1 X 2 X 3 X 4 X 5 X 6 u 1 0.04 0.11 0.14 0.77 0.20 0.58 u 2 0.01 0.07 0.07 0.56 0.66 0.49 Reste à iterpréter véritablemet ces axes, et à compredre quels sot les pricipales relatios liéaires etre les caractéristiques techiques... 2.4.1 Pricipales relatios etre variables Les composates pricipales La diagoalisatio vue précédemmet permet de défiir p ouvelles variables 1 appelées composates pricipales : p C α = uαx j j = Xu α R, j=1 ou ecore Ci α = X i, u α. Elles sot doc combiaisos liéaires des variables d itérêt X j iitiales. Elles sot cetrées puisque les X j le sot, et o a : ( Cov C α, C β) = p j=1 p j =1 u j αu j β Cov (X j, X j ) = u t αγu β = λ β u t αu β. Doc Cov ( { C α, C β) 0 si α = β, =, ce qui veut dire que les différetes composates pricipales sot λ α si α = β, o-corrélées. O peut calculer la covariace etre les composates pricipales et les variables iitiales : ( Cov C α, X j) = p ( uαcov j X j, X j) = j =1 p uα j Γ j,j = λ α uα. j j =1 Il s esuit que ( Corr C α, X j) = Cov ( C α, X j) Var(C α )Var(X j ) = λ α u j α/s j. Doc p j=1 s2 j Corr2 ( C α, X j) = λ α. Pour visualiser les corrélatios etre les composates pricipales et les X j, o établit des représetatios plaes où, e preat par exemple ( C 1, C 2) comme base orthogoale de ce pla, chaque X j est figuré par u vecteur de coordoées ( Corr ( C 1, X j), Corr ( C 2, X j)), à l itérieur du cercle uité 2, dit des corrélatios. 1. De même que précédemmet, o cofodra sous le vocable variable la forme liéaire, et sa réalisatio sur os idividus, soit ecore le vecteur de R associé. 2. Ce vecteur est das le cercle uité car, das R mui du produit scalaire x, y = i=1 x iy i, c est le vecteur projeté orthogoal du vecteur uitaire X j /s j sur le pla egedré par les vecteurs orthoormés C 1 / Var(C 1 ) et C 2 / Var(C 2 ).
Sectio 2.4 Représetatios graphiques et iterprétatio 29 Retour à l exemple O voit, das cet exemple (voir la partie droite de la Fig. 2.5), que les variables X 1, X 2 et X 3 sot mal expliquées par les deux premiers axes pricipaux, car les poits représetat ces variables sot éloigés du cercle. E revache, les 3 autres poits sot quasimet sur le cercle, ce qui veut dire que les variables X 4, X 5, X 6 sot très bie expliquées par C 1 et C 2. De plus, comme l agle formé par les vecteurs OX 4 et OX 5 est proche de 90, les variables X 4 et X 5 sot très faiblemet corrélées. 2.4.2 Nombre d axes (ou de composates) à aalyser Combie d axes aalyser? Il existe plusieurs critères de décisio. Le premier (Kaiser) veut qu o e s itéresse e gééral qu aux axes dot les valeurs propres sot supérieures à la moyee (qui vaut 1 e ACP ormée). U secod (dit du coude, ou de Cattell) utilise le résultat suivat : lorsque des variables sot peu corrélées, les valeurs propres de la matrice d iertie décroisset régulièremet - et l ACP présete alors peu d itérêt. A l iverse, lorsqu il existe ue structure sur les doées, o observe des ruptures das la décroissace des valeurs propres (cf. Fig.2.5). O cherchera doc à e reteir que les axes correspodat aux valeurs qui précèdet la décroissace régulière. Aalytiquemet, cela reviet à chercher u poit d iflexio das la décroissace des valeurs propres, et de e pas aller au-delà das l aalyse. Aisi, das otre exemple, o e s itéressera qu aux 2 premiers axes. FIGURE 2.5 Représetatio des valeurs propres et cercle des corrélatios pour le premier pla factoriel 2.4.3 Aides à l iterprétatio Si, pour les variables umériques, la visualisatio des vecteurs à l itérieur du cercle des corrélatios doe toute l iformatio écessaire à l aalyse, il peut être utile de défiir, pour chaque idividu, les aides suivates : La cotributio à l iertie du uage, qui croît avec l excetricité de l idividu : CTR (X i ) = X i 2 I
30 Aalyse des doées multivariées Chapitre 2 La cotributio à l iertie portée par u axe (O, u α ) : CTR α (X i ) = ( C α i ) 2 λ α Par costructio : i=1 CTR (X i) = 1, et i=1 CTR α (X i ) = 1. La valeur de ces cotributios déped doc fortemet du ombre d idividus : ue cotributio de 5% sera cosidérée comme forte si l o maipule les doées de milliers d idividus, ettemet mois si l o e a qu ue vigtaie (de faço géérale, o cosidèrera que l idividu i a ue cotributio importate si elle dépasse so poids 1/). La qualité de projectio sur l axe (O, u α ) est doée par le carré du cosius de l agle : CO2 α (X i ) = ( C α i ) 2 X i 2. Par orthogoalité des u α, la qualité de projectio d u idividu sur u sous-espace pricipal est additive : CO2 α+β (X i ) = CO2 α (X i ) + CO2 β (X i ). D autre part, o remarque que p α=1 CO2 α (X i ) = 1 ; de même que précédemmet, cette qualité déped fortemet du ombre iitial de variables : o pourra être exigeat si l o e maipule qu ue poigée, o le sera mois s il y e a davatage. Pour u axe doé, l exame parallèle des CTR et des CO2 des idividus qui s y projettet peut doer lieu à quatre cas de figure, dot u pose problème (CO2 faible-ctr forte), qui apparaît lorsqu u idividu a u poids trop fort par rapport aux autres : CTR faible CTR forte CO2 faible Elémet peu cotributif Elémet très cotributif quasi idépedat de l axe mais peu illustratif de l axe CO2 forte Elémet peu cotributif Elémet particulièremet mais bie illustratif de l axe caractéristique de l axe 2.5 Résumé du Chapitre 2 Tableau de doées multivariées : variables : idividus : Matrice des corrélatios : Matrice de scatter-plots : Représetatio cetrée :
Sectio 2.5 Résumé du Chapitre 2 31 Représetatio cetrée-réduite : Aalyse e Composates Pricipales (ACP) : ACP ormée : Iertie du uage : Iertie autour d u sous-espace : Composates pricipales : Représetatio graphiques dérivées de l ACP : Projectio des idividus : Scree-graph : Projectio des variables :
32 Aalyse des doées multivariées Chapitre 2 X 1 X 2 X 3 X 4 X 5 X 6 214.8 131 131.1 9 9.7 141 214.6 129.7 129.7 8.1 9.5 141.7 214.8 129.7 129.7 8.7 9.6 142.2 214.8 129.7 129.6 7.5 10.4 142 215 129.6 129.7 10.4 7.7 141.8 215.7 130.8 130.5 9 10.1 141.4 215.5 129.5 129.7 7.9 9.6 141.6 214.5 129.6 129.2 7.2 10.7 141.7 214.9 129.4 129.7 8.2 11 141.9 215.2 130.4 130.3 9.2 10 140.7 215.3 130.4 130.3 7.9 11.7 141.8 215.1 129.5 129.6 7.7 10.5 142.2 215.2 130.8 129.6 7.9 10.8 141.4 214.7 129.7 129.7 7.7 10.9 141.7 215.1 129.9 129.7 7.7 10.8 141.8 214.5 129.8 129.8 9.3 8.5 141.6 214.6 129.9 130.1 8.2 9.8 141.7 215 129.9 129.7 9 9 141.9 215.2 129.6 129.6 7.4 11.5 141.5 214.7 130.2 129.9 8.6 10 141.9 215 129.9 129.3 8.4 10 141.4 215.6 130.5 130 8.1 10.3 141.6 215.3 130.6 130 8.4 10.8 141.5 215.7 130.2 130 8.7 10 141.6 215.1 129.7 129.9 7.4 10.8 141.1 215.3 130.4 130.4 8 11 142.3 215.5 130.2 130.1 8.9 9.8 142.4 215.1 130.3 130.3 9.8 9.5 141.9 215.1 130 130 7.4 10.5 141.8 214.8 129.7 129.3 8.3 9 142 215.2 130.1 129.8 7.9 10.7 141.8 214.8 129.7 129.7 8.6 9.1 142.3 215 130 129.6 7.7 10.5 140.7 215.6 130.4 130.1 8.4 10.3 141 215.9 130.4 130 8.9 10.6 141.4 214.6 130.2 130.2 9.4 9.7 141.8 215.5 130.3 130 8.4 9.7 141.8 215.3 129.9 129.4 7.9 10 142 215.3 130.3 130.1 8.5 9.3 142.1 213.9 130.3 129 8.1 9.7 141.3 214.4 129.8 129.2 8.9 9.4 142.3 214.8 130.1 129.6 8.8 9.9 140.9 214.9 129.6 129.4 9.3 9 141.7 214.9 130.4 129.7 9 9.8 140.9 214.8 129.4 129.1 8.2 10.2 141 214.3 129.5 129.4 8.3 10.2 141.8 214.8 129.9 129.7 8.3 10.2 141.5 214.8 129.9 129.7 7.3 10.9 142 214.6 129.7 129.8 7.9 10.3 141.1 214.5 129 129.6 7.8 9.8 142 X 1 X 2 X 3 X 4 X 5 X 6 214.6 129.8 129.4 7.2 10 141.3 215.3 130.6 130 9.5 9.7 141.1 214.5 130.1 130 7.8 10.9 140.9 215.4 130.2 130.2 7.6 10.9 141.6 214.5 129.4 129.5 7.9 10 141.4 215.2 129.7 129.4 9.2 9.4 142 215.7 130 129.4 9.2 10.4 141.2 215 129.6 129.4 8.8 9 141.1 215.1 130.1 129.9 7.9 11 141.3 215.1 130 129.8 8.2 10.3 141.4 215.1 129.6 129.3 8.3 9.9 141.6 215.3 129.7 129.4 7.5 10.5 141.5 215.4 129.8 129.4 8 10.6 141.5 214.5 130 129.5 8 10.8 141.4 215 130 129.8 8.6 10.6 141.5 215.2 130.6 130 8.8 10.6 140.8 214.6 129.5 129.2 7.7 10.3 141.3 214.8 129.7 129.3 9.1 9.5 141.5 215.1 129.6 129.8 8.6 9.8 141.8 214.9 130.2 130.2 8 11.2 139.6 213.8 129.8 129.5 8.4 11.1 140.9 215.2 129.9 129.5 8.2 10.3 141.4 215 129.6 130.2 8.7 10 141.2 214.4 129.9 129.6 7.5 10.5 141.8 215.2 129.9 129.7 7.2 10.6 142.1 214.1 129.6 129.3 7.6 10.7 141.7 214.9 129.9 130.1 8.8 10 141.2 214.6 129.8 129.4 7.4 10.6 141 215.2 130.5 129.8 7.9 10.9 140.9 214.6 129.9 129.4 7.9 10 141.8 215.1 129.7 129.7 8.6 10.3 140.6 214.9 129.8 129.6 7.5 10.3 141 215.2 129.7 129.1 9 9.7 141.9 215.2 130.1 129.9 7.9 10.8 141.3 215.4 130.7 130.2 9 11.1 141.2 215.1 129.9 129.6 8.9 10.2 141.5 215.2 129.9 129.7 8.7 9.5 141.6 215 129.6 129.2 8.4 10.2 142.1 214.9 130.3 129.9 7.4 11.2 141.5 215 129.9 129.7 8 10.5 142 214.7 129.7 129.3 8.6 9.6 141.6 215.4 130 129.9 8.5 9.7 141.4 214.9 129.4 129.5 8.2 9.9 141.5 214.5 129.5 129.3 7.4 10.7 141.5 214.7 129.6 129.5 8.3 10 142 215.6 129.9 129.9 9 9.5 141.7 215 130.4 130.3 9.1 10.2 141.1 214.4 129.7 129.5 8 10.3 141.2 215.1 130 129.8 9.1 10.2 141.5 214.7 130 129.4 7.8 10 141.2 TABLE 2.1 Les doées de billets suisses authetiques. Le tableau compred 100 liges (idividus) et 6 coloes (variables). Ces variables sot décrites das la Fig. 2.1. Toutes les valeurs sot e mm.
Sectio 2.5 Résumé du Chapitre 2 33 X 1 X 2 X 3 X 4 X 5 X 6 214.4 130.1 130.3 9.7 11.7 139.8 214.9 130.5 130.2 11 11.5 139.5 214.9 130.3 130.1 8.7 11.7 140.2 215 130.4 130.6 9.9 10.9 140.3 214.7 130.2 130.3 11.8 10.9 139.7 215 130.2 130.2 10.6 10.7 139.9 215.3 130.3 130.1 9.3 12.1 140.2 214.8 130.1 130.4 9.8 11.5 139.9 215 130.2 129.9 10 11.9 139.4 215.2 130.6 130.8 10.4 11.2 140.3 215.2 130.4 130.3 8 11.5 139.2 215.1 130.5 130.3 10.6 11.5 140.1 215.4 130.7 131.1 9.7 11.8 140.6 214.9 130.4 129.9 11.4 11 139.9 215.1 130.3 130 10.6 10.8 139.7 215.5 130.4 130 8.2 11.2 139.2 214.7 130.6 130.1 11.8 10.5 139.8 214.7 130.4 130.1 12.1 10.4 139.9 214.8 130.5 130.2 11 11 140 214.4 130.2 129.9 10.1 12 139.2 214.8 130.3 130.4 10.1 12.1 139.6 215.1 130.6 130.3 12.3 10.2 139.6 215.3 130.8 131.1 11.6 10.6 140.2 215.1 130.7 130.4 10.5 11.2 139.7 214.7 130.5 130.5 9.9 10.3 140.1 214.9 130 130.3 10.2 11.4 139.6 215 130.4 130.4 9.4 11.6 140.2 215.5 130.7 130.3 10.2 11.8 140 215.1 130.2 130.2 10.1 11.3 140.3 214.5 130.2 130.6 9.8 12.1 139.9 214.3 130.2 130 10.7 10.5 139.8 214.5 130.2 129.8 12.3 11.2 139.2 214.9 130.5 130.2 10.6 11.5 139.9 214.6 130.2 130.4 10.5 11.8 139.7 214.2 130 130.2 11 11.2 139.5 214.8 130.1 130.1 11.9 11.1 139.5 214.6 129.8 130.2 10.7 11.1 139.4 214.9 130.7 130.3 9.3 11.2 138.3 214.6 130.4 130.4 11.3 10.8 139.8 214.5 130.5 130.2 11.8 10.2 139.6 214.8 130.2 130.3 10 11.9 139.3 214.7 130 129.4 10.2 11 139.2 214.6 130.2 130.4 11.2 10.7 139.9 215 130.5 130.4 10.6 11.1 139.9 214.5 129.8 129.8 11.4 10 139.3 214.9 130.6 130.4 11.9 10.5 139.8 215 130.5 130.4 11.4 10.7 139.9 215.3 130.6 130.3 9.3 11.3 138.1 214.7 130.2 130.1 10.7 11 139.4 214.9 129.9 130 9.9 12.3 139.4 X 1 X 2 X 3 X 4 X 5 X 6 214.9 130.3 129.9 11.9 10.6 139.8 214.6 129.9 129.7 11.9 10.1 139 214.6 129.7 129.3 10.4 11 139.3 214.5 130.1 130.1 12.1 10.3 139.4 214.5 130.3 130 11 11.5 139.5 215.1 130 130.3 11.6 10.5 139.7 214.2 129.7 129.6 10.3 11.4 139.5 214.4 130.1 130 11.3 10.7 139.2 214.8 130.4 130.6 12.5 10 139.3 214.6 130.6 130.1 8.1 12.1 137.9 215.6 130.1 129.7 7.4 12.2 138.4 214.9 130.5 130.1 9.9 10.2 138.1 214.6 130.1 130 11.5 10.6 139.5 214.7 130.1 130.2 11.6 10.9 139.1 214.3 130.3 130 11.4 10.5 139.8 215.1 130.3 130.6 10.3 12 139.7 216.3 130.7 130.4 10 10.1 138.8 215.6 130.4 130.1 9.6 11.2 138.6 214.8 129.9 129.8 9.6 12 139.6 214.9 130 129.9 11.4 10.9 139.7 213.9 130.7 130.5 8.7 11.5 137.8 214.2 130.6 130.4 12 10.2 139.6 214.8 130.5 130.3 11.8 10.5 139.4 214.8 129.6 130 10.4 11.6 139.2 214.8 130.1 130 11.4 10.5 139.6 214.9 130.4 130.2 11.9 10.7 139 214.3 130.1 130.1 11.6 10.5 139.7 214.5 130.4 130 9.9 12 139.6 214.8 130.5 130.3 10.2 12.1 139.1 214.5 130.2 130.4 8.2 11.8 137.8 215 130.4 130.1 11.4 10.7 139.1 214.8 130.6 130.6 8 11.4 138.7 215 130.5 130.1 11 11.4 139.3 214.6 130.5 130.4 10.1 11.4 139.3 214.7 130.2 130.1 10.7 11.1 139.5 214.7 130.4 130 11.5 10.7 139.4 214.5 130.4 130 8 12.2 138.5 214.8 130 129.7 11.4 10.6 139.2 214.8 129.9 130.2 9.6 11.9 139.4 214.6 130.3 130.2 12.7 9.1 139.2 215.1 130.2 129.8 10.2 12 139.4 215.4 130.5 130.6 8.8 11 138.6 214.7 130.3 130.2 10.8 11.1 139.2 215 130.5 130.3 9.6 11 138.5 214.9 130.3 130.5 11.6 10.6 139.8 215 130.4 130.3 9.9 12.1 139.6 215.1 130.3 129.9 10.3 11.5 139.7 214.8 130.3 130.4 10.6 11.1 140 214.7 130.7 130.8 11.2 11.2 139.4 214.3 129.9 129.9 10.2 11.5 139.6 TABLE 2.2 Les doées de billets suisses cotrefaits. Le tableau compred 100 liges (idividus) et 6 coloes (variables). Ces variables sot décrites das la Fig. 2.1. Toutes les valeurs sot e mm.
3 Rappel des bases de la statistique paramétrique Das ce chapitre, ous survolos rapidemet les bases du calcul des probabilités et de la statistique. Toutes les otios et tous les résultats présetés ci-dessous costituet les prérequis pour ce cours de «Statistique umérique et aalyse des doées». Pour ue présetatio plus détaillée des sujets traités das ce chapitre voir le polycopié du cours de 1ère aée 1 3.1 Itroductio Les problèmes statistiques que ous allos étudier das le cadre de ce module peuvet se résumer de la faço suivate : ous disposos d u jeu de doées qui sot supposées être géérées par u phéomèe aléatoire. (Rappelos que tout phéomèe aléatoire est etièremet caractérisé par sa loi de probabilité.) De plus, ous cosidéros qu u travail de modélisatio a été effectué à l issue duquel la loi de probabilité régissat les doées a été détermiée à u paramètre icou près. Das ce cotexte, les trois types de problèmes que ous allos étudier sot : estimatio : trouver ue valeur approchée du paramètre icou, régio de cofiace : détermier ue régio (aussi petite que possible) qui cotiet le paramètre icou avec ue probabilité prescrite (gééralemet 95%), test d hypothèse : pour u esemble Θ 0 de valeurs possibles du paramètre icou, décider au vu des doées si oui ou o le paramètre icou appartiet à Θ 0. Afi de faciliter la compréhesio, les différetes otios itroduites das ce chapitre serot illustrées das les deux exemples suivats. Exemple 1. (Qualité de l air) O cherche à évaluer la fréquece des jours où l idice ATMO (mesurat la qualité de l air) à Paris dépasse 2 le iveau 8. Pour avoir ue estimatio simple, o choisit au hasard jours das le passé et o regarde si oui ou o le iveau 8 a été dépassé ces jours-là. O obtiet aisi u échatillo x 1,..., x où chaque x i pred 1. B. Jourdai, Probabilités et statistique, http://cermics.epc.fr/~jourdai/probastat/poly.pdf. 2. L idice ATMO varie sur ue échelle allat de 1 (très boe) à 10 (exécrable). Lorsque la valeur de cet idice dépasse le iveau 8, la qualité de l air est cosidérée comme mauvaise.
36 Rappel des bases de la statistique paramétrique Chapitre 3 deux valeurs : 0 ou 1. Par covetio, la valeur 0 correspod à u jour où le iveau 8 a pas été dépassé. Nous modélisos le dépassemet du iveau 8 par l idice ATMO par ue variable aléatoire X de loi de Beroulli ; Proba(X = 1) = ϑ, Proba(X = 0) = 1 ϑ pour ue valeur ϑ ]0, 1[ qui ous est icoue. Cette valeur représete la fréquece moyee des jours où la qualité de l air a été mauvaise à Paris. Exemple 2. (Vitesse du vet) Afi d étudier la possibilité de l istallatio d ue cetrale éoliee sur u site doé, o cherche à estimer la probabilité de l évéemet «la vitesse du vet sur le site e questio est iférieure à 10km/h». L itérêt à l égard de cet évéemet viet du fait que, lorsque la vitesse du vet est iférieure à 10km/h, ue cetrale éoliee s arrête e raiso des forces de frottemet sec qui s opposet à la rotatio de l hélice. L approche la plus simple cosiste à modéliser la vitesse du vet sur le site e questio à u istat doé par ue variable aléatoire de loi expoetielle. E d autres termes, si X représete la vitesse du vet, o suppose que Proba(X [a, b]) = b a p(ϑ ; x) dx, p(ϑ ; x) = 1 ϑ e x/ϑ 1l [0, [ (x), où ϑ > 0 est u paramètre icou. Si l o admet que cette modélisatio est correcte, o peut calculer la probabilité de l évéemet A = «la vitesse du vet est iférieure à 10km/h» par la formule Proba(A) = 10 0 1 ϑ e x/ϑ dx = 1 e 10/ϑ. Par coséquet, ue valeur approchée de ϑ ous permettrait de calculer ue valeur approchée de la probabilité de l évéemet A. Pour pouvoir estimer ϑ, ous mesuros la vitesse du vet à istats suffisammet espacés das le temps, ce qui ous fourit les observatios x 1,..., x. Le but d u statisticie est, etre autre, d utiliser ces observatios pour estimer le paramètre ϑ. 3.2 Modèle statistique Nous commeços par doer la défiitio géérale d u modèle statistique, que ous illustros par la suite das les deux exemples présetés ci-dessus. Défiitio 3.1. O appelle modèle statistique la doée d u espace mesurable (X, F ) et d ue famille de mesures de probabilité P = {P,ϑ, ϑ Θ} défiies sur (X, F ). L espace X, appelé espace d états, est costitué de toutes les valeurs qu aurait pu predre le jeu de doées étudié. La famille P décrit l esemble des lois de probabilité pouvat avoir gééré le jeu de doées étudié. Pour u modèle statistique doé, la problématique géérale de la théorie statistique s éoce de la faço suivate : au vu d ue réalisatio x () X tiré au hasard selo ue loi P,ϑ P, étudier certaies propriétés de P,ϑ. Le plus souvet x () est u vecteur. O cherche doc à caractériser la loi d u vecteur aléatoire X () à partir d ue réalisatio x (). Bie-etedu, si l o autorise la famille P à être ue collectio quelcoque de lois sur (X, F ), la tâche de l extractio de l iformatio fiable sur la loi du vecteur aléatoire X () à partir d ue seule réalisatio est irréalisable. Afi de pouvoir élaborer ue théorie raisoable et utile pour les
Sectio 3.3 Estimatio 37 applicatios, o se restreit au cas où la famille P a ue certaie «structure». Exemples de telles structures sot le modèle à observatios i.i.d., le modèle de régressio liéaire, etc. Ce chapitre est etièremet dédié à l étude du modèle à observatios i.i.d. (idépedates et idetiquemet distribuées). Il s agit du cas où x () = (x 1,..., x ) est u vecteur das R dot les coordoées représetet copies idépedates d ue même variable aléatoire X. Cela reviet à postuler que x () est ue réalisatio du vecteur aléatoire X () = (X 1,..., X ) composé de variables aléatoires idépedates distribuées selo la même loi que X. Das ce cas, la loi de X () est etièremet caractérisée par celle de X, car Proba(X 1 A 1,..., X A ) = Proba(X 1 A 1 )... Proba(X A ) = Proba(X A 1 )... Proba(X A ) quels que soiet les itervalles A 1,..., A R. Si P désige la loi de X, o dit alors que X () est u échatillo i.i.d. de loi P. Par coséquet, pour défiir u modèle à observatios i.i.d., il suffit de décrire la famille P = {P ϑ } qui est sesée coteir la loi P de X. Les deux exemples présetés das l itroductio correspodet à des modèles à observatios i.i.d. : das le premier exemple P = {B(ϑ) : ϑ ]0, 1[} où B(ϑ) désige la loi de Beroulli de paramètre ϑ, tadis que das le deuxième exemple P = {E(ϑ 1 ) : ϑ > 0}, où E(λ) désige la loi expoetielle de paramètre λ > 0. E coséquece, das le premier exemple Θ = [0, 1] alors que das le deuxième exemple Θ =]0, [. Tout au log de ce chapitre, o appellera statistique toute foctio de l échatillo X (). 3.3 Estimatio Supposos maiteat qu o dispose d u échatillo i.i.d. X 1,..., X de loi P P = {P ϑ : ϑ Θ}. Cela veut dire que pour u ϑ Θ icou, o a X 1,..., X iid Pϑ. Par la suite, o appellera ϑ la vraie valeur du paramètre. La première questio qu o se pose est celle du calcul d ue valeur approchée de ϑ e utilisat uiquemet l échatillo observé. Défiitio 3.2. Soit X 1,..., X u échatillo i.i.d. de loi P P = {P ϑ : ϑ Θ} avec Θ R p pour u p N. O appelle estimateur de ϑ toute applicatio mesurable ϑ : R R p. Das la statistique théorique, o idetifie l applicatio ϑ au vecteur aléatoire ϑ(x 1,..., X ). U estimateur a pour objectif d approcher la vraie valeur ϑ. Cepedat, la défiitio cidessus e reflète absolumet pas cet objectif. E effet, même si ϑ(x 1,..., X ) est très éloigé de ϑ, ϑ sera appelé u estimateur si peu qu il soit mesurable. Afi de restreidre la classe de tous les estimateurs à ceux qui représetet u itérêt pratique, o spécifie des propriétés qu o aimerait voir satisfaites par u estimateur. Par la suite, pour souliger le fait que l estimateur ϑ déped de (la taille de l échatillo), o utilisera la otatio ϑ. Défiitio 3.3. O dit que l estimateur ϑ est sas biais, si E ϑ [ ϑ ] = ϑ, ϑ Θ,
38 Rappel des bases de la statistique paramétrique Chapitre 3 où l expressio E ϑ [ ϑ ] doit être lue comme «espérace du vecteur aléatoire ϑ (X 1,..., X ) sachat iid que X 1,..., X P ϑ». O dit que l estimateur ϑ est coverget (ou cosistat), s il coverge e probabilité vers la vraie valeur, c est-à-dire lim P ϑ ( ϑ ϑ > ε) = 0, ε > 0, ϑ Θ. La propriété de covergece est cetrale e statistique, car elle idique que la valeur estimée de ϑ calculée à l aide de l estimateur ϑ est proche de ϑ si la taille de l échatillo est suffisammet grade. Das beaucoup de situatios, il existe de ombreux estimateurs covergets. O s itéresse alors aux propriétés plus raffiées des estimateurs : la vitesse à laquelle ϑ ted vers ϑ et la loi asymptotique de la différece ϑ ϑ propremet ormalisée. Défiitio 3.4. O dit que l estimateur coverget ϑ est asymptotiquemet de loi P ϑ avec la vitesse γ, où γ > 0, si γ ( ϑ ϑ ) L P ϑ, ϑ Θ, où L désige la covergece e loi. Si P ϑ est la loi gaussiee N (0, σ2 ϑ ), o dit alors que ϑ est asymptotiquemet ormal avec la vitesse γ et la variace limite σ 2 ϑ. Pour démotrer la covergece et la ormalité asymptotique des estimateurs, o utilise le plus souvet les résultats probabilistes présetés das le paragraphe suivat. 3.3.1 Quelques résultats sur la covergece des variables aléatoires Soit ξ 1, ξ 2,..., ξ,... et ξ des variables aléatoires et soit F ξ (x) = P(ξ x) la foctio de répartitio de ξ, N { }. O distigue les quatre types de covergece (de {ξ } vers ξ ) suivats : 1. covergece e probabilité : pour tout ε > 0, o a lim P( ξ ξ > ε) = 0, 2. covergece presque sûr : P(lim sup ξ ξ = 0) = 1, 3. covergece e moyee quadratique : lim E[(ξ ξ ) 2 ] = 0, 4. covergece e loi : lim F ξ (x) = F ξ (x) pour tout x R tel que F ξ est cotiue e x. Rappelos que les covergeces presque sûr et e moyee quadratique etraîet la covergece e probabilité et cette derière etraîe à so tour la covergece e loi. Notos aussi que la défiitio de la covergece e loi, cotrairemet aux autres types de covergeces précitées, e sous-eted pas que les variables ξ soiet défiies sur le même espace probabilisé. Théorème 3.1 (Loi forte des grads ombres). Soit X 1,..., X des variables aléatoires i.i.d. itégrables : E[ X 1 ] <. Alors, X = 1 où p.s. désige la covergece presque-sûr. p.s. X i E[X 1 ], lorsque, i=1 Théorème 3.2 (Théorème de la limite cetrale). Soit X 1,..., X des variables aléatoires i.i.d. de carré itégrables : E[X 2 1 ] <. Alors, (X E[X 1 ]) L N (0, Var[X 1 ]), lorsque.
Sectio 3.3 Estimatio 39 Théorème 3.3 (Méthode delta). Soit X 1,..., X des variables aléatoires i.i.d. de carré itégrables et soit G ue foctio cotiûmet différetiable sur u esemble ouvert A tel que P(X 1 A) = 1. Alors, ( G(X ) G(E[X 1 ]) ) L N (0, σ 2 ), lorsque, avec la variace limite σ 2 = G (E[X 1 ]) 2 Var[X 1 ]. Ces résultats se gééraliset à ue suite de vecteurs aléatoires, auquel cas la variace est remplacée par la matrice de covariace Var[X 1 ] = E[X 1 X1 ] E[X 1]E[X1 ] et la variace limite das la méthode delta est doée par σ 2 = G(E[X 1 ]) Var[X 1 ] G(E[X 1 ]). Théorème 3.4 (Théorème de Slutsky). Soit {ξ } N {η } N deux suites de variables aléatoires défiies sur le même espace probabilisé. Si pour ue costate a R et pour ue variable aléatoire ξ o a L ξ ξ P, et η a alors ξ + η L ξ L + a, et ξ η aξ. 3.3.2 Estimateur du maximum de vraisemblace Après avoir vu ce que c est u estimateur et quelles sot les propriétés souhaitées d u estimateur, o s itéresse aturellemet à la mise e place d ue procédure géérique permettat la costructio d u estimateur pour ue large classe de modèles. O se focalise ici sur la méthode d estimatio la plus utilisée : le maximum de vraisemblace. De plus, pour éviter le rappel de otios abstraites (absolue cotiuité, théorème de Rado-Nykodim) de la théorie de la mesure, o e doera pas la défiitio de l estimateur du maximum de vraisemblace (EMV) das le cas le plus gééral des modèles domiés, mais seulemet das le cadre des modèles i.i.d. discrets et à desité. Défiitio 3.5. O dira que le modèle à observatios i.i.d. {P ϑ : ϑ Θ} est discret, s il existe u esemble A = {a 1, a 2,...} au plus déombrable tel que P ϑ (A) = 1 pour tout ϑ Θ. E d autres termes, l esemble A cotiet toutes les valeurs possibles prises par les variables de l échatillo. L exemple 1 cosidéré au début de ce chapitre porte sur u modèle discret, car les variables aléatoires costituat l échatillo sot des variables de Beroulli et, par coséquet, preet leurs valeurs das l esemble fii {0, 1}. O caractérise u modèle discret par les probabilités discrètes p(ϑ; a k ) = Proba(X i = a k ), a k A où X 1,..., X iid Pϑ. (3.1) Défiitio 3.6. O dira que le modèle à observatios i.i.d. {P ϑ : ϑ Θ} est à desité, si pour tout ϑ Θ il existe ue foctio (appelée desité) p(ϑ; ) : R R telle que pour tout a, b R. P ϑ ([a, b]) = Proba(X i [a, b]) = b a p(ϑ; x) dx, où X i P ϑ, (3.2)
40 Rappel des bases de la statistique paramétrique Chapitre 3 Défiitio 3.7. Soit P = {P ϑ : ϑ Θ} u modèle i.i.d. discret ou à desité et soit p(ϑ, x) la foctio défiie par (3.1) das le cas discret et par (3.2) das le cas à desité. O appelle foctio de vraisemblace l applicatio p : Θ R R +, p (ϑ; x 1,..., x ) = p(ϑ; x i ). (3.3) i=1 O appelle estimateur du maximum de vraisemblace (EMV), oté ˆϑ MV, le poit du maximum global (s il existe) de l applicatio ϑ p (ϑ, X 1,..., X ). O écrit alors ˆϑ MV 3.3.3 L EMV das l exemple 1 = arg max ϑ Θ p (ϑ; X 1,..., X ). Das l exemple 1 portat sur la qualité de l air, o dispose d u échatillo i.i.d. X 1,..., X de loi de Beroulli B(ϑ ) avec ϑ Θ =]0, 1[. Il s agit d u modèle discret avec A = {0, 1} et { ϑ, si x = 1, p(ϑ; x) = 1 ϑ, si x = 0. O vérifie facilemet que cela équivaut à p(ϑ; x) = ϑ x (1 ϑ) 1 x, x {0, 1}. Par coséquet, la foctio de vraisemblace s écrit comme p (ϑ; x 1,..., x ) = i=1 ϑ x i (1 ϑ) 1 x i = ϑ i x i (1 ϑ) i x i. O remarque d abord que la foctio de vraisemblace est strictemet positive sur ]0, 1[. Il e résulte qu o peut remplacer le problème de maximisatio de p par celui de maximisatio de l = log p : ˆϑ MV = arg max ϑ ]0,1[ log p (ϑ; X 1,..., X ) = arg max ϑ ]0,1[ où X = 1 i X i. O vérifie aisémet que la foctio l (ϑ) = X log ϑ + (1 X) log(1 ϑ), { } X log ϑ + (1 X) log(1 ϑ), appelée foctio de log-vraisemblace est strictemet cocave sur ]0, 1[ et que X est le seul poit où la dérivée de l s aule. Or, si la dérivée d ue foctio cocave s aule e u poit alors c est le poit de maximum global. Il e découle que das le modèle de Beroulli ˆϑ MV = X. Par la liéarité de l espérace, o motre que cet estimateur est sas biais : E ϑ [X] = 1 E ϑ [X i ] = 1 ϑ = ϑ, ϑ [0, 1]. i=1 i=1 De plus, c est u estimateur cosistat et asymptotiquemet ormal de vitesse 1/ et de variace limite ϑ(1 ϑ). La courbe de la foctio de log-vraisemblace l pour trois échatillos i.i.d. de loi B(1/2) est représetée das la Figure 3.1. O y voit clairemet la ature aléatoire de l estimateur du maximum de vraisemblace, qui est dû au fait que l échatillo a été obteu par u tirage aléatoire.
Sectio 3.3 Estimatio 41 FIGURE 3.1 Modèle de Beroulli : la foctio de log-vraisemblace et so maximum global. Les trois courbes représetet la log-vraisemblace pour trois échatillos différets de taille 40. La vraie valeur du paramètre das les trois cas est ϑ = 1/2. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = 0.5 ; 0.55 ; 0.425. 3.3.4 L EMV das l exemple 2 Das l exemple 2 portat sur la vitesse du vet, o dispose d u échatillo i.i.d. X 1,..., X de loi Expoetielle E(1/ϑ ) avec ϑ Θ =]0, + [. Il s agit d u modèle à desité avec : O e déduit la foctio de vraisemblace p (ϑ; x 1,..., x ) = p(ϑ; x) = ϑ 1 e x/ϑ 1l [0, [ (x). i=1 { ϑ 1 e xi/ϑ = ϑ exp 1 ϑ } x i i=1 pour tout x 1,..., x 0. Comme o sait que l échatillo X 1,..., X est gééré par ue loi expoetielle, P(X i 0; i = 1,..., ) = 1. O a doc la foctio de log-vraisemblace l (ϑ) = (log ϑ + ϑ 1 X), ϑ > 0. Cette foctio est pas cocave sur R +, mais o vérifie aisémet qu elle est croissate sur ]0, X] et décroissate sur [X, + [. Il e découle que X est le poit de maximum global de l, ce qui etraîe que ˆϑ MV = X. Comme das l exemple précédet, ici aussi l estimateur X est sas biais. De plus, e vertu de la loi forte des grads ombres et du théorème de la limite cetrale, X est cosistat et asymptotiquemet ormal de vitesse 1/2 et de variace limite ϑ 2, c est-à-dire (X ϑ ) L N (0, ϑ 2 ). Remarque 3.1. Das les deux exemples précédets la méthode du maximum de vraisemblace ous a coduit à des estimateurs sas biais, cosistats et asymptotiquemet ormaux de vitesse 1/2. O peut aturellemet se demader si ces propriétés sot caractéristiques aux deux modèles cosidérés ou si elles restet valables das u cadre plus gééral. Nous e doeros pas ici ue répose exhaustive à cette questio, mais seulemet quelques élémets de répose : - l EMV est e gééral pas sas biais (o dit qu il est biaisé), mais so biais ted vers zéro lorsque sous certaies coditios de régularité ; - il existe des coditios de régularité assez faibles sur l applicatio (ϑ, x) p(ϑ; x) garatissat la cosistace de l EMV aisi que sa ormalité asymptotique avec la vitesse 1/2.
42 Rappel des bases de la statistique paramétrique Chapitre 3 FIGURE 3.2 Modèle expoetiel : la foctio de log-vraisemblace et so maximum global. Les trois courbes représetet la log-vraisemblace pour trois échatillos différets de taille 40. La vraie valeur du paramètre das les trois cas est ϑ = 20. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = 17.48 ; 22.61 ; 14.84. 3.3.5 U exemple de modèle irrégulier : modèle uiforme Pour se covaicre que l EMV est pas toujours sas biais et qu il peut coverger à ue vitesse différete de 1/2, cosidéros le modèle suivat. O dispose d u échatillo i.i.d. X 1,..., X de loi uiforme sur l itervalle [0, ϑ ], otée U([0, ϑ ]). Le paramètre icou ϑ est supposé apparteir à l esemble R +. C est u modèle à desité avec p(ϑ; x) = 1 ϑ 1l [0,ϑ](x). Par coséquet, la foctio de vraisemblace a la forme p (ϑ; x 1,..., x ) = 1 ϑ { 1, si x i [0, ϑ] i, 0, sio où x () = max i=1,..., x i. L EMV est doc défii par = ϑ 1l [x(),+ [(ϑ), ˆϑ MV = arg max ϑ>0 ϑ 1l [X(),+ [(ϑ) = X () (= max 1 i X i). Vérifios d abord que X () est biaisé. Pour cela, o itroduit l évéemet A = {X 1 ϑ /2;... X ϑ /2} qui vérifie P ϑ (A) = (1/2) > 0. Comme sur cet évéemet X () ϑ /2, o a Il e résulte que ˆϑ MV E ϑ [X () ] = E ϑ [X () 1l A ] + E ϑ [X () 1l A c] 1 2 ϑ P ϑ (A) + ϑ P ϑ (A c ) = ϑ 1 2 ϑ P ϑ (A) < ϑ. = X () est u estimateur biaisé. Exercice 3.1. Soit X 1,..., X iid U([0, ϑ ]) avec ϑ ]0, + [ et soit ˆϑ MV = X ().
Sectio 3.4 Itervalle de cofiace 43 FIGURE 3.3 Modèle uiforme : la foctio de vraisemblace et so maximum global. Les trois courbes représetet la vraisemblace pour trois échatillos différets de taille 10. La vraie valeur du paramètre das les trois cas est ϑ = 1. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = 0.98 ; 0.95 ; 0.87. 1. Vérifier que la foctio de répartitio F de X () est doée par 0, si x ], 0], F (ϑ, x) = (x/ϑ ), si x ]0, ϑ ], 1, si x ]ϑ, + ]. E déduire la desité de ˆϑ MV. 2. Vérifier que la quatité B (ϑ ) = E ϑ [ ˆϑ MV ] ϑ, appelée le biais de ˆϑ MV, est égale à ϑ /( + 1). 3. E utilisat la défiitio de la covergece e loi, prouver que ˆϑ MV loi expoetielle E(1/ϑ ) avec la vitesse 1/, c est-à-dire 3.4 Itervalle de cofiace (ϑ ˆϑ MV L ) E(1/ϑ ). est asymptotiquemet de La méthode du maximum de vraisemblace ous permet de calculer ue estimatio de la vraie valeur du paramètre. Cepedat, ayat calculé cette estimatio, o peut aturellemet s iterroger sur sa qualité. Ue faço largemet répadue pour décrire la qualité de l estimatio cosiste à fourir u itervalle de cofiace ou, plus gééralemet, ue régio de cofiace. Défiitio 3.8. Soit X 1,..., X u échatillo i.i.d. de loi P ϑ avec ϑ Θ R p. O appelle régio de cofiace de iveau prescrit 1 α, avec α [0, 1], tout sous-esemble I = I(X 1,..., X ) de R p tel que P ϑ ( I cotiet ϑ ) 1 α, ϑ Θ. (3.4) Si p = 1 et I est u itervalle, o l appelle itervalle de cofiace. Si au lieu d avoir (3.4) pour fixé, o l a de faço asymptotique, c est-à-dire lim P ϑ ( I cotiet ϑ ) 1 α, ϑ Θ, (3.5) alors o dit que I est ue régio de cofiace de iveau asymptotique 1 α.
44 Rappel des bases de la statistique paramétrique Chapitre 3 La démarche géérale pour costruire u itervalle de cofiace peut se résumer de la maière suivate. 1. O détermie u estimateur cosistat ϑ ; das la plupart des cas, la loi de ϑ est cocetrée autour de la vraie valeur ϑ. 2. O cherche u δ = δ(x 1,..., X ) > 0 tel que et l o défiit I = [ ϑ δ, ϑ + δ ]. P ϑ ( ϑ ϑ > δ ) α, ϑ Θ, Remarque 3.2. Si la loi de ϑ ϑ est fortemet asymétrique, o remplace la secode étape par la recherche de deux variables aléatoires δ = δ(x 1,..., X ) > 0 et δ = δ (X 1,..., X ) > 0 telles que ( P ϑ ϑ ϑ ) α < δ 2, et P ( ϑ ϑ ϑ > δ ) α 2, pour tout ϑ Θ, et l o défiit I = [ ϑ δ, ϑ + δ ]. Afi de clarifier le schéma préseté ci-dessus, cosidéros deux exemples. 3.4.1 Modèle de Beroulli : itervalle de cofiace par excès Rappelos que das l exemple 1 portat sur la qualité de l air, o dispose de variables i.i.d. de loi B(ϑ ) avec ϑ ]0, 1[. Nous avos déjà vu que l EMV ˆϑ MV = X est cosistat das ce modèle. O cherche doc u δ tel que D après l iégalité de Tchebychev, o a P ϑ ( X ϑ > δ ) α, ϑ ]0, 1[. (3.6) P ϑ ( X ϑ ) E > δ ϑ [(X ϑ ) 2 ] δ 2. Or, comme X est sas biais, il viet E ϑ [(X ϑ ) 2 ] = Var ϑ (X ) = [ ] Var ϑ i=1 X i 2 = ϑ (1 ϑ ). E combiat les deux iégalités précédetes avec l iégalité élémetaire ab (a + b) 2 /4, o obtiet ( P ϑ X ϑ ) ϑ > (1 ϑ ) δ δ 2 1 4δ 2. Il e résulte qu e choisissat δ 2 = 1/(4α), l iégalité (3.6) sera satisfaite. Par coséquet, I = [ X 1 2 α ; X + 1 ] 2 α est u itervalle de cofiace (IC) de iveau 1 α pour ϑ. O remarque que le δ qu o a trouvé est pas aléatoire. E d autres termes, la logueur de l IC e déped pas de l échatillo qu au travers de sa taille.
Sectio 3.4 Itervalle de cofiace 45 FIGURE 3.4 A gauche : les itervalles de cofiace de iveau 90% pour ϑ = 0.25 das le modèle de Beroulli. O a tiré au hasard 40 échatillos de taille 400. E particulier, o remarque sur le graphe ci-dessus que tous les 40 itervalles cotieet la valeur 0.25 et sot tous de même taille. A droite : les itervalles de cofiace de iveau 90% pour ϑ = 5 das le modèle expoetiel. O remarque que sur 40 échatillos de taille 400 tirés au hasard, 4 fois l itervalle de cofiace calculé e cotiet pas la vraie valeur. 3.4.2 Modèle expoetiel : itervalle de cofiace asymptotique Cosidéros maiteat l exemple de modèle expoetielle : X 1,..., X iid E(1/ϑ ), ϑ ]0, [. Nous avos vu que das cet exemple l EMV de ϑ est la moyee empirique X. De plus, e vertu de la loi des grads ombres X est u estimateur cosistat. O cherche doc u itervalle de cofiace sous la forme [X δ, X + δ ]. Das ce cas, il est impossible d appliquer la stratégie utilisée das l exemple précédet, car la variace de X égale à ϑ 2 / est pas borée sur Θ =]0, + [. Supposos que la taille de l échatillo est suffisammet grade. O peut alors utiliser ue approximatio de la loi de X par ue loi ormale, car e vertu du théorème de la limite cetrale (TLC), (X ϑ L ) N (0, ϑ 2 ). (L utilisatio du TLC est justifiée puisque E ϑ [X2 1 ] = Var ϑ [X 1] + (E ϑ [X 1 ]) 2 = 2ϑ 2 <.) Cela implique que ( ) X ϑ 1 L N (0, 1) et, par coséquet, ( ( ) ) lim P X ϑ ϑ 1 A = P(ξ A), A B R, où ξ N (0, 1). O peut démotrer que le plus petit esemble A tel que P(ξ A) = 1 α pour ξ N (0, 1) est A = [ q1 α/2 N, qn 1 α/2 ] où qn 1 α/2 désige le quatile d ordre 1 α/2 de
46 Rappel des bases de la statistique paramétrique Chapitre 3 FIGURE 3.5 La courbe de la desité de la loi ormale cetrée réduite et les quatiles d ordre 1 α/2. la loi ormale cetrée réduite (voir la Figure 3.5). E choisissat A de cette faço, o obtiet ( ( ) ) lim P X ϑ ϑ 1 [ q N1 α/2, qn1 α/2 ] = 1 α. Pour coclure, il suffit de remarquer que ( ) X ϑ 1 [ q1 α/2 N, qn 1 α/2 ] X [ ϑ 1 qn 1 α/2 [ ϑ O e déduit que [ ] X I = 1 + (q1 α/2 N / ), X 1 (q1 α/2 N / ) est u itervalle de cofiace de iveau asymptotique 1 α pour ϑ. ], 1 + qn 1 α/2 X 1 + (q N 1 α/2 / ), X 1 (q N 1 α/2 / ) Exercice 3.2. Soit X 1,..., X u échatillo i.i.d. de loi E(1/ϑ ) avec ϑ ]0, [. 1. Prouver que 2. E déduire que Ĩ = est i IC de iveau asymptotique α pour ϑ. (X ϑ L ) N (0, 1). X ( ) ( )] [X 1 qn 1 α/2, X 1 + qn 1 α/2 3. Démotrer que, pour les grades valeurs de, les itervalles I et Ĩ sot très proches. Plus précisémet, motrer que si qn 1 α/2 1/2 alors I \ Ĩ + Ĩ \ I Ĩ 2qN 1 α/2. Exercice 3.3. Vérifier que, das le modèle de Beroulli X 1,..., X iid B(ϑ ), [ Ĩ = X qn 1 α/2 ; X + qn ] 1 α/2 est u itervalle de cofiace de iveau asymptotique 1 α pour le paramètre ϑ ].
Sectio 3.5 Test d hypothèses 47 3.5 Test d hypothèses O termie ce chapitre par u rappel très succict des tests d hypothèses. O se place toujours das le cotexte des modèles à observatios i.i.d., où u échatillo X 1,..., X de loi P ϑ sur R est à otre dispositio, mais le paramètre ϑ Θ est icou. Le but des tests statistiques est de désiger des procédures automatiques qui, pour u sous-esemble (propre) Θ 0 Θ doé, permettet de décider avec ue probabilité d erreur cotrôlée si oui ou o l hypothèse «Θ 0 cotiet ϑ» est satisfaite. 3.5.1 Défiitios pricipales O est doc itéressé par tester l hypothèse H 0 : ϑ Θ 0 cotre H 1 : ϑ Θ c 0 = Θ \ Θ 0. (3.7) O dit que H 0 est l hypothèse ulle et H 1 est l hypothèse alterative. La décisio quat au rejet (ou pas) de l hypothèse ulle doit bie-etedu être prise au vu de l échatillo observé. Par coséquet, ue procédure de test peut être cosidérée comme ue partitio de l esemble R (c est l esemble des valeurs prises par l échatillo) e deux classes. Si l échatillo observé appartiet à la première classe de la partitio, o rejette l hypothèse ulle, sio o l accepte. Ce raisoemet ous coduit à la défiitio suivate. Défiitio 3.9. O appelle régio critique ou régio de rejet, otée R, toute partie mesurable de R. La procédure de test associée à la régio critique R cosiste à - rejeter H 0 si (x 1,..., x ) R, - e pas rejeter H 0 si (x 1,..., x ) R. Lorsqu o effectue u test e utilisat ue procédure basée sur la régio critique R, deux types d erreurs sot possibles. L erreur de première espèce cosiste à rejeter à tort l hypothèse H 0. Par oppositio, l erreur de deuxième espèce cosiste à accepter à tort l hypothèse H 0. Comme la décisio est prise au vu d u échatillo aléatoire, chacue de ces deux erreurs a ue certaie probabilité (gééralemet o ulle) d être commise. Défiitio 3.10. Le risque de première espèce d ue procédure de test R, oté α(r ) est la plus grade valeur atteite par la probabilité de commettre l erreur de première espèce : ( ) α(r ) = sup P ϑ (X1,..., X ) R. ϑ Θ 0 De la même faço, le risque de deuxième espèce d ue procédure de test R, oté β(r ) est la plus grade valeur atteite par la probabilité de commettre l erreur de deuxième espèce : ( ) β(r ) = sup P ϑ (X1,..., X ) R. ϑ Θ 0 O appelle puissace d ue procédure de test R l applicatio qui à chaque valeur ϑ Θ 0 associe la probabilité de rejeter H 0 : π R (ϑ) = P ϑ ( (X1,..., X ) R ). E utilisat ce vocabulaire, ue procédure de test R serait idéale si les risques de première et de deuxième espèce étaiet tous les deux égaux à zéro : α(r ) = β(r ) = 0. Malheureusemet, sauf das des cas très spécifiques, il existe pas de procédure idéale et o doit se coteter par des procédures dot les risques sot cotrôlés.
48 Rappel des bases de la statistique paramétrique Chapitre 3 Défiitio 3.11. Soit α ]0, 1[ ue valeur doée. Ue procédure de test R est dite de iveau α si so risque de première espèce e dépasse pas le iveau α : α(r ) α. O dit que R est asymptotiquemet de iveau α si lim α(r ) α. Il existe e gééral u grad ombre de procédures de test de iveau α. L ue des approches les plus répadues pour départager deux procédures de iveau α est de doer la préférece à celle dot la puissace est plus grade partout sur Θ0 c. Das la même logique, u test de iveau asymptotique α est dit coverget (et cosidéré comme u bo test) si pour tout ϑ Θ 0 fixé, la puissace π R (ϑ) ted vers 1. Même si l évaluatio de la puissace est ue étape importate das l étude d ue procédure de test, ous avos fait le choix de e pas approfodir cette questio das ce cours. 3.5.2 Stratégie géérale Nous présetos ici u schéma géérique qui compred la plupart des stratégies usuelles de costructio des procédures de test pour le problème (3.7). Il s agit d effectuer les étapes suivates : 1. Détermier u estimateur cosistat, oté ˆϑ, du paramètre icou ϑ. 2. Détermier ue foctio T : R Θ R telle que (a) pour tout ϑ Θ, la foctio u T(ϑ + u, ϑ ) est cotiue et e s aule qu e 0, c est-à-dire T(ϑ + u, ϑ ) = 0 si et seulemet si u = 0. (b) La loi de la variable aléatoire T( ˆϑ, ϑ ) e déped pas de ϑ. 3. Défiir, pour deux valeurs réelles a, b telles que a 0 b, R = {(x 1,..., x ) : T( ˆϑ, ϑ) [a, b] ϑ Θ 0 }. 4. Choisir a et b de telle sorte que R soit de iveau α. La justificatio de cette stratégie est simple. La foctio T joue le rôle d ue distace (sigée) etre l estimateur et les valeurs possibles du paramètre icou ϑ. Comme ˆϑ est cosistat et T est cotiue par rapport à la première variable, o a T( ˆϑ, ϑ ) T(ϑ, ϑ ) = 0. Par coséquet, si l hypothèse ulle H 0 : ϑ Θ 0 est vraie, il existe u élémet ϑ de Θ 0 tel que T( ˆϑ, ϑ) se trouve das u voisiage de 0. Cela ous coduit à accepter H 0 si T( ˆϑ, ϑ) [a, b] pour u élémet ϑ Θ 0 et de la rejeter das le cas cotraire. D où la défiitio de la régio critique ci-dessus. Remarque 3.3 (Loi symétrique). Das la plupart des exemples que ous allos cosidérer par la suite, la loi de la variable aléatoire T( ˆϑ, ϑ ) sera symétrique par rapport à zéro. O predra alors a = b et o pourra réécrire R sous la forme R = {(x 1,..., x ) : mi ϑ Θ 0 T( ˆϑ, ϑ) > b}. Remarque 3.4 (Test asymptotique). Si o cherche u test de iveau asymptotique α, la coditio 2(b) peut être remplacée par la suivate : pour tout ϑ Θ 0, la variable aléatoire T( ˆϑ, ϑ ) coverge e loi vers ue variable aléatoire dot la loi e déped pas de ϑ.
Sectio 3.5 Test d hypothèses 49 3.5.3 P-value d u test Lorsqu o effectue u test statistique, o a souvet evie de quatifier l évidece ou la pertiece de la decisio dictée par le test. La otio qui ous permet d atteidre cet objectif est la p-value d u test. Afi de motiver la défiitio rigoureuse de la p-value doée ci-dessous, remarquos que la majorité des tests peut être écrite comme R,α = { (x 1,..., x ) : S (x 1,..., x ) C α } où S est ue statistique de test et C α est u ombre réel appelé seuil critique du test. Ici, o a ajouté u idice α à la régio critique R pour souliger le fait que le test est de iveau α. Cosidéros le cas où ( ) sup P ϑ (X1,..., X ) R,α = α. ϑ Θ 0 Ituitivemet, il est claire que la régio R,α grossit lorsque α augmete. Il existe doc ue valeur α pour laquelle R,α cotiet la réalisatio observée x 1,..., x, alors que pour tous les α < α R,α e cotiet pas la réalisatio observée. Cette valeur α est appelée p-value du test R,α. Défiitio 3.12. O appelle p-value d u test R = R,α, otée α (R ), la plus petite valeur de α pour laquelle le test R rejette l hypothèse H 0. E pratique, si la p-value d u test est iférieure à 5%, alors l hypothèse H 0 sera rejeté au seuil de 5%. De plus, ue p-value très petite traduit l évidece de la décisio cocerat le rejet de H 0. 3.5.4 Exemple 1 : test bilatéral das le modèle de Beroulli O observe X 1,..., X iid B(ϑ ) et o cherche à tester l hypothèse cotre l alterative bilatérale H 0 : ϑ = ϑ 0 H 1 : ϑ = ϑ 0 où ϑ 0 = 10%. E suivat le schéma géérique, o utilise comme estimateur de ϑ la proportio empirique X = 1 i=1 X i. D après le théorème de la limite cetrale, o a (X ϑ ) ou ecore (X ϑ ) ϑ (1 ϑ ) Par coséquet, o pose et T(X, ϑ) = L N (0, ϑ (1 ϑ )) L N (0, 1). (X ϑ) ϑ(1 ϑ) R = {(x 1,..., x ) : T(X, ϑ 0 ) > b}. Pour que R soit de iveau α, il faut que lim P ϑ0 ( T(X, ϑ 0 ) > b) α. Or, la covergece e loi établie ci-dessus implique que lim P ϑ 0 ( T(X, ϑ 0 ) > b) = P( ξ > b), ξ N (0, 1).
50 Rappel des bases de la statistique paramétrique Chapitre 3 Par coséquet, o choisit b de telle sorte que la probabilité de l évéemet ξ > b soit égale à α. Cela ous coduit vers b = q1 α/2 N (voir la Figure 3.5). Nous avos doc costruit la procédure de test suivat : - o rejette H 0 : ϑ = ϑ 0, avec ϑ 0 = 10%, si (X ϑ 0 ) ϑ0 (1 ϑ 0 ) > qn 1 α/2 X 0.1 > 0.3 qn 1 α/2. - o e rejette pas H 0 si l iégalité ci-dessus est pas satisfaite. 3.5.5 Exemple 2 : test uilatéral das le modèle expoetiel Plaços-ous maiteat das la situatio où o observe X 1,..., X iid E(1/ϑ ) et o cherche à tester l hypothèse H 0 : ϑ ϑ 0 cotre l alterative uilatérale H 1 : ϑ < ϑ 0 avec, par exemple, ϑ 0 = 2. Comme das l exemple précédet, o utilise l EMV de ϑ qui est autre que la moyee empirique ˆϑ MV = X et qui vérifie (X ϑ L ) N (0, ϑ 2 ) e vertu du théorème de la limite cetrale. Posos (X ϑ) T(X, ϑ) = et R = { (x 1,..., x ) : mi T(X, ϑ) > b }. ϑ ϑ ϑ 0 O vérifie aisémet que mi ϑ ϑ 0 T(X, ϑ) > b ϑ 1 X 1 > b 1/2, ϑ ϑ 0 X < ϑ 0 (1 b 1/2 ). O veut doc détermier b de telle sorte que ( ) lim sup P ϑ X < ϑ 0 (1 b 1/2 ) ϑ ϑ 0 O peut vérifier que la loi de X /ϑ est absolumet cotiue et e déped pas de ϑ, ce qui implique que ( ) ( sup P ϑ X < ϑ 0 (1 b 1/2 ϑ0 (1 b ) = 1/2 ) ) sup F X /ϑ ϑ ϑ 0 ϑ ϑ 0 ϑ ( = F X /ϑ 1 b 1/2 ) = P ϑ (X /ϑ < 1 b 1/2) = P ϑ ( (X ϑ ) ϑ = α. ) < b P(ξ < b) = P(ξ > b) = 1 P(ξ b) où ξ N (0, 1). Pour que le test soit de iveau asymptotique α, o choisit b = q N 1 α. E coclusio, ous rejetos l hypothèse H 0 : ϑ ϑ 0 si et seulemet si X < ϑ 0 (1 qn 1 α ).
Sectio 3.7 Exercices 51 3.6 Exercices Exercice 1. O observe u échatillo X 1,..., X de loi double expoetielle traslatée. C està-dire, X 1,..., X iid Pϑ où ϑ R et P ϑ a pour desité la foctio p(ϑ, x) = 1 2 e x ϑ, x R. 1. Vérifier que p(ϑ, ) est bie ue desité de probabilité et prouver que la médiae empirique de l échatillo X 1,..., X est l EMV de ϑ. 2. Motrer que la moyee empirique de l échatillo est u estimateur cosistat et asymptotiquemet ormal de ϑ. 3. O suppose que est grad et o admet le résultat suivat : si X 1,..., X sot i.i.d. de desité p dot la médiae est ϑ, alors la médiae empirique Me de l échatillo X 1,..., X vérifie 2p(ϑ ) ( Me ϑ L ) N (0, 1). Au vu de ce résultat et de celui de la questio 2, lequel des deux estimateurs Me et X préféreriez-vous. Exercice 2. Soiet X 1,..., X des variables i.i.d. de loi expoetielle E(1/ϑ ) avec ϑ > 0. 1. Motrer que la foctio T(x, ϑ) = (x ϑ)/ϑ vérifie les coditios 2(a) et 2(b) (voir paragraphe 3.5.2) avec ˆϑ = X. 2. E déduire u test d hypothèse H 0 : ϑ = 1 cotre H 1 : ϑ = 1. 3.7 Résumé du Chapitre 3 3.7.1 Modèle statistique 1. Défiitio : o appelle modèle statistique le triplet (X, F, {P,ϑ, ϑ Θ}), où X est l espace d états et Θ est l espace des paramètres. La problématique statistique est alors la suivate : ayat observé u élémet x () de X tiré au hasard selo la loi P,ϑ (avec u ϑ que l o igore), caractériser la loi P,ϑ. 2. Modèle à observatios i.i.d. : x () est ue réalisatio d u vecteur aléatoire X () = (X 1,..., X ) dot les coordoées sot des variables aléatoires idépedates et idetiquemet distribuées (i.i.d.). 3. Modèle discret : u modèle à observatios i.i.d. tel que X 1 pred ces valeurs das u esemble fii ou déombrable, oté A = {a 1, a 2,...}. U modèle discret est caractérisé par les valeurs p(ϑ; a k ) = P ϑ (X 1 = a k ). 4. Modèle à desité : u modèle à observatios i.i.d. tel que X 1 admet ue desité par rapport à la mesure de Lebesgue, oté p(ϑ; x). Cela équivaut à P ϑ (X 1 I) = p(ϑ; x) dx I pour tout itervalle I et tout ϑ Θ. 5. Echatillo : le vecteur aléatoire dot o a observé ue réalisatio. Das le modèle à observatios i.i.d., c est simplemet ue suite X 1,..., X de variables aléatoires i.i.d. de loi P ϑ. 6. Statistique : toute variable aléatoire de forme Y = g(x 1,..., X ) où g est ue foctio mesurable.
52 Rappel des bases de la statistique paramétrique Chapitre 3 7. Vraisemblace : pour u modèle à observatios i.i.d., qu il soit discret ou à desité, la foctio de vraisemblace est doée par la formule : p (ϑ; x 1,..., x ) = p(ϑ; x i ). i=1 Pour u modèle discret, p(ϑ; x i ) est la probabilité de la valeur x i si la vraie valeur du paramètre est ϑ. Pour u modèle à desité, p(ϑ; x i ) est la valeur de la desité, lorsque la vraie valeur du paramètre est ϑ, évaluée au poit x i. 8. Log-vraisemblace : état doé les observatios X 1,..., X, la log-vraisemblace est : l (ϑ) = log p (ϑ; X 1,..., X ) = i=1 log p(ϑ; X i ). Cette foctio peut predre la valeur si l argumet du log s aule. 3.7.2 Estimatio Pour u échatillo X 1,..., X doé, o appelle estimateur toute statistique des X 1,..., X : ˆϑ = g (X 1,..., X ). 1. Estimateur sas biais : E ϑ [ ˆϑ ] = ϑ pour tout ϑ. 2. Estimateur coverget (cosistat) : ˆϑ P ϑ si X 1,..., X iid Pϑ. 3. Estimateur asymptotiquemet ormal (de vitesse 1/ et de variace limite σϑ 2 ) : ( ˆϑ ϑ loi ) N (0, σ2 ϑ ). 4. Estimateur du maximum de vraisemblace : la valeur du paramètre ϑ qui maximise la vraisemblace p (ϑ; X 1,..., X ) ou, de faço équivalete, la log-vraisemblace l (ϑ), est appelée estimateur du maximum de vraisemblace et est otée ˆϑ MV. 3.7.3 Itervalle de cofiace 1. Itervalle de cofiace de iveau 1 α : o dit que l itervalle I qui déped de l échatillo X 1,..., X est u itervalle de cofiace de iveau 1 α pour le paramètre ϑ, si P ϑ (ϑ I) 1 α. Si cette iégalité est stricte, o parle d u itervalle de cofiace par excès. 2. Itervalle de cofiace de iveau asymptotique 1 α : o dit que l itervalle I qui déped de l échatillo X 1,..., X est u itervalle de cofiace de iveau asymptotique 1 α pour le paramètre ϑ, si 3 lim P ϑ (ϑ I ) 1 α. 3. Exemple géérique : si ˆϑ est u estimateur cosistat de ϑ tel que ( ˆϑ ϑ ) N (0, σϑ 2 ) et l applicatio ϑ σϑ 2 est cotiue, alors [ ] I = ˆϑ σˆϑ q N 1 α/2 ; ˆϑ + σˆϑ q N 1 α/2 loi est u itervalle de cofiace de iveau asymptotique 1 α pour ϑ. Ici, q N 1 α/2 désige le quatile d ordre 1 α/2 de la loi ormale cetrée réduite : N (0, 1). 3. La limite ici est e réalité ue limité iférieure
Sectio 3.7 Résumé du Chapitre 3 53 3.7.4 Test d hypothèses O cherche à tester l hypothèse ulle H 0 : ϑ Θ 0 cotre l alterative H 1 : ϑ Θ 1. 1. O dit que l hypothèse H 0 est simple, si Θ 0 e cotiet qu u seul élémet :Θ 0 = {ϑ 0 }. Ue hypothèse qui est pas simple est dite composite. 2. Régio critique ou régio de rejet : o appelle régio critique d u test l esemble R des valeurs possibles de l échatillo pour lesquelles l hypothèse ulle est rejetée. 3. Erreur de première espèce : le fait de rejeter à tort l hypothèse ulle. 4. Erreur de deuxième espèce : le fait de e pas rejeter l hypothèse H 0, alors qu il fallait le faire. 5. Risque de première espèce : la probabilité de l erreur de première espèce : ( sup P ϑ (X1,..., X ) R ). ϑ Θ 0 6. Risque de deuxième espèce : la probabilité de l erreur de deuxième espèce : ( sup P ϑ (X1,..., X ) R ). ϑ Θ 1 7. Test de iveau α : le risque de première espèce e dépasse pas le iveau α. 8. Test de iveau asymptotique α : la limite (iférieure) lorsque du risque de première espèce e dépasse pas α. 9. Puissace d u test : la foctio ϑ P ϑ ( (X1,..., X ) R ), ϑ Θ 1. Etre deux tests de iveau α, celui dot la puissace est plus grade est préférable. 10. P-value d u test : soit R α la régio critique d u test (de iveau α). Etat doé les observatios x 1,..., x, la p-value du test R α est la plus grade valeur de α pour laquelle l hypothèse H 0 est pas rejetée : max{α : (x 1,..., x ) R α }. 11. Iterprétatio : ue p-value élevée suggère que l hypothèse ulle e doit pas être rejetée. Typiquemet, si la p-value est > 5% o e rejette pas l hypothèse ulle.
4 Régressio liéaire multiple 4.1 Gééralités 4.1.1 Plas d expérieces Le statisticie plaifie ue expériece statistique e foctio d u objectif qui est souvet l étude de l effet de certais facteurs de variabilité d u phéomèe. Ces facteurs sot présets sous plusieurs modalités. La techique de bo ses lorsque plusieurs facteurs sot à étudier est de e modifier qu u facteur à la fois. Par exemple, si o dispose de 3 facteurs présets chacu sous p modalités, cette techique coduirait à fixer 2 facteurs puis étudier das chacu des cas l effet du troisième facteur, soit 3p 2 expérieces. Das beaucoup de cas le coût, l efficacité, ou les possibilités effectives d expérimetatio, recommadet de miimiser le ombre d expérieces tout e coservat u cadre expérimetal rigoureux. E répodat à ces critères, la méthode des plas d expériece iitiée au début du XX ème siècle par Roald A.Fisher s est imposée das le cadre idustriel pour tester des médicamets, des variétés de plates, des procédés de fabricatio, etc... L objectif de la costructio de plas d expériece est de mettre e place u dispositif expérimetal permettat d aboutir à ue iterprétatio statistique des résultats otammet à l aide de tests d hypothèses. Pour cela il faut costruire u modèle statistique qui distiguera parmi les facteurs de variabilité les facteurs cotrôlés et les facteurs aléatoires. 4.1.2 Le modèle gééral Ce type d expériece statistique peut être décrit avec le modèle gééral suivat : Y = f (ϑ) + ε, où Y = (Y i ) i=1,..., désige les observatios effectuées. ϑ = (ϑ 1,..., ϑ p ) est u vecteur de paramètres icou caractérisat les facteurs cotrôlés que l o souhaite étudier à l aide de ces observatios.
56 Régressio liéaire multiple Chapitre 4 ε = (ε i ) i=1,..., sot des variables aléatoires idépedates et cetrées, représetat l erreur expérimetale. Le modèle est gaussie si ε est u vecteur gaussie cetré. f ( ) est ue applicatio coue qui fixe le modèle. Ce modèle est liéaire si f (ϑ) est ue applicatio ϑ Xϑ où X est ue matrice. Le modèle s écrit alors matriciellemet : Y = Xϑ + ε. Das la suite ous cosidéreros des modèles liéaires gaussies. Ces deux hypothèses (liéarité et caractère gaussie de l erreur) doivet être validées. Pour les vérifier o peut, soit utiliser la coaissace a priori que l o a du modèle, soit costruire des tests. Das certais cas, lorsqu il y a plusieurs observatios, le caractère gaussie peut être ue coséquece du théorème de la limite cetrale. Efi, das de ombreux cas, o peut redre le modèle gaussie et liéaire e effectuat des trasformatios sur les observatios. 4.1.3 Exemples Das ce paragraphe ous proposos des exemples illustrat la problématique précédete. Das les sectios suivates, ous doeros les élémets permettat de résoudre ce type de problèmes. Exemple 4.1. Le tableau ci-dessous représete des mesures de hauteurs d arbres e mètres effectuées das 3 forêts distictes. O rassemble das u même tableau les mesures effectuées das les 3 forêts das le but de les comparer. Foret 1 Foret 2 Foret 3 1 = 13 arbres 2 = 14 3 = 10 23.4 22.5 18.9 24.4 22.9 21.1 24.6 23.7 21.2 24.9 24.0 22.1 25.0 24.4 22.5 26.2 24.5 23.5 26.3 25.3 24.5 26.8 26.0 24.6 26.8 26.2 26.2 26.9 26.4 26.7 27.0 26.7 27.6 26.9 27.7 27.4 28.5 TABLE 4.1 Hauteurs d arbres das 3 forêts Le facteur étudié est ici l ifluece de la forêt sur la hauteur de ces arbres. La variabilité de la hauteur due ici au tirage d u échatillo aléatoire das chaque forêt se décompose doc aturellemet e ue partie cotrolée, le facteur (forêt), et ue partie aléatoire, la variabilité itrisèque à la pousse des arbres due au terrai, à la lumière, à la présece ou o d u autre arbre à proximité... O peut supposer que les hauteurs des différets arbres sot idépedates (ce qui exige que l o e mesure pas des arbres trop rapprochés les us des autres), et que, pour la forêt uméro k, la mesure d u arbre suit ue loi gaussiee de moyee m k et de variace σk 2 ; o peut alors comparer les 3
Sectio 4.1 Gééralités 57 échatillos 2 à 2. Mais si la variabilité des hauteurs des arbres peut être cosidérée comme idetique d ue forêt à l autre (σ 2 1 = σ2 2 = σ2 3 = σ2 ) o observe trois échatillos gaussies de même variace σ 2 et de moyees différetes qui représetet l effet de chaque forêt (les modalités du facteur forêt ) sur la pousse des arbres. L hypothèse d égalité des variaces est appelée homoscédasticité. Avec ces hypothèses o peut alors écrire : Y i,j = m i + ε i,j pour la j-ième mesure de la forêt i, j = 1,..., i, i = 1, 2, 3, où ε N (0, σ 2 ). Ceci s écrit avec ue otatio matricielle : où ε est u vecteur aléatoire gaussie, et Y = Xϑ + ε, Y = (Y 1,1,..., Y 1,1, Y 2,1,..., Y 2,2, Y 3,1,..., Y 3,3 ) t, 1 0 0... 1 0 0 0 1 0 m 1 X =..., ϑ = m 2 0 1 0 m 3 0 0 1... 0 0 1 Ce problème est u problème d aalyse de la variace à u facteur. Pour répodre à la questio existe-t-il u effet forêt, o costruira u test statistique dot l hypothèse ulle est : H 0 : m 1 = m 2 = m 3. Exemple 4.2. Le tableau suivat doe le ombre de jours de pluie et la hauteur de pluie e mm, observés pedat toute l aée à Paris de 1956 à 1995. Ue représetatio sur u graphique (fig. 4.1) des doées avec e abscisse le ombre de jours de pluie et e ordoée la hauteur de pluie permet de costater que l esemble des poits forme u uage allogé et que la quatité de pluie augmete lorsque le ombre de jours de pluie augmete. Le facteur hauteur de pluie est alors u facteur à expliquer par le facteur explicatif cotrôlé ombre de jours de pluie. La questio que l o se pose est de savoir si ces deux quatités sot liées par ue relatio affie, de calculer les paramètres de cette relatio et d avoir ue idicatio sur le caractère prédictif de ce modèle (autremet dit, peut-o déduire de faço satisfaisate la hauteur de pluie à partir du ombre de jours de pluie?). Le modèle statistique que l o propose est le suivat : où : Y i = β + α X i + ε i
58 Régressio liéaire multiple Chapitre 4 Aées 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 Jours 154 161 193 131 198 152 159 159 146 196 Hauteur 545 536 783 453 739 541 528 559 521 880 Aées 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 Jours 192 161 176 173 199 141 170 156 198 164 Hauteur 834 592 634 618 631 508 740 576 668 658 Aées 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Jours 135 179 171 172 170 197 173 177 177 163 Hauteur 417 717 743 729 690 746 700 623 745 501 Aées 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Jours 176 180 167 140 149 140 154 155 192 162 Hauteur 611 707 734 573 501 472 645 663 699 670 TABLE 4.2 Jour et quatité de pluie par aées 900 850 800 Hauteur de pluie 750 700 650 600 550 500 450 400 130 140 150 160 170 180 190 200 Nombre de jours FIGURE 4.1 Représetatio des doées Y = (Y i ) i=1,..., désige la hauteur de pluie. (X i ) i=1,..., désige le ombre de jours de pluie la droite d équatio y = α x + β est appelée droite de régressio ; α et β sot à estimer à partir des observatios. ε = (ε i ) i=1,..., représete les écarts aléatoires etre les observatios et la droite. O supposera que c est ue suite de variables aléatoires idépedates de loi N (0, σ 2 ). Le modèle peut alors s écrire : Y = Xϑ + ε
Sectio 4.2 Lois associées aux échatillos gaussies 59 e otat : 1 X 1 1 X 2 X =.., et ϑ = 1 X ( ) β α C est u modèle de régressio liéaire simple qui sera étudié e 4.4. 4.2 Lois associées aux échatillos gaussies Rappelos pour commecer les défiitios des lois associées aux échatillos gaussies qui ous seros utiles das la suite. Défiitio 4.1. Si (X 1,..., X ) est u échatillo de loi ormale N (0, 1), alors la loi de la v.a. i=1 X2 i est la loi du chi-deux à degrés de liberté, otée χ 2 (). Si X N (0, 1), Y χ 2 () et que X et Y sot idépedates, alors X Y/ t(), loi de Studet à degrés de liberté. Si X χ 2 (), Y χ 2 (m) et que X et Y sot idépedates, alors X/ Y/m F(, m), loi de Fisher (ou de Fisher-Sedecor) à et m degrés de liberté. Efi, o utilise souvet la covetio pratique suivate : si ue v.a. X a pour loi F, o ote af la loi de ax. Aisi, o otera σ 2 χ 2 () la loi de i=1 X2 i das le cas où (X 1,..., X ) formet u -échatillo de la loi N (0, σ 2 ). 4.2.1 Théorème de Cochra C est l outil fodametal pour l étude des échatillos gaussies et du modèle liéaire gaussie (la otatio désige la orme euclidiee das R ). Théorème 4.1. Soit Y = (Y 1,..., Y ) u -échatillo de N (0, 1), et E 1,..., E p ue suite de p sous-espaces deux-à-deux orthogoaux de R, avec dim(e j ) = d j, j = 1,..., p. Alors o a : (i) Les composates de Y das toute base orthoormale de R formet ecore u -échatillo de N (0, 1). (ii) Les vecteurs aléatoires Y E1,..., Y Ep, qui sot les projectios de Y sur E 1,..., E p, sot idépedats. (iii) Les variables aléatoires Y E1,..., Y Ep sot idépedates, et Y Ej 2 χ 2 (d j ), j = 1,..., p. Ue formulatio équivalete cosiste à dire (par exemple avec p = 2), que si P 1 et P 2 sot deux projecteurs orthogoaux de R sur deux sous-espaces orthogoaux E 1 et E 2 de dimesios d 1 et d 2, alors P 1 Y = Y E1 et P 2 Y = Y E2 sot idépedats, et P 1 Y 2 et P 2 Y 2 sot idépedats et ot pour lois respectivemet χ 2 (d 1 ) et χ 2 (d 2 ). 4.2.2 Statistiques fodametales Plaços-ous doc das le cas où (Y 1,..., Y ) est u -échatillo de la loi N (µ, σ 2 ). Les statistiques utiles pour les problèmes de test ou d itervalle de cofiace sur les paramètres
60 Régressio liéaire multiple Chapitre 4 µ et σ 2 sot foctio de la moyee empirique, que ous otos Ȳ = 1 et de la variace empirique, dot ous choisissos ici la versio sas biais (voir 4.3.1) : S 2 = 1 1 i=1 i=1 Y i, (Y i Ȳ) 2 = 1 [ 1 i=1 Y 2 i (Ȳ) 2 ]. Utilisos le théorème 4.1 das le cas où p = 2 et où o projette Y sur le sous-espace E de dimesio 1 egedré par le vecteur (ormé) de R, e 1 = 1 1 (où o ote 1 le vecteur de dimesio ayat toute ses coordoées égales à 1). O obtiet Y E = Ȳ 1 1. La orme de la projectio de Y sur l orthogoal de E (de dimesio 1) est Y Y E 2 = i=1 (Y i Ȳ) 2 qui suit la loi σ 2 χ 2 ( 1) (c est le poit (iii) du théorème de Cochra à ceci près qu il faut teir compte de la variace σ 2 ). O e déduit les résultats suivats, utiles pour le statisticie : Propositio 4.1. Soit Y = (Y 1,..., Y ) u -échatillo de N (µ, σ 2 ). Alors o a : (i) Les v.a. Ȳ et S 2 sot idépedates. (ii) ( 1)S 2 σ 2 χ 2 ( 1). (Ȳ µ) (iii) t( 1). S Remarquos que la v.a. i=1 (Y i µ) 2 suit elle-même la loi σ 2 χ 2 () mais, si µ est icou, so calcul est pas accessible. Le poit (ii) exprime ituitivemet le fait que l o perd u degré de liberté e raiso du remplacemet de µ, icou, par so estimateur Ȳ. De même la v.a. (Ȳ µ)/σ N (0, 1), autremet dit le poit (iii) sigifie que la loi de Studet remplace la loi ormale comme loi de la moyee empirique ormalisée das le cas où σ est icou et doit être remplacé par so estimateur S. 4.3 Le modèle gaussie Nous illustros das u premier temps les cocepts du modèle paramètrique sur le modèle gaussie. Ce modèle est très (trop?) courammet utilisé pour aalyser des doées cotiues. Cet usage fréquet est dû à la simplicité des calculs et à la gééralité du TCL (sous des hypothèses très faibles, la somme de ombreux petits bruits suit asymptotiquemet ue loi gaussiee). 4.3.1 U exemple de doées réelles à loi gaussiee O a eregistré le taux d alcool das le sag (e dg/l) de sujets : voici le tableau des observatios, avec = 30 (extrait de l ouvrage de D. Schwartz, Méthodes statistiques à l usage des médecis et des biologistes, Flammario).
Sectio 4.3 Le modèle gaussie 61 10 40 35 30 25 20 15 10 9 8 7 6 5 4 3 2 1 0 5 1 0 10 20 30 40 3 2 1 0 1 2 3 Quatiles of Iput Sample 35 30 25 20 15 10 Stadard Normal Quatiles FIGURE 4.2 Le boxplot, l histogramme et le QQ-plot des doées du taux d alcool. 27, 26, 26, 29, 10, 28, 26, 23, 14, 37, 16, 18, 26, 27, 24 19, 11, 19, 16, 18, 27, 10, 37, 24, 18, 26, 23, 26, 19, 37 O otera (x 1,..., x 30 ) cette suite de résultats observée. Les valeurs s écheloat etre 10 et 37, la précisio état l uité, il serait maladroit de modéliser ceci comme les réalisatios de v.a. discrètes : le ombre de valeurs distictes evisageables devrait être grad, de l ordre de la quarataie, car rie iterdit de peser qu auraiet pu être observées des valeurs e dehors de l itervalle ici préset. Il est plus raisoable de cosidérer qu il y a, sous-jacet à ces observatios, u phéomèe à valeurs réelles, dot les observatios recueillies sot ue discrétisatio, l arrodi se faisat à la précisio du décigramme par litre. Les modèles les plus simples que l o puisse evisager ici sot des modèles d échatilloage : o admet que l o a observé les réalisatios de v.a. Y i idépedates et idetiquemet distribuées. Pour voir si u tel modèle est approprié, il faut d abord se demader commet a été costitué cet échatillo. Le problème essetiel est, comme das le premier paragraphe, celui de la source de variabilité (cause de l aléatoire). Celle-ci a e fait ici plusieurs origies simultaées : variatio d idividu à idividu et, pour chaque idividu, imprécisio de l appareil de mesure et effet de l erreur d arrodi. Il est assez évidet que, quelles que soiet les coditios de recueil, elles ot dû assurer l idépedace des v.a. Y i dot les observatios résultet. Le problème de l idetité de leurs lois et du choix de la famille à laquelle serait supposée apparteir cette loi commue est plus délicat. Nous l avos dit, les praticies utiliset souvet das u tel cotexte ue modélisatio avec pour loi commue ue loi ormale, de moyee µ et variace σ 2 (o ulle) icoues, N (µ, σ 2 ). Le paramètre est doc bi-dimesioel ϑ = (µ, σ 2 ) R R +. La probabilité N (µ, σ 2 ) a pour support R tout etier, alors qu ici (comme presque toujours das la pratique) les doées sot fodametalemet borées ; cet usage suppose doc que, pour la zoe de valeurs de µ et σ evisageables, la probabilité du complémetaire de l itervalle des
62 Régressio liéaire multiple Chapitre 4 valeurs effectivemet atteigables par les taux d alcool soit égligeable. 4.3.2 Étude du modèle O cosidère doc u échatillo (Y 1,..., Y ) de v.a. idépedates et de même loi gaussiee : P = {N (µ, σ 2 ), ϑ = (µ, σ 2 ) R ]0, [}. La desité de la loi N (µ, σ 2 ) est p(y 1 ; µ, σ 2 ) = 1 2πσ 2 e (y 1 µ) 2 /2σ 2. La vraisemblace du modèle est pour y = (y 1,..., y ) R, p (y; µ, σ 2 ) = (2πσ 2 ) /2 e i=1 (y i µ) 2 /2σ 2 = (2πσ 2 ) /2 e (ȳ µ)2 +v 2σ 2, où ȳ = 1 i=1 y i et v = 1 i=1 (y i ȳ ) 2. Traditioellemet, o cosidère S 2 = 1 1 i=1 (Y i Ȳ ) 2 = 1 1 i=1 Y 2 i 1 (Ȳ ) 2, au lieu de V = 1 i=1 (Y i Ȳ ) 2 (car S 2 est u estimateur sas biais de σ 2 ), cf la propositio 4.1. La loi de la statistique (Ȳ, S 2 ) est doée das la propositio 4.1. 4.3.3 Estimatio Pour calculer l estimateur du maximum de vraisemblace de (µ, σ 2 ), o cosidère la logvraisemblace l (y; µ, σ 2 ) = 2 log(2π) 2 log(σ2 ) (ȳ µ) 2 + v 2σ 2. E calculat les dérivées partielles, il viet et µ l (y; µ, σ 2 ) = ȳ µ σ 2, σ 2 l (y; µ, σ 2 ) = 2σ 2 + (ȳ µ) 2 + v 2σ 4. E particulier, les dérivées de la log-vraisemblace s aulet pour µ = ȳ et σ 2 = v. Esuite, o vérifie sas difficulté que la log-vraisemblace atteit so maximum pour (µ, σ 2 ) = (ȳ, v ). O e déduit doc que l EMV de ϑ = (µ, σ 2 ) est (Ȳ, V ). O déduit de la propositio 4.1 que E ϑ [Ȳ ] = µ et que E ϑ [S 2 ] = σ 2. (E revache V est u estimateur biaisé de σ 2, d où le choix traditioel de S 2 ). Aisi l estimateur ˆϑ = (Ȳ, S 2 ) est u estimateur sas biais de ϑ. Par la loi forte des grads ombre Ȳ et S 2 sot des estimateurs covergets. Aisi ˆϑ est u estimateur coverget de ϑ. (O peut égalemet vérifier qu il est asymptotiquemet ormal, mais cela e ous sera pas utile par la suite).
Sectio 4.3 Le modèle gaussie 63 4.3.4 Itervalle de cofiace et tests pour la moyee O déduit de la propositio 4.1, que la loi de (Ȳ µ)/s est la loi t( 1). La loi de Studet est symétrique, aisi si q 1 α/2 (t 1 ) est le quatile d ordre 1 α/2 de la loi t( 1), alors q 1 α/2 (t 1 ) est le quatile d ordre α/2. E particulier, ue v.a. de loi t( 1) appartiet à [ q 1 α/2 (t 1 ), q 1 α/2 (t 1 )] avec probabilité 1 α. Comme (Ȳ µ) S [ q 1 α/2 (t 1 ), q 1 α/2 (t 1 )] µ [Ȳ ± q 1 α/2 (t 1 ) S ], o e déduit que [Ȳ ± q 1 α/2 (t 1 ) S ] est u itervalle de cofiace de iveau 1 α pour µ. O remarque que la logueur de l itervalle de cofiace [ ȳ ± q 1 α/2 (t 1 ) s ], où s 2 = 1 1 i=1 (y i ȳ ) 2 ted bie vers 0 quad la taille de l échatillo ted vers l ifii (à ȳ et s fixé). Il est aussi d autat plus log que s est plus élevé (ceci est aturel : la fluctuatio des doées cotrarie la cofiace que l o a e elles, cofiace qui se traduirait par u itervalle de cofiace assez court). Exercice 4.1. Si la variace est coue et égale à σ0 2, c est-à-dire si l o cosidère le modèle P = {N (µ, σ0 2), µ R}, vérifier que l itervalle [Ȳ ± q1 α/2 N σ 0 ] (où q1 α/2 N est le quatile d ordre 1 α/2 de la loi N (0, 1)) est alors u itervalle de cofiace de iveau 1 α pour µ. O cosidère les hypothèses H 0 : µ = µ 0 et H 1 : µ = µ 0, où µ 0 est doé. (O parle d hypothèse bilatérale, par oppositio à l exercice 4.2, où parle d hypothèse uilatérale). Il est aturel de comparer la moyee empirique avec moyee proposée, µ 0. Toutefois, sous H 0, la loi de Ȳ µ 0 est la loi N (0, σ 2 /), qui déped du paramètre icou σ 2. O cosidère doc la statistique de test ζ = Ȳ µ 0 S. La loi de la statistique de test sous H 0 est la loi de Studet de paramètre 1. La loi de ζ sous H 1 est la loi de Studet décetrée, mais ous e l expliciteros pas ici. O remarque que sous H 1, Ȳ µ 0 coverge p.s. vers µ µ 0 = 0 quad. O a toujours que S coverge p.s. vers σ 2. O e déduit doc que sous H 1, p.s. lim ζ = +. Il est doc aturel de cosidérer la régio critique W = {(y 1,..., y ); ζ obs a }, (4.1) où ζ obs = ȳ µ 0 s, avec ȳ = 1 i=1 y i et s = 1 1 i=1 (y i ȳ ) 2. D après le comportemet de la statistique de test sous H 1, o e déduit que le test W est coverget. Comme sous H 0, la loi de ζ est la loi de Studet de paramètre 1, o e déduit que le iveau du test W est sup ϑ H 0 P ϑ (W ) = P( Z a ), où Z est de loi t( 1). Pour obteir u test de iveau α, o choisit a = q 1 α/2 (t 1 ), le quatile d ordre 1 α/2 de loi de Studet de paramètre 1.
64 Régressio liéaire multiple Chapitre 4 La p-valeur du test est doée par où ζ obs p-valeur = P( Z ζ obs ), (4.2) est la statistique de test évaluée e les observatios. Remarque 4.1. O peut étudier la répose du test e foctio de, ȳ et s. à et s fixés, si ȳ s éloige de µ 0, alors ζ augmete et o a tedace à rejeter le test. à et ȳ fixés, si s dimiue, alors ζ augmete et o a tedace à rejeter le test. Cela traduit le fait que si s est petit alors la variabilité des doées est petite et ȳ doe ue estimatio précise du vrai paramètre µ. Des petits écarts etre ȳ et µ 0 devieet sigificatifs. à ȳ et s fixés, si augmete, alors ζ augmete et o a tedace à rejeter le test. E effet, plus la taille de l échatillo est grade est plus ȳ doe ue estimatio précise du vrai paramètre µ. Exercice 4.2. Écrire le test pour les hypothèses uilatérales H 0 : µ µ 0 et H 1 : µ > µ 0. Exercice 4.3. Tester les hypothèses H 0 : µ = µ 0 et H 1 : µ = µ 0, où µ 0 est doé das le modèle gaussie à variace coue : P = {N (µ, σ0 2 ), µ R}. 4.3.5 Itervalles de cofiace et tests pour la variace Le raisoemet est idetique das le cas de la variace : la costructio d itervalles de cofiace ou de tests se fait à partir de la coaissace de la loi, sous l hypothèse ulle ou à la frotière de celle-ci, de l estimateur du paramètre d itérêt. Itervalles de cofiace pour la variace L estimateur (sas biais) de σ 2 est la variace empirique sas biais S 2, et le poit (ii) de la propositio 4.1 permet d écrire par exemple que, si χ 2,1 α est le quatile d ordre (1 α) de la loi χ 2 (), ) 2 1 ( 1)S2 P (q α/2 (χ ) < σ 2 < q 1 α/2 (χ 2 1 ) = 1 α, d où l o déduit u itervalle de cofiace pour la variace (bilatéral das cet exemple) de iveau de cofiace (1 α) : [ ] ( 1)S 2 q 1 α/2 (χ 2 1 ) ; ( 1)S 2 q α/2 (χ 2 1 ). Tests pour la variace O peut aussi, e suivat la démarche itroduite au chapitre 3, costruire des tests pour des hypothèses relatives au paramètre σ 2. Cosidéros par exemple le test de H 0 : σ 2 σ 2 0 cotre H 1 : σ 2 > σ 2 0. à la frotière de H 0, i.e. lorsque la valeur du paramètre est σ0 2, la statistique Z = ( 1)S2 σ 2 0 χ 2 ( 1).
Sectio 4.4 Régressio liéaire multiple 65 Cette statistique aura tedace à croître avec σ sous l hypothèse alterative (et de plus S 2 σ 2 p.s. e vertu de la loi forte des grads ombres), d où le choix d ue régio de rejet de la forme ]c, + [, où c est calibré (le plus petit possible) de sorte que P σ0 (Z > c) = α. Ceci amèe doc à choisir pour c le quatile d ordre (1 α) de la loi χ 2 ( 1), autremet dit à coclure ( 1)S 2 Rejet de H 0 si > q 1 α (χ 2 1 ). Le lecteur pourra costruire les tests relatifs aux situatios suivates : σ 2 0 H 0 : {σ 2 σ 2 0 } cotre H 1 : {σ 2 < σ 2 0 }, H 0 : {σ 2 = σ 2 0 } cotre H 1 : {σ 2 = σ 2 0 }. 4.3.6 Aalyse des doées réelles O choisit le modèle P = {N (µ, σ 2 ), µ R, σ > 0}. O obtiet l estimatio de (µ, σ 2 ) à l aide de (ȳ, s 2 ) : ȳ = 1 y i = 22.9 et s 2 = 1 1 i=1 i=1 L itervalle de cofiace de iveau 95% de µ est doé par [ȳ ± q 1 α/2 (t 1 ) s ] = [20.2, 25.6]. (y i ȳ ) 2 = 53.0. La p-valeur associée au test de régio critique (4.1), défiie par (4.2), est pour µ 0 = 20, p-valeur = P( Z ζ obs ) = 0.037, où ζ = ȳ µ 0 s = 2.18. E particulier o rejette H 0 : {µ = µ 0 } au iveau de 5%. 4.4 Régressio liéaire multiple Rappel de la problématique La problématique a été itroduite sur u exemple e 4.1. Repreos-la avec ue autre situatio. Il s agit ici de modéliser u phéomèe aléatoire observé par ue combiaiso liéaire ou affie de variables explicatives, dot les valeurs sot détermiistes et coues pour chaque expériece (ou observatio) réalisée. Par exemple, si l o souhaite expliquer la durée d ue certaie maladie (e jours) après l admissio de patiets à l hôpital, o peut peser que cette durée est liée à certaies variables quatitatives (i.e., à valeur umériques). O relèvera par exemple les ombres de bactéries de certais types présetes das l orgaisme du patiet à so arrivée, aisi que des idicateurs de so état gééral (poids, température,... ). Si l o dispose de observatios de ces variables explicatives aisi que de la variable à expliquer (l observatio de la variable à expliquer est doc faite a posteriori das cet exemple, lorsque les patiets ot quitté l hopital) o peut étudier la pertiece de cette modélisatio liéaire. Il est possible de tester la sigificativité du modèle, et celle de certaies variables explicatives. Il est possible aussi d estimer les lies etre variables explicatives et variable à expliquer et évetuellemet de faire esuite de la prédictio, c est à dire ici d estimer la durée d hospitalisatio d u ouveau patiet à partir de la coaissace des valeurs des variables explicatives das so cas.
66 Régressio liéaire multiple Chapitre 4 4.4.1 Cadre gééral du modèle liéaire gaussie L itroductio géérale et l exemple précédet permettet de dégager le cadre formel cidessous. O effectue observatios Y = (Y 1,..., Y ), et chaque observatio est l additio d u effet moye et d u bruit. Si o cosidère le vecteur des observatios Y R, le modèle s écrit Y = µ + ε, et o fait les hypothèses (de modèle) suivates : M1 l effet moye µ est icou et o observable, mais µ E, sous espace vectoriel de R, fixé et de dimesio k ; M2 le vecteur aléatoire ε (o observable) a pour loi N (0, σ 2 I ) et le paramètre σ 2 > 0 est icou. Estimatio Ayat observé Y, le poit de E le plus proche de Y est sa projectio sur E, Y E = µ + ε E, qui est l estimateur ituitif de µ. La projectio sur l orthogoal de E, Y Y E = ε ε E e cotiet pas d iformatio sur µ (elle est cetrée) : c est u idicateur de la dispersio des observatios, qu il est aturel d utiliser pour estimer σ 2. O précise ceci das le résultat suivat, coséquece directe du théorème 4.1. Propositio 4.2. O observe Y = µ + ε avec les hypothèses M1 et M2. Alors o a : (i) Y E est u estimateur sas biais de µ. (ii) Y Y E 2 /( k) est u estimateur sas biais de σ 2. (iii) Y E et Y Y E sot idépedats. (iv) Y E µ 2 σ 2 χ 2 (k) et Y Y E 2 σ 2 χ 2 ( k). O peut motrer égalemet que, pour tout vecteur u R, le produit scalaire u, Y E est l estimateur de u, µ sas biais de variace miimum. 4.4.2 Défiitio du modèle O observe u phéomèe aléatoire Y et l o suppose ce phéomèe ifluecé par p variables explicatives ou régresseurs, R 1,..., R p. Parfois, Y est aussi appelée la variable dépedate, et R 1,..., R p les variables idépedates. O réalise observatios, autremet dit Y = (Y 1,..., Y ), et o ote R 1 i,..., Rp i les coditios expérimetales pour la i-ème observatio Y i, c est à dire les valeurs (détermiistes) des p régresseurs lors de l expériece i. O fait comme o l a dit l hypothèse d ue relatio liéaire ou affie etre les régresseurs et la variable à expliquer Y et, comme e aalyse de la variace, o suppose observer la somme de l effet de ces régresseurs et d u esemble de perturbatios o observables, que l o résume par u bruit gaussie cetré. Ce modèle s écrit aisi Y i = p p α j R j i + ε i, ou bie Y i = β + α j R j i + ε i, i = 1,...,, j=1 j=1 où ε = (ε 1,..., ε ) est u -échatillo de la loi N (0, σ 2 ) (l hypothèse d homoscédasticité est présete ici aussi, puisque σ 2 e déped pas de i). Les paramètres icous à estimer sot (β, α 1,..., α p, σ 2 ) das le cas affie (o retire β das le cas liéaire sas costate).
Sectio 4.4 Régressio liéaire multiple 67 Notatio vectorielle Cosidéros par exemple le cas affie, et posos 1 R 1 1 Rp 1 X =... 1 R 1 R p = [ 1 R 1 R p], la matrice (p + 1) des régresseurs (la coloe de 1, 1, état cosidérée comme u régresseur particulier lorsqu elle figure das le modèle). Posos aussi ϑ R p+1 le paramètre du modèle, où ϑ = (β, α 1,..., α p ) t. Le modèle s écrit vectoriellemet : Y = Xϑ + ε, avec Xϑ E et ε N (0, σ 2 I ), où E = {Xu, u R p+1 } est le sous-espace vectoriel de R egedré par les coloes de X. Ce modèle s iscrit aisi das le cadre gééral du modèle liéaire gaussie décrit e 4.4.1, avec adoptio des hypothèses M1 et M2 qui y ot été faites. O suppose que la dimesio de E est p + 1, c est à dire que les p régresseurs et 1 sot liéairemet idépedats, ou ce qui reviet au même que rag(x) = p + 1, ou ecore que la matrice symétrique X T X est elle-même de rag p + 1. Cette hypothèse est pas ue réelle perte de gééralité puisque, si elle est pas vérifiée, cela sigifie que l u des régresseurs est combiaiso liéaire des autres ; il apporte alors pas d explicatio supplémetaire et il suffit de le retirer. Exemple 4.3. La régressio simple. C est la situatio où l o dispose d u seul régresseur (p = 1) que ous otos simplemet R. Le modèle s écrit Y i = β + αr i + ε i, i = 1,...,, ce qui reviet à dire que Y i N (β + αr i, σ 2 ). O visualise ce modèle das l espace des variables (R, Y) par le fait que les observatios tombet das u tuel gaussie d amplitude σ le log de la droite d équatio x = β + αr. L exemple 4.2 des doées de pluie est de ce type. 4.4.3 Estimatio O applique das ce cadre les résultats de la propositio 4.2. La projectio de Y sur E est l estimateur sas biais de Xϑ. Il s écrit Y E = X ˆϑ, où ˆϑ R p+1 est l estimateur sas biais de ϑ. Il est tel que Y X ˆϑ est orthogoal à tout vecteur de E, autremet dit pour tout vecteur u R p+1, Xu, Y X ˆϑ = 0, ce qui doe ˆϑ = (X t X) 1 X t Y. Remarquos que, si l o ote P le projecteur sur E (doc tel que Y E = PY), celui-ci s écrit P = X(X t X) 1 X t. La résiduelle est Y Y E 2 = Y, Y Y E = Y t (I P)Y, soit Y Y E 2 = Y t [ I X(X t X) 1 X t] Y. D après le poit (iv) de la propositio 4.2, Y Y E 2 σ 2 χ 2( (p + 1) ), et l o estime (sas biais) la variace par ˆσ 2 = Y Y E 2 (p + 1). Remarque : das le cas de la régressio sas costate, il suffit de retirer la coloe 1 de X et de remplacer p + 1 par p.
68 Régressio liéaire multiple Chapitre 4 Variaces des estimateurs O déduit immédiatemet de l expressio de ˆϑ que sa matrice de variaces-covariaces est Var( ˆϑ) = σ 2 (X t X) 1. Exemple 4.4. La régressio simple (suite de l exemple 4.3). Il est facile de meer les calculs à la mai das le cas de la régressio simple. La matrice des régresseurs est X = [1 R], d où et le calcul de ˆϑ doe (X t X) 1 = 1 i=1 (R i R) 2 ˆα = [ i=1 R 2 i i=1 R i i=1 R i Cov(R, Y), ˆβ = Ȳ ˆα R, Var(R) où R = i=1 R i/ est la moyee empirique de R, et Var(R) = 1 i=1(r i R) 2, Cov(R, Y) = 1 ], i=1(r i R)(Y i Ȳ) = 1 R i Y i RȲ, i=1 sot les variaces et covariaces empiriques (qui ot le ses de mesures descriptives ici puisque R est pas aléatoire). O peut remarquer que ces estimateurs coïcidet avec les estimateurs des moidres carrés de la droite de régressio de Y sur R, c est à dire la pete et la costate de la droite d équatio Y = b + ar qui miimiset les carrés des écarts i=1 (Y i b ar i ) 2. O déduit immédiatemet de l expressio de Var( ˆϑ) l expressio des variaces de ˆα et ˆβ, aisi que la covariace etre les deux estimateurs (ils e sot pas idépedats). Comme ils sot des estimateurs sas biais des paramètres qu ils estimet, et suivet des lois gaussiees (car combiaisos liéaires de Y), o a fialemet : ˆα N ( α, σ 2 ) ( i=1 (R i R) 2, ˆβ N β, Le projeté est Y E = ˆβ1 + ˆαR, et o peut écrire directemet la résiduelle SSE = Y Y E 2 = i=1 (Y i ˆβ ˆαR i ) 2, σ 2 i=1 ) R2 i i=1 (R i R) 2. écarts etre les valeurs observées et les valeurs ajustées par le modèle. Elle suit la loi σ 2 χ 2 ( 2), et l estimateur sas biais de la variace est Y Y E 2 /( 2) qui est idépedat de ˆϑ. La coaissace des lois des estimateurs de (β, α), qui dépedet de σ 2, aisi que de la loi de l estimateur de σ 2 et cette propriété d idépedace permet de costruire des itervalles de cofiace ou des tests pour β et α aalogues aux itervalles de cofiace et tests de Studet costruits e 4.3.5. 4.4.4 Test de l utilité des régresseurs Das le modèle Y = Xϑ + ε avec p régresseurs et la costate (cas affie), o souhaite souvet tester l utilité d ue partie des régresseurs, autremet dit ue hypothèse ulle de la forme H 0 : { R q+1,..., R p sot iutiles } cotre H 1 : { c est faux },
Sectio 4.4 Régressio liéaire multiple 69 où 1 q < p, et où o a évetuellemet effectué ue permutatio de l ordre des régresseurs. La cotre-hypothèse se compred comme H 1 : l u des R j, q + 1 j p au mois est utile. L hypothèse ulle, si elle est pas rejetée, permet alors de simplifier le modèle de régressio, e e coservat qu ue partie des variables qui étaiet a priori explicatives. Les hypothèses peuvet se reformuler comme H 0 : {α j = 0, j = q + 1,..., p} cotre H 1 : {il existe au mois u α j = 0}, autremet dit comme l apparteace, sous H 0, de l effet moye à u sous-espace vectoriel de E de dimesio plus petite, ce qui ous ramèe à la méthode employée pour le test d homogééité e aalyse de la variace (voir le passage Gééralisatio e??, p.??). E effet, le sous-modèle associé à H 0 s écrit Y i = β + q j=1 α jr j i + ε i, i = 1,...,, ou vectoriellemet (e idiçat par 0 les quatités qui diffèret sous l hypothèse ulle) Y = X 0 ϑ 0 + ε, X 0 = [1 R 1 R q ], ϑ 0 = (β, α 1,..., α q ) t, et doc X 0 ϑ 0 H = {X 0 w : w R q+1 }, où H est de dimesio q + 1. O teste aisi H 0 : {Xϑ H} cotre H 1 : {Xϑ E \ H}. Sous H 0, o estime l effet moye par la projectio de Y sur H c est à dire Y H = X 0 ˆϑ 0 avec ˆϑ 0 = (X t 0 X 0) 1 X t 0 Y. O procède esuite comme pour le test d homogééité : sous H 0, Y E Y H 2 σ 2 χ 2 (p q) mais σ est icou. O pred le rapport avec la résiduelle ormalisée qui, elle, suit toujours la loi χ 2 ( p 1), pour costruire la statistique de test F = Y E Y H 2 /(p q) Y Y E 2 /( p 1) F(p q, p 1) sous H 0. La loi du χ 2 du umérateur (ormalisé coveablemet) se décetre sous l hypothèse alterative, d où le test au iveau α qui coduit à rejeter H 0 dès que F > q 1 α (F(p q, p 1)). Table d aalyse de la variace pour le modèle de régressio Lorsqu ils traitet u modèle de régressio, la plupart des logiciels de statistique calculet les estimateurs des paramètres et effectuet des tests idividuels de ullité de ces paramètres (p tests de Studet de H 0 : α j = 0, j = 1,..., p, fodés sur les lois que ous avos doé plus haut). Ils fourisset égalemet ue table d aalyse de variace associée au modèle de régressio. Il s agit du résultat du test de Fisher pour l hypothèse ulle pas de modèle de régressio, autremet dit aucu régresseur est sigificatif. C est la réalisatio du test ci-dessus pour H = {λ1, λ R}. Coefficiet de détermiatio Lorsque il y a ue costate das la régressio, o appelle coefficiet de détermiatio, ou R 2, le ombre R 2 = Y E Ȳ1 2 [0, 1]. Y Ȳ1 2 C est u idicateur de la qualité de la régressio : plus le R 2 est proche de 1, meilleure est l adéquatio du modèle aux doées (o parle aussi de pourcetage de la variabilité expliquée par le modèle de régressio).
70 Régressio liéaire multiple Chapitre 4 Remarquos que pour le test de Fisher associé à l hypothèse ulle aucu régresseur est sigificatif, le sous-espace vectoriel H est celui egedré par 1 ce qui etraîe que Y H = Ȳ1. Das ce cas il existe u lie simple etre le R 2 et la statistique du test de Fisher : F = ( (p + 1)) p R 2 1 R 2. Exemple 4.5. La régressio simple, (suite et fi de l exemple 4.4). Nous termios l étude détaillée de la régressio simple avec le test de o effet du seul régresseur préset das le modèle : H 0 : {α = 0} cotre H 1 : {α = 0}. Remarquos que, ici, il est possible de costruire ce test de deux maières : à partir de la loi de ˆα e utilisat la loi de Studet (qui proviet, rappelos-le, de l obligatio d estimer σ 2 par la résiduelle), ou bie à partir du test de Fisher. O vérifie que les statistiques de ces deux tests sot liées par la relatio F = T 2, et ils doet la même p-valeur. Nous allos utiliser ici la secode méthode. Sous H 0, le modèle est simplemet Y = β1 + ε (il s agit doc d u -échatillo de N (β, σ 2 )), et Y H = Ȳ1. Nous avos déjà précisé l expressio de la résiduelle das ce cas. La somme des carrés du modèle est et la statistique de test F = SSM = Y E Y H 2 = i=1 ( ˆβ + ˆαR i Ȳ) 2, Y E Y H 2 Y Y E 2 /( 2) F(1, 2) sous H 0. O rejette doc H 0 au iveau γ si F > q 1 γ (F(1, 2)). Efi, si o a observé la valeur f de la statistique F, la p-valeur de ce test est P(F > f ), où F F(1, 2). Das le cas de la régressio simple, le coefficiet de détermiatio R 2 = SSM/SST est aussi le carré du coefficiet de corrélatio etre Y et R. Exemple 4.6. Si o repred l exemple 4.2, o obtiet les résultats suivats : Les estimatios des paramètres valet : ˆα = 4.55 et ˆβ = 128.07. Sur le graphique (Fig. 4.3) o a représeté la droite de régressio. 900 850 800 y = 4.6*x - 1.3e+002 Hauteur de pluie 750 700 650 600 550 500 450 400 130 140 150 160 170 180 190 200 Nombre de jours FIGURE 4.3 Droite de régressio sur le uage de poits
Sectio 4.6 Exercices 71 Les itervalles de cofiace de Studet sot : I 0.05 (α) = [3.40; 5.70] et I 0.05 (β) = [ 322; 66] Le calcul du R 2 et du test de H 0 : {α = 0} doet : doc o rejette clairemet H 0. R 2 Fisher p-valeur 0.6294 64.52 < 10 4 4.5 Exercices 4.6 Résumé du Chapitre 4 4.6.1 Le modèle gaussie à variace coue 1. Modèle : (Y k, 1 k ) suite de v.a. i.i.d. de loi gaussiee à variace, σ0 2, coue : P = {N (µ, σ0 2 ), µ R}. 2. H 0 : {µ = µ 0 }, H 1 : {µ = µ 0 }, avec µ 0 R. 3. Statistique de test : ζ = Ȳ µ 0 σ 0. 4. Loi sous H 0 : N (0, 1). 5. Loi sous H 1 : gaussiee réduite décetrée. 6. Régio critique : W = { ζ a}. 7. Niveau exact α : a = q1 α/2 N, où qn 1 α/2 est le quatile d ordre 1 α/2 de N (0, 1). 8. Test coverget. 9. p-valeur : P( G ζ obs ) où G de loi N (0, 1). 10. Variate : H 0 : {µ µ 0 }, H 1 : {µ > µ 0 }. Même statistique de test. Régio critique : W = {ζ a}. Niveau exact α : a = q1 α N. Test coverget. p-valeur : P(G ζobs ). 4.6.2 Le modèle gaussie à variace icoue 1. Modèle : (Y k, 1 k ) suite de v.a. i.i.d. de loi gaussiee : P = {N (µ, σ 2 ), µ R, σ > 0}. 2. H 0 = {µ = µ 0 }, H 1 : {µ = µ 0 }, avec µ 0 R. 3. Statistique de test : ζ = Ȳ µ 0 S. 4. Loi sous H 0 : Studet de paramètre 1. 5. Comportemet asymptotique sous H 1 : ζ coverge p.s. vers ou +. 6. Régio critique : W = { ζ a}. 7. Niveau exact α : a = q 1 α/2 (t 1 ), où q 1 α/2 (t 1 ) est le quatile d ordre 1 α/2 de la loi de Studet de paramètre 1. 8. Test coverget. 9. p-valeur : P( T ζ obs ) où T de loi de Studet de paramètre 1. 10. Variate : H 0 : {µ µ 0 }, H 1 : {µ > µ 0 }. Régio critique : W = {ζ a}. Niveau exact α : a = q 1 α (t 1 ). Test coverget. p-valeur : P(T ζ obs ).
72 Régressio liéaire multiple Chapitre 4 4.6.3 Régressio multiple 1. Modèle : pour i = 1... Y i = β + p α j R j i + ε i. j=1 Les v.a. ε i, i = 1... sot i.i.d. de loi N (0, σ 2 ). Les coefficiets de la régressio β, α 1,..., α p et la variace σ 2 sot icoues. 2. H 0 : {α q+1 =... = α p = 0} (les p q régresseurs R q+1,..., R p sot iutiles), H 1 : { j {q + 1,..., p}, α j = 0} (u au mois des p q régresseurs R q+1,..., R p est utile). 3. Statistique de test : F = Y E Y H 2 /(p q) Y Y E 2 /( p 1), où Y E est la projectio orthogoale de Y sur l espace vectoriel, E, egedré par 1, R 1,..., R p, et Y H est la projectio orthogoale de Y sur l espace vectoriel, H, egedré par 1, R 1,..., R q. 4. Comportemet sous H 0 : F suit ue loi de Fischer : F(p q, p 1). 5. Comportemet sous H 1 : F quad. 6. Régio critique : W = {F > a}. 7. Niveau α : a = q 1 α (F(p q, p 1)), où q 1 α (F(p q, p 1)) est le quatile d ordre 1 α de la loi de Fisher F(p q, p 1). 8. Le test est coverget. 9. p-valeur : P(F f obs ).
5 Tests d adéquatio 5.1 Itroductio E pratique, das la plupart des situatios, il est impossible de savoir quelle est la loi de probabilité des doées que ous souhaitos aalyser. Au chapitre 1, ous avos vu quelques outils graphiques histogramme, foctio de répartitio empirique, QQ-plot offrat ue évaluatio visuelle de la pertiece de modélisatio des doées observées par telle ou telle loi. Le but de ce chapitre est de fourir des méthodes statistiques permettat ue évaluatio quatitative de la modélisatio des doées par ue loi doée ou par ue famille des lois. 5.2 Tests du chi-deux 5.2.1 Test d adéquatio à ue loi discrète Le problème O observe v.a. (X i ) 1 i, idépedates et de même loi, à valeurs das u espace fii A = {a 1,..., a k }. Cette loi, icoue, est caractérisée par la suite p = (p 1,... p k ) (avec k j=1 p j = 1), où pour tout j = 1,..., k, la quatité p j désige la probabilité d observer a j (idépedate de i e raiso de l idetique distributio des X i ) ; soit p j = P(X i = a j ). La loi joite du - uplet X = (X i ) 1 i est : pour tout (x 1,, x ) A, P p (X i = x i, 1 i ) = i=1 P p (X i = x i ) = k p card({i ; x i=a j }) j. j=1 Remarque 5.1. Il e est aisi, par exemple, si o procède à u sodage das ue populatio divisée e k catégories, les tirages des idividus pouvat être cosidérés comme idépedats, et, à chaque fois, la probabilité d être das ue catégorie doée état égale à la proportio (icoue) d idividus de cette catégorie das la populatio totale. C est bie le cas si o effectue des tirages avec remises et brassage de la populatio, mais u tel modèle d ure, quoique traditioel, est pas très réaliste. Cepedat, o peut cosidérer qu o est approximativemet das le modèle proposé si o fait porter
74 Tests d adéquatio Chapitre 5 le tirage sur des idividus disticts (tirage sas remise ) mais das u cotexte où la taille totale de la populatio est très grade par rapport à celle de l échatillo. O avace l hypothèse que le paramètre est p 0 = (p 0 1,..., p0 k ), où p0 j > 0, pour tout j = 1,..., k. Le but est de tester, à u iveau doé α, cette hypothèse ulle simple, H 0 : p = p 0, cotre l hypothèse alterative H 1 : p = p 0. Ituitios Pour tout j = 1,..., k o ote N j = card({i : X i = a j }) = i=1 1 {X i =a j } la variable aléatoire de comptage du ombres de fois où l état a j est visité par les v.a. X i, i = 1,...,. La v.a. N j suit ue loi biomiale de paramètres (, p j ). O rappelle que E[N j ] = p j, que la v.a. ˆP j = N j est u estimateur coverget sas biais de p j. Il y a doc lieu de peser que, s il est vrai que p = p 0, la suite des effectifs observés j = card({i : x i = a j }) sera telle que la suite des fréqueces observées, ˆp = ( ˆp 1,..., ˆp k ) = ( 1,..., k ), sera proche (e raiso de la loi forte des grads ombres citée précèdemmet) de la suite mise e test p 0 = (p 0 1,..., p0 k ). Avec cette otatio, il viet que P p (X i = x i, 1 i ) = k j=1 p j j. O peut e déduire que ˆp est l estimatio par maximum de vraisemblace de p, ce qui justifie que ous fassios porter otre test sur cette suite des fréqueces observées ˆP = ( ˆP j ) 1 j k. O souhaite doc pouvoir caractériser ue distace etre la suite des fréqueces observées ˆp et la suite des fréqueces théoriques p 0, de maière à rejeter l hypothèse ulle si cette distace est supérieure à ue certaie valeur frotière. Pour réaliser ce programme, il faut que : la loi, sous l hypothèse ulle, de cette distace soit (au mois approximativemet) coue de sorte que la frotière sera le quatile d ordre 1 α de cette loi (le rejet à tort de l hypothèse ulle sera bie alors de probabilité approximativemet égale à α), si l hypothèse ulle est pas satisfaite, cette distace ait tedace à predre des valeurs d autat plus grades que la vraie valeur du paramètre p est plus éloigée de p 0 (ce qui, là aussi, coduit à souhaiter disposer d ue distace etre p et p 0, gouverat la loi de la distace etre la v.a. ˆP et p 0 ). Outils O défiit la distace du χ 2 (ou distace du chi-deux), etre deux probabilités sur u esemble fii à k élémets, p = (p j ) 1 j k et q = (q j ) 1 j k, par : D(p, q) = k (p j q j ) 2. q j=1 j Remarquos que, faute de symétrie etre p et q, cet objet est pas ue distace au ses mathématique traditioel du terme (o parle parfois de pseudo-distace du χ 2 ). O démotre (ous l admettros) que, si l hypothèse ulle est satisfaite, la loi de la v.a..d( ˆP, p 0 ) ted, quad ted vers l ifii, vers la loi du chi-deux à k 1 degrés de liberté. Ceci coduit, pour assez grad (otio qui sera précisée empiriquemet das la suite),
Sectio 5.2 Tests du chi-deux 75 à foder sur.d( ˆP, p 0 ) le test, au iveau α, de l hypothèse H 0 = {p = p 0 }, le rejet ayat lieu si ( ˆp j p 0 j )2 χ 2 k 1,1 α, k j=1 p 0 j où q 1 α (χ 2 k 1 ) désige le quatile d ordre 1 α de la loi du chi-deux à k 1 degrés de liberté, dispoible das des tables ou via les ordiateurs. C est ce que l o appelle le test du χ 2. Critère pratique. O cosidère souvet que l approximatio fourie par la loi du χ 2 à k 1 degrés de liberté pour la loi de.d( ˆP, p 0 ) est valide si tous les produits p 0 j (1 p0 j ) sot supérieurs ou égaux à 5. Remarque 5.2 (Pour les lecteurs de iveau avacé). Itéressos ous maiteat à la puissace de ce test, c est-à-dire cosidéros les situatios où p = p 0. O démotre (ous l admettros ) que, si la loi commue des v.a. X i est caractérisée par la valeur p du paramètre, alors la loi de.d( ˆP, p 0 ) est bie approchée, quad ted vers l ifii, par la loi dite du χ 2 décetré à k 1 degrés de liberté, χ 2 k 1,δ, avec pour coefficiet d excetricité δ =.D(p, p 0). Il se produit alors ue circostace heureuse cocerat la famille des lois χ 2 k 1,δ : elle est, à ombre de degrés de liberté fixé (ici k 1) stochastiquemet croissate avec le coefficiet d excetricité δ, c est-à-dire que, pour tout t > 0, la probabilité qu ue v.a. suivat la loi χ 2 k 1,δ dépasse t est foctio croissate de δ. Afi d illustrer davatage le phéomèe d excetricité egedré par δ ous pouvos rappeler que E[χ 2 k,δ ] = k + δ et Var(χ2 k,δ ) = 2(k + 2δ). 5.2.2 Test d adéquatio à ue famille de lois discrètes Présetatio géérale Le modèle est ici le même qu e 5.2.1 : o observe v.a. X i, idépedates et de même loi, à valeurs das u espace fii, soit A = {a 1,..., a k }. Cette loi, icoue, est caractérisée par la suite p = (p 1,... p k ), où, pour tout j (avec 1 j k), p j désige la probabilité d observer a j. Ici l hypothèse à tester est plus réduite à ue valeur bie détermiée p 0, mais elle exprime que le paramètre appartiet à ue famille (p ϑ, ϑ Θ), où l o ote p ϑ = (p 1,ϑ,..., p k,ϑ ) u vecteur de poids de probabilité idexé par u paramètre ϑ. Attetio : Θ est pas ici l esemble des paramètres du modèle tout etier mais paramétrise seulemet l hypothèse ulle. Ue idée aturelle est de repredre la méthode du test d adéquatio vue e 5.2.1 e y remplaçat p 0 par p, où ˆϑ est ue estimatio de ϑ. C est ce que l o appelle u test du χ 2 ˆϑ adaptatif. O démotre alors que si l esemble Θ des valeurs possibles pour ϑ est ue partie ouverte d itérieur o vide de R h (avec h < k 1) la loi de D( ˆP, p ˆϑ ) ted, sous l hypothèse ulle, vers la loi du χ 2 à k h 1 degrés de liberté, sous des coditios de régularité que ous e préciseros pas ici, mais qui sot satisfaites si ˆϑ est ue estimatio par maximum de vraisemblace. Doc o procède comme das le test du χ 2 d adéquatio, e remplaçat seulemet le ombre de degrés de liberté k 1 par k h 1. Exemple : test du χ 2 d idépedace Les v.a. i.i.d. X i sot ici de la forme (Y i, Z i ), où les premières composates Y i sot à valeurs das A = {a 1,..., a k }, et les secodes composates Z i sot à valeurs das B = {b 1,..., b m }.
76 Tests d adéquatio Chapitre 5 O ote, pour tout j = 1,..., k, et tout l = 1,..., m, p j,l = P((Y i, Z i ) = (a j, b l )). Le paramètre est doc p = (p j,l ) 1 j k,1 l m. O veut tester l hypothèse que les 2 composates sot idépedates, autremet dit que la loi commue des couples (Y i, Z i ) est ue loi produit, c est-à-dire ecore que tous les p j,l sot de la forme : (j, l) A B, p j,l = P(Y i = a j, Z i = b l ) = P(Y i = a j )P(Z i = b l ) = q j r l, où écessairemet, pour tout j, q j = m l=1 p j,l et, pour tout l, r l = k j=1 p j,l. Les q j caractériset la loi commue des v.a. Y i et les r l caractériset la loi commue des v.a. Z i ; ces lois sot appelées aussi première et secode lois margiales des X i. Aisi, sous l hypothèse ulle, le paramètre, caractérisé d ue part par les k valeurs q j (de somme égale à 1) et d autre part par les m valeurs r l (aussi de somme égale à 1), appartiet à u espace de dimesio h = k + m 2. O supposera que les q j et les r l sot tous o uls, ce qui assure que, sous l hypothèse ulle, l esemble de paramétrage est ue partie ouverte de R k+m 2 État observé u échatillo de taille, soit (y i, z i ) 1 i, otos, pour tout couple (j, l), j,l l effectif des observatios égales à (a j, b l ) et ˆp j,l leur fréquece ( ˆp j,l = j,l ). O estime alors chaque q j de la première marge par la fréquece margiale correspodate ˆq j = 1 m l=1 j,l et de même, pour la secode marge, chaque r l par la fréquece margiale correspodate ˆr l = 1 k j=1 j,l. Alors, si l hypothèse ulle est satisfaite, o estime, pour tout couple (j, l), p j,l, par le produit des fréqueces margiales ˆq jˆr l (pour mimer la formule d idépedace citée plus haut). Nous admettos que les coditios de validité de la méthode sot satisfaites, ˆq j et ˆr l état respectivemet des estimateurs par maximum de vraisemblace de q j et r l. Le test, au seuil α, cosiste doc à rejeter l hypothèse d idépedace si : autremet dit k m j=1 l=1 k j=1 m l=1 ( ˆp j,l ˆq jˆr l ) 2 ( j,l ˆq jˆr l q 1 α (χ 2 (k 1)(m 1) ), j. l 2 ) 2 j. l 2 q 1 α (χ 2 (k 1)(m 1) ), où : j,l est le ombre d observatios égales à (a j, b l ), j = m l=1 j,l est le ombre d observatios dot la première composate est égale à a j, l = k j=1 j,l est le ombre d observatios dot la secode composate est égale à b l, q 1 α (χ 2 (k 1)(m 1) ) est le quatile d ordre 1 α de la loi du χ2 à (k 1)(m 1) degrés de liberté (e effet km (k + m 2) 1 = (k 1)(m 1)). 5.3 Test de Kolmogorov C est u test d ajustemet à ue loi, comme le test du χ 2, mais qui s applique à ue variable cotiue. O veut tester l hypothèse selo laquelle les doées observées sot tirées d ue loi dot la foctio de répartitio est F 0. Das toute cette sectio, o cosidère que la vraie foctio de répartio icoue F et F 0 sot cotiues.
Sectio 5.3 Test de Kolmogorov 77 Le test est basé sur la différece etre la foctio de répartitio F 0 de cette loi théorique et la foctio de répartitio empirique ˆF dot o rappelle la défiitio : Défiitio 5.1. O défiit la foctio de répartitio empirique du -échatillo (X 1,..., X ), par la foctio e escalier suivate : ˆF (t) = Card({1 i : X i t}) = 1 1 {Xi t}. i=1 Remarque 5.3. Notos que ˆF est cotiue à droite. Le test de Kolmogorov 1 permet de tester l hypothèse H 0 : Les observatios sot u échatillo de la loi F 0 cotre sa égatio. La statistique D de ce test est alors basée sur la distace maximale etre F 0 et ˆF, c est à dire : D = sup t R F0 (t) ˆF (t). Il s agit d u choix de distace raisoable, car d après le théorème de Gliveko-Catelli, sous H 0, D coverge presque sûremet vers 0 lorsque ted vers l ifii. La zoe de rejet est alors de la forme : {D > a}. Notos que comme ˆF est costate et égale à i/ sur l itervalle [X (i), X (i+1) [ tadis que F 0 est croissate sur cet itervalle, sup F0 (t) ˆF (t) ( F0 = max (X (i) ) i, F 0 (X t [X (i),x (i+1) [ (i+1) ) i ). O e déduit l expressio suivate très utile e pratique ( D = max max F0 (X (i) ) i 1, F 0 (X 1 i (i) ) i ). La légitimité du choix de D comme statistique de test repose sur la propositio suivate : Propositio 5.1. Sous H 0, la loi de D e déped pas de F. O dit alors que D est ue statistique libre. Démostratio. O vérifie facilemet que D = sup t R F 0(t) 1 i=1 1 {Ui F 0 (t)} où les variables U i = F 0 (X i ) sot i.i.d. suivat la loi uiforme sur [0, 1]. Il suffit esuite de faire le chagemet de variable u = F 0 (t) pour coclure. La loi de D sous H 0 a été tabulée, ce qui doe des valeurs seuils a α à e pas dépasser pour que H 0 soit acceptable au iveau α. Les moyes actuels de calcul iformatique permettet égalemet d approcher la loi de D à l aide de simulatios. Pour grad, il existe ue approximatio décrite par la propositio suivate : 1. Ce test est égalemet appelé test de Kolmogorov-Smirov à u échatillo
78 Tests d adéquatio Chapitre 5 Propositio 5.2. Sous H 0, e posat ζ = D, o dispose du résultat asymptotique suivat : la suite (ζ, 1) coverge e loi et pour tout y > 0, o a P(ζ y) ( 1) k exp ( 2k 2 y 2). k= Démostratio. Comme pour t R, ˆF (t) = 1 i=1 1 {X i t} où les variables 1 {Xi t} sot i.i.d. suivat la loi de Beroulli B(F 0 (t)), le TCL etraîe que (F 0 (t) ˆF (t)) coverge e loi vers Y t de loi ormale cetrée N (0, F 0 (t)(1 F 0 (t))). Plus gééralemet, le théorème de la limite cetrale multidimesioel assure que (F 0 (t 1 ) ˆF (t 1 ),..., F 0 (t k ) ˆF (t k )) coverge e loi vers u vecteur gaussie cetré (Y t1,..., Y tk ) de covariace doée par Cov(Y ti, Y tj ) = F 0 (mi(t i, t j )) F 0 (t i )F 0 (t j ). E fait o motre que le processus (F0 (t) ˆF (t)) t R coverge e loi vers u processus gaussie cetré tel que Cov(Y s, Y t ) = F 0 (mi(s, t)) F 0 (s)f 0 (t) et o motre que pour tout y > 0, ( ) P sup Y t y t R = + ( 1) k exp ( 2k 2 y 2). Propositio 5.3. Sous H 1, ζ = D ted p.s. vers + avec. Le test est doc écessairemet uilatéral à droite (rejet des valeurs trop grades). Démostratio. Sous H 1 la foctio de répartitio commue des X i, otée F est différete de F 0. Soit t 1 R tel que F 0 (t 1 ) = F(t 1 ). D après la loi forte des grads ombres ˆF (t 1 ) = 1 i=1 1 {X i t 1 } coverge p.s. vers E [ 1 {Xi t 1 }] = F(t1 ). Doc F 0 (t 1 ) ˆF (t 1 ) ted p.s. vers + de même pour D. Remarque 5.4. Si F 0 est o cotiue (par exemple lorsqu il s agit d ue loi discrète), le test de Kolmogorov sous sa forme classique est pas valide (la propositio 5.2 est valable que si F 0 est cotiue) : o peut motrer que D est alors plus «cocetrée» à proximité de zéro que quad F est cotiue. Remarque 5.5. O peut aussi evisager des cotre-hypothèses plus fies, du type uilatéral : «la loi des doées a ue fotio de répartitio F telle que F F 0 au ses où t R, F(t) F 0 (t) et t 0 R, F(t 0 ) < F 0 (t 0 )». Das ce cas, la statistique de test s écrit sas la valeur absolue (et sa loi est différete). 5.3.1 U exemple O dispose des 10 doées suivates : x = (2.2, 3.3, 5.3, 1.8, 4.3, 6.3, 4.5, 3.8, 6.4, 5.5) La questio aïve «ces observatios provieet-elles d ue loi ormale de moyee 4 et de variace 4?» va être formalisée sous l éocé : «tester, au iveau de sigificatio 0.05, l hypothèse ulle selo laquelle ces observatios, supposées idépedates et idetiquemet distribuées, ot pour loi commue la loi ormale de moyee 4 et variace 4». O calcule la foctio empirique dessiée sur la figure 5.1. Elle motre que D x = 0.163, écart maximal
Sectio 5.4 Test de Kolmogorov 79 FIGURE 5.1 Le test de Kolmogorov s appuie sur la distace etre foctio de répartitio empirique et théorique. obteu e t = 3.3. Cette valeur est-elle plausible, au iveau 0.05, sous l hypothèse H 0? Les praticies ot l habitude de faire la trasformatio de l axe des abscisses u = F(t). Cette trasformatio permet de travailler das le carré [0, 1] [0, 1] (cf figure 5.2) où D mesure alors l écart de la foctio de répartitio empirique par rapport à la première bissectrice. E utilisat ue table ou bie e approchat les quatiles de la loi de D sous H 0 par simulatio d u grad ombre de réalisatios suivat cette loi, o remarque que la valeur observée D x = 0.163 est iférieure au quatile d ordre 0.95 de la loi de D : 0.410. (La p-valeur est de 0.963.) L hypothèse de référece H 0 est acceptée. 5.3.2 Test de ormalité Reveos à l exemple des mesures de taux d alcoolémie. O peut de la même maière tester H 0 : Les doées suivet ue loi gaussiee de moyee 23 et de variace 49 cotre l alterative : c est faux. O trouve D x = 0.132 doc o e rejette pas H 0 pour les iveaux habituellemet utilisés (quatile asymptotique d ordre 0.95 égal à 0.242, et p-valeur asymptotique égale à 0.637). Das ce problème o pourrait tester H 0 : Les doées suivet ue loi gaussiee cotre l alterative : c est faux, à l aide du test de ormalité de Lilliefors : ce test utilise la statistique de Kolmogorov détermiée par la distace etre la loi empirique et la loi gaussiee dot l espérace est la moyee empirique et la variace, la variace empirique. Les quatiles sot différets des quatiles du test de Kolmogorov et peuvet être calculés par simulatio. Il existe de ombreux tests de ormalité (test de Pearso costruit avec ue approche de discrétisatio et u test du χ 2, test de Shapiro-Wilk,... ).
80 Tests d adéquatio Chapitre 5 FIGURE 5.2 Présetatio usuelle de la distace de Kolmogorov. 5.4 Résumé du Chapitre 5 5.4.1 Test d adéquatio à ue loi discrète : le test du χ 2 L objectif est de détermier si les doées discrètes observées provieet d ue loi doée ou o. 1. Descriptio du modèle : (X j, 1 j ) est ue suite de v.a. i.i.d. à valeurs das A = {a 1,..., a k }. Ue loi P p sur A est décrite par le paramètre p = (p 1,..., p k ), où p i = P p (X 1 = a i ). 2. Les hypothèses : H 0 : p = p 0 et H 1 : p = p 0, où p 0 est doé. 3. La statistique de test : ζ = k i=1 ( ˆp i p 0 i )2, où ˆp i est le ombre d occurrece de a i divisé par. 4. Sous H 0, (ζ, 1) coverge e loi vers χ 2 (k 1). 5. Sous H 1, (ζ, 1) diverge vers +. 6. Régio de critique du test asymptotique : [a, + [. 7. Niveau asymptotique du test égal à α : a est le quatile d ordre 1 α de la loi χ 2 (k 1). 8. Le test est coverget. 9. La p-valeur asymptotique est doée par où Z est de loi χ 2 (k 1), et ζ obs p 0 i p-valeur = P(Z ζ obs ), est la statistique de test calculée avec les observatios. Le test asymptotique est cosidéré valide si p 0 i (1 p0 i ) 5 pour tout i.
Sectio 5.4 Résumé du Chapitre 5 81 5.4.2 Test d idépedace etre deux variables qualitatives L objectif est de vérifier si deux variables catégorielles sot idépedates ou o. 1. Descriptio du modèle : ((Y i, Z i ), 1 i ) est ue suite de v.a. i.i.d. respectivemet à valeurs das A = {a 1,..., a k } et B = {b 1,..., b m }. Ue loi commue P p des couples (Y i, Z i ) sur (A, B) est décrite par le paramètre p = (p j,h ) 1 j k,1 l m où p j,l = P p ((Y i, Z i ) = (a j, b l )). 2. Les hypothèses : H 0 = {p j,l = q j r l } 1 j k,1 l m et H 1 = { j, l; p j,l = q j r l }, où q j = m l=1 p j,l et r l = k j=1 p j,l. 3. La statistique de test : ζ = k j=1 m l=1 ( ˆp j,l ˆq jˆr l ) 2 ˆq jˆr l, où ˆp j,l, ˆq j et ˆr l sot respectivemet les ombres d occurrece de (a j, b l ), de a j et de b l divisé par. 4. Sous H 0, (ζ, 1) coverge e loi vers χ 2 ((k 1)(m 1)). 5. Sous H 1, (ζ, 1) diverge vers +. 6. Régio de critique du test asymptotique : [a, + [. 7. Niveau asymptotique du test égal à α : a est le quatile d ordre 1 α de la loi χ 2 ((k 1)(m 1)). 8. Le test est coverget. 9. La p-valeur asymptotique est doée par p-valeur = P(Z ζ obs ), où Z est de loi χ 2 ((k 1)(m 1)), et ζ obs observatios. est la statistique de test calculée avec les Le test asymptotique est cosidéré valide si ˆq jˆr l (1 ˆq jˆr l ) 5 pour tout (j, l). 5.4.3 Test de Kolmogorov 1. Modèle o paramétrique : (X i, 1 i ) i.i.d. de foctio de répartitio F cotiue. 2. Hypothèses : H 0 : F = F 0 et H 1 : F = F 0 3. Statistique de Kolmogorov ( D = max max F 0 (X (i) ) i 1 1 i, F 0(X (i) ) i ) où X (1) X (2)... X () est le réordoemet croissat des X i. Statistique de test : ζ = D. 4. Sous H 0, lorsque ted vers l ifii, ζ coverge e loi vers la loi de foctio de répartitio 1 {y>0} + k= ( 1)k exp( 2k 2 y 2 ). 5. Sous H 1, ζ ted p.s. vers +. 6. Régio critique : [a, + [, avec a > 0. 7. Test coverget pour +. 8. Pour u iveau asymptotique α, a est doé par + k= ( 1)k exp( 2k 2 a 2 ) = 1 α.
6 Tables umériques 6.1 Quatiles de la loi ormale cetrée réduite La table suivate doe les valeurs umériques des quatiles q 1 z (N ) de la loi ormale cetrée réduite N (0, 1). Rappelos que, par défiitio, q 1 z (N ) est l uique solutio de l équatio Φ(q) = 1 z, où Φ( ) désige la foctio de répartitio de la loi ormale cetrée réduite. Utilisatio de la table : si, par exemple, o souhaite détermier q 0.975 (N ), o calcule z = 1 0.975 = 0.025 et o écrit 0.025 = 0.02 + 0.005, o cherche la lige correspodat à 0.02 et la coloe correspodat à 0.005, à l itersectio de la lige et de la coloe trouvée o lit 1.96. Doc q 0.975 (N ) = 1.96.
84 Tables umériques Chapitre 6 z 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.00 + 3.090 2.878 2.748 2.652 2.576 2.512 2.457 2.409 2.366 0.01 2.326 2.290 2.257 2.226 2.197 2.170 2.144 2.120 2.097 2.075 0.02 2.054 2.034 2.014 1.995 1.977 1.960 1.943 1.927 1.911 1.896 0.03 1.881 1.866 1.852 1.838 1.825 1.812 1.799 1.787 1.774 1.762 0.04 1.751 1.739 1.728 1.717 1.706 1.695 1.685 1.675 1.665 1.655 0.05 1.645 1.635 1.626 1.616 1.607 1.598 1.589 1.580 1.572 1.563 0.06 1.555 1.546 1.538 1.530 1.522 1.514 1.506 1.499 1.491 1.483 0.07 1.476 1.468 1.461 1.454 1.447 1.440 1.433 1.426 1.419 1.412 0.08 1.405 1.398 1.392 1.385 1.379 1.372 1.366 1.359 1.353 1.347 0.09 1.341 1.335 1.329 1.323 1.317 1.311 1.305 1.299 1.293 1.287 0.10 1.282 1.276 1.270 1.265 1.259 1.254 1.248 1.243 1.237 1.232 0.11 1.227 1.221 1.216 1.211 1.206 1.200 1.195 1.190 1.185 1.180 0.12 1.175 1.170 1.165 1.160 1.155 1.150 1.146 1.141 1.136 1.131 0.13 1.126 1.122 1.117 1.112 1.108 1.103 1.098 1.094 1.089 1.085 0.14 1.080 1.076 1.071 1.067 1.063 1.058 1.054 1.049 1.045 1.041 0.15 1.036 1.032 1.028 1.024 1.019 1.015 1.011 1.007 1.003 0.999 0.16 0.994 0.990 0.986 0.982 0.978 0.974 0.970 0.966 0.962 0.958 0.17 0.954 0.950 0.946 0.942 0.938 0.935 0.931 0.927 0.923 0.919 0.18 0.915 0.912 0.908 0.904 0.900 0.896 0.893 0.889 0.885 0.881 0.19 0.878 0.874 0.870 0.867 0.863 0.860 0.856 0.852 0.849 0.845 0.20 0.842 0.838 0.834 0.831 0.827 0.824 0.820 0.817 0.813 0.810 0.21 0.806 0.803 0.799 0.796 0.792 0.789 0.786 0.782 0.779 0.776 0.22 0.772 0.769 0.765 0.762 0.759 0.755 0.752 0.749 0.745 0.742 0.23 0.739 0.736 0.732 0.729 0.726 0.722 0.719 0.716 0.713 0.709 0.24 0.706 0.703 0.700 0.697 0.693 0.690 0.687 0.684 0.681 0.678 0.25 0.674 0.671 0.668 0.665 0.662 0.659 0.656 0.653 0.649 0.646 0.26 0.643 0.640 0.637 0.634 0.631 0.628 0.625 0.622 0.619 0.616 0.27 0.613 0.610 0.607 0.604 0.601 0.598 0.595 0.592 0.589 0.586 0.28 0.583 0.580 0.577 0.574 0.571 0.568 0.565 0.562 0.559 0.556 0.29 0.553 0.550 0.548 0.545 0.542 0.539 0.536 0.533 0.530 0.527 0.30 0.524 0.521 0.519 0.516 0.513 0.510 0.507 0.504 0.501 0.499 0.31 0.496 0.493 0.490 0.487 0.484 0.482 0.479 0.476 0.473 0.470 0.32 0.468 0.465 0.462 0.459 0.456 0.454 0.451 0.448 0.445 0.443 0.33 0.440 0.437 0.434 0.432 0.429 0.426 0.423 0.421 0.418 0.415 0.34 0.413 0.410 0.407 0.404 0.402 0.399 0.396 0.393 0.391 0.388 0.35 0.385 0.383 0.380 0.377 0.374 0.372 0.369 0.366 0.364 0.361 0.36 0.358 0.356 0.353 0.350 0.348 0.345 0.342 0.340 0.337 0.334 0.37 0.332 0.329 0.327 0.324 0.321 0.319 0.316 0.313 0.311 0.308 0.38 0.305 0.303 0.300 0.298 0.295 0.292 0.290 0.287 0.284 0.282 0.39 0.279 0.277 0.274 0.271 0.269 0.266 0.264 0.261 0.258 0.256 0.40 0.253 0.251 0.248 0.246 0.243 0.240 0.238 0.235 0.233 0.230 0.41 0.227 0.225 0.222 0.220 0.217 0.215 0.212 0.210 0.207 0.204 0.42 0.202 0.199 0.197 0.194 0.192 0.189 0.187 0.184 0.181 0.179 0.43 0.176 0.174 0.171 0.169 0.166 0.164 0.161 0.159 0.156 0.153 0.44 0.151 0.148 0.146 0.143 0.141 0.138 0.136 0.133 0.131 0.128 0.45 0.126 0.123 0.121 0.118 0.116 0.113 0.110 0.108 0.105 0.103 0.46 0.100 0.098 0.095 0.093 0.090 0.088 0.085 0.083 0.080 0.078 0.47 0.075 0.073 0.070 0.068 0.065 0.063 0.060 0.058 0.055 0.053 0.48 0.050 0.048 0.045 0.043 0.040 0.038 0.035 0.033 0.030 0.028 0.49 0.025 0.023 0.020 0.017 0.015 0.012 0.010 0.007 0.005 0.002
Sectio 6.2 Table de la loi du khi-deux 85 6.2 Table de la loi du khi-deux La table suivate doe la valeur du quatile d ordre (1 z) de la loi du khi-deux à k degrés de liberté. Par exemple, le quatile q 0.05 (t 19 ) se trouve à l itersectio de la lige 19 et de la coloe 1 0.05 = 0.95, doc q 0.05 (t 19 ) = 10.12. E d autres termes, si X t 19, alors P(X 10.12) = 5%. k\z 0.995 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.005 1 0 0 0 0 0.02 2.71 3.84 5.02 6.63 7.88 2 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60 3 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84 4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86 5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.76 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30 13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80 16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16 19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58 20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00 21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40 22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80 23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18 24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56 25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93 26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29 27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.65 28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34 30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67 33 15.82 17.07 19.05 20.87 23.11 43.75 47.40 50.73 54.78 57.65 35 17.19 18.51 20.57 22.47 24.80 46.06 49.80 53.20 57.34 60.27 38 19.29 20.69 22.88 24.88 27.34 49.51 53.38 56.90 61.16 64.18 40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77 50 27.99 29.70 32.35 34.76 37.68 63.16 67.50 71.42 76.15 79.49 60 35.53 37.48 40.48 43.18 46.45 74.39 79.08 83.29 88.37 91.95 70 43.27 45.44 48.75 51.73 55.32 85.52 90.53 95.02 100.42 104.21 80 51.17 53.54 57.15 60.39 64.28 96.58 101.88 106.63 112.33 116.32 90 59.20 61.75 65.65 69.13 73.29 107.56 113.14 118.14 124.12 128.30 100 67.33 70.06 74.22 77.93 82.36 118.50 124.34 129.56 135.81 140.17
86 Tables umériques Chapitre 6 6.3 Table de la loi de Studet La table suivate doe la valeur du quatile d ordre (1 z) de la loi de Studet à k degrés de liberté. Par exemple, le quatile q 0.6 (t 19 ) se trouve à l itersectio de la lige 19 et de la coloe 1 0.6 = 0.4, doc q 0.6 (t 19 ) = 0.2569. k\z 0.450 0.400 0.300 0.200 0.100 0.050 0.025 0.010 0.005 8 0.1297 0.2619 0.5459 0.8889 1.3968 1.8595 2.3060 2.8965 3.3554 9 0.1293 0.2610 0.5435 0.8834 1.3830 1.8331 2.2622 2.8214 3.2498 10 0.1289 0.2602 0.5415 0.8791 1.3722 1.8125 2.2281 2.7638 3.1693 11 0.1286 0.2596 0.5399 0.8755 1.3634 1.7959 2.2010 2.7181 3.1058 12 0.1283 0.2590 0.5386 0.8726 1.3562 1.7823 2.1788 2.6810 3.0545 13 0.1281 0.2586 0.5375 0.8702 1.3502 1.7709 2.1604 2.6503 3.0123 14 0.1280 0.2582 0.5366 0.8681 1.3450 1.7613 2.1448 2.6245 2.9768 15 0.1278 0.2579 0.5357 0.8662 1.3406 1.7531 2.1314 2.6025 2.9467 16 0.1277 0.2576 0.5350 0.8647 1.3368 1.7459 2.1199 2.5835 2.9208 17 0.1276 0.2573 0.5344 0.8633 1.3334 1.7396 2.1098 2.5669 2.8982 18 0.1274 0.2571 0.5338 0.8620 1.3304 1.7341 2.1009 2.5524 2.8784 19 0.1274 0.2569 0.5333 0.8610 1.3277 1.7291 2.0930 2.5395 2.8609 20 0.1273 0.2567 0.5329 0.8600 1.3253 1.7247 2.0860 2.5280 2.8453 21 0.1272 0.2566 0.5325 0.8591 1.3232 1.7207 2.0796 2.5176 2.8314 22 0.1271 0.2564 0.5321 0.8583 1.3212 1.7171 2.0739 2.5083 2.8188 23 0.1271 0.2563 0.5317 0.8575 1.3195 1.7139 2.0687 2.4999 2.8073 24 0.1270 0.2562 0.5314 0.8569 1.3178 1.7109 2.0639 2.4922 2.7969 25 0.1269 0.2561 0.5312 0.8562 1.3163 1.7081 2.0595 2.4851 2.7874 26 0.1269 0.2560 0.5309 0.8557 1.3150 1.7056 2.0555 2.4786 2.7787 27 0.1268 0.2559 0.5306 0.8551 1.3137 1.7033 2.0518 2.4727 2.7707 28 0.1268 0.2558 0.5304 0.8546 1.3125 1.7011 2.0484 2.4671 2.7633 29 0.1268 0.2557 0.5302 0.8542 1.3114 1.6991 2.0452 2.4620 2.7564 30 0.1267 0.2556 0.5300 0.8538 1.3104 1.6973 2.0423 2.4573 2.7500 31 0.1267 0.2555 0.5298 0.8534 1.3095 1.6955 2.0395 2.4528 2.7440 32 0.1267 0.2555 0.5297 0.8530 1.3086 1.6939 2.0369 2.4487 2.7385 33 0.1266 0.2554 0.5295 0.8526 1.3077 1.6924 2.0345 2.4448 2.7333 34 0.1266 0.2553 0.5294 0.8523 1.3070 1.6909 2.0322 2.4411 2.7284 35 0.1266 0.2553 0.5292 0.8520 1.3062 1.6896 2.0301 2.4377 2.7238 36 0.1266 0.2552 0.5291 0.8517 1.3055 1.6883 2.0281 2.4345 2.7195 37 0.1265 0.2552 0.5289 0.8514 1.3049 1.6871 2.0262 2.4314 2.7154 38 0.1265 0.2551 0.5288 0.8512 1.3042 1.6860 2.0244 2.4286 2.7116 39 0.1265 0.2551 0.5287 0.8509 1.3036 1.6849 2.0227 2.4258 2.7079 40 0.1265 0.2550 0.5286 0.8507 1.3031 1.6839 2.0211 2.4233 2.7045 50 0.1263 0.2547 0.5278 0.8489 1.2987 1.6759 2.0086 2.4033 2.6778 60 0.1262 0.2545 0.5272 0.8477 1.2958 1.6706 2.0003 2.3901 2.6603 70 0.1261 0.2543 0.5268 0.8468 1.2938 1.6669 1.9944 2.3808 2.6479 80 0.1261 0.2542 0.5265 0.8461 1.2922 1.6641 1.9901 2.3739 2.6387 90 0.1260 0.2541 0.5263 0.8456 1.2910 1.6620 1.9867 2.3685 2.6316 100 0.1260 0.2540 0.5261 0.8452 1.2901 1.6602 1.9840 2.3642 2.6259
Sectio 6.4 Quatiles pour le test de Kolmogorov 87 6.4 Quatiles pour le test de Kolmogorov La Table ci-dessous cotiet les quatiles d ordre 1 α de la loi de la statistique D = supx R ˆF (x) F (x), utilisée das le test d adéquatio de Kolmogorov. α = 10% α = 5% α = 1% 1 0.9500 0.9750 0.9950 2 0.7764 0.8419 0.9293 3 0.6360 0.7076 0.8290 4 0.5652 0.6239 0.7342 5 0.5094 0.5633 0.6685 6 0.4680 0.5193 0.6166 7 0.4361 0.4834 0.5758 8 0.4096 0.4543 0.5418 9 0.3875 0.4300 0.5133 10 0.3687 0.4093 0.4889 11 0.3524 0.3912 0.4677 12 0.3382 0.3754 0.4491 13 0.3255 0.3614 0.4325 14 0.3142 0.3489 0.4176 15 0.3040 0.3376 0.4042 16 0.2947 0.3273 0.3920 17 0.2863 0.3180 0.3809 18 0.2785 0.3094 0.3706 19 0.2714 0.3014 0.3612 20 0.2647 0.2941 0.3524 21 0.2587 0.2873 0.3443 22 0.2529 0.2809 0.3367 23 0.2475 0.2749 0.3296 24 0.2425 0.2693 0.3229 25 0.2377 0.2641 0.3166 26 0.2333 0.2591 0.3106 27 0.2290 0.2544 0.3050 28 0.2250 0.2500 0.2997 29 0.2212 0.2457 0.2947 30 0.2176 0.2417 0.2899 31 0.2142 0.2379 0.2853 32 0.2109 0.2343 0.2809 33 0.2078 0.2308 0.2768 34 0.2048 0.2275 0.2728 35 0.2019 0.2243 0.2690 36 0.1991 0.2212 0.2653 37 0.1965 0.2183 0.2618 38 0.1940 0.2155 0.2584 39 0.1915 0.2127 0.2552 40 0.1892 0.2101 0.2521 α = 10% α = 5% α = 1% 41 0.1869 0.2076 0.2490 42 0.1847 0.2052 0.2461 43 0.1826 0.2028 0.2433 44 0.1806 0.2006 0.2406 45 0.1786 0.1984 0.2380 46 0.1767 0.1963 0.2354 47 0.1748 0.1942 0.2330 48 0.1730 0.1922 0.2306 49 0.1713 0.1903 0.2283 50 0.1696 0.1884 0.2260 51 0.1680 0.1866 0.2239 52 0.1664 0.1848 0.2217 53 0.1648 0.1831 0.2197 54 0.1633 0.1814 0.2177 55 0.1619 0.1798 0.2157 56 0.1605 0.1782 0.2138 57 0.1591 0.1767 0.2120 58 0.1577 0.1752 0.2102 59 0.1564 0.1737 0.2084 60 0.1551 0.1723 0.2067 61 0.1539 0.1709 0.2051 62 0.1526 0.1696 0.2034 63 0.1515 0.1682 0.2018 64 0.1503 0.1669 0.2003 65 0.1492 0.1657 0.1988 66 0.1480 0.1644 0.1973 67 0.1469 0.1632 0.1958 68 0.1459 0.1620 0.1944 69 0.1448 0.1609 0.1930 70 0.1438 0.1598 0.1917 71 0.1428 0.1586 0.1903 72 0.1418 0.1576 0.1890 73 0.1409 0.1565 0.1878 74 0.1399 0.1554 0.1865 75 0.1390 0.1544 0.1853 76 0.1381 0.1534 0.1841 77 0.1372 0.1524 0.1829 78 0.1364 0.1515 0.1817 79 0.1355 0.1505 0.1806 80 0.1347 0.1496 0.1795 TABLE 6.1 Quatiles de la statistique de Kolmogorov