Statistique Numérique et Analyse des Données

Dimension: px
Commencer à balayer dès la page:

Download "Statistique Numérique et Analyse des Données"

Transcription

1 Statistique Numérique et Aalyse des Doées Arak DALALYAN Septembre 2011

2

3 Table des matières 1 Élémets de statistique descriptive Répartitio d ue série umérique uidimesioelle Statistiques d ue série umérique uidimesioelle Statistiques et représetatios graphiques de deux séries umériques Résumé du Chapitre Aalyse des doées multivariées Itroductio Exemple : billets suisses La théorie de l Aalyse e Composates Pricipales Représetatios graphiques et iterprétatio Résumé du Chapitre Rappel des bases de la statistique paramétrique Itroductio Modèle statistique Estimatio Itervalle de cofiace Test d hypothèses Exercices Résumé du Chapitre Régressio liéaire multiple Gééralités Lois associées aux échatillos gaussies Le modèle gaussie Régressio liéaire multiple Exercices Résumé du Chapitre Tests d adéquatio Itroductio Tests du chi-deux Test de Kolmogorov Résumé du Chapitre

4 4 Table des matières Chapitre 0 6 Tables umériques Quatiles de la loi ormale cetrée réduite Table de la loi du khi-deux Table de la loi de Studet Quatiles pour le test de Kolmogorov

5 Table des figures 1.1 Histogrammes Foctio de répartitio empirique Répartitios asymétriques Boxplot Nuage de poits Nuage de poits pour les doées trasformées Nuage de poit et droite de régressio QQ-plots Fracs Suisses Billets suisses : boxplots Billets Suisses : matrice de scatter plots Billets suisses : projectio des idividus Billets suisses : scree-graph et cercle des corrélatios La log-vraisemblace du modèle de Beroulli La log-vraisemblace du modèle expoetielle La log-vraisemblace du modèle Uiforme Itervalles de cofiace pour le modèle de Beroulli Les quatiles de la loi N (0, 1) Doées de pluie La répartitio des doées du taux d alcool Doées de pluie : droite de régressio Le test de Kolmogorov s appuie sur la distace etre foctio de répartitio empirique et théorique Présetatio usuelle de la distace de Kolmogorov

6

7 Liste des tableaux 1.1 Doées PIB-Cosommatio d éergie par habitat Doées des billets suisses authetiques Doées des billets suisses cotrefaits Hauteurs d arbres das 3 forêts Jour et quatité de pluie par aées Quatiles de la statistique de Kolmogorov

8

9 1 Élémets de statistique descriptive Le but de ce chapitre est de préseter les outils graphiques les plus répadus de la statistique descriptive. O cosidérera les cas d ue série umérique uidimesioelle et bidimesioelle. Avat de retrer das le vif du sujet, apportos ue petite précisio à ue idée très largemet répadue, selo laquelle le but de la disciplie statistique est d aalyser des doées issues d ue expériece à caractère aléatoire. Cela sous-eted qu il est pas possible ou qu il est pas utile d appliquer la méthodologie statistique aux doées recueillies par u procédé détermiiste (o aléatoire). Cette ue déductio erroée. La boe défiitio de l objectif de la Statistique e tat que disciplie scietifique, à otre avis, serait d explorer les «propriétés fréquetielles» d u jeu de doées. Par «propriétés fréquetielles», o compred les propriétés qui restet ivariates par toute trasformatio des doées (comme, par exemple, la permutatio) qui e modifie pas la fréquece des résultats. Le but de ce chapitre est d itroduire les statistiques pricipales et de doer u aperçu des outils graphiques les plus utilisés. 1.1 Répartitio d ue série umérique uidimesioelle Supposos que les doées qu o a à otre dispositio représetet valeurs réelles otées x 1,..., x costituat les résultats d ue certaie expériece répétée fois. Des exemples de source de telles doées sot : les sodages, les expérieces scietifiques (physiques, chimiques, médicales,...), les eregistremets historiques (météorologiques, socioécoomiques,...). Das certais cas, ces doées sot volumieuses et difficiles à iterpréter. O a alors besoi de les résumer et de trouver des outils pertiets pour les visualiser. Afi que l aalyse statistique d ue série umérique ait u ses, il faut que les différets élémets de cette série représetet la même quatité mesurée sur des etités différetes. Par exemple, x 1,..., x peuvet être les hauteurs de immeubles choisis au hasard à Paris, ou les températures jouralières moyees à Paris eregistrées au cours de l aée 2009, etc. O dit alors que x 1,..., x sot les valeurs d ue variable (statistique) observées sur idividus.

10 10 Élémets de statistique descriptive Chapitre 1 O va différecier deux types de séries umériques : celles qui représetet ue variable discrète et celles qui représetet ue variable cotiue 1. O dit qu ue variable est discrète, si le ombre de valeurs différetes parmi x 1,..., x est petit devat. Cette défiitio est loi d être rigoureuse, mais cela est e gééral pas très gêat. Das les deux exemples doés au paragraphe précédet, les variables «hauteur d immeuble» et «température jouralière moyee» sot cotiues. Si au lieu de mesurer la hauteur d u immeuble, o comptait le ombre d étages, ce serait ue variable discrète Histogramme Pour les séries umériques représetates ue variable discrète, o défiit l histogramme comme la foctio h : R N qui à chaque x R associe le ombre d élémets das la série x 1,..., x égaux à x. Par exemple, l histogramme de la série umérique (1.1) est tracé das la Figure 1.1 (à gauche). Ue approche alterative cosiste à défiir h(x) comme la proportio des élémets das la série égaux à x. O utilise alors la forme aalytique h(x) = 1 1(x i = x). i=1 Das le cas où la série umérique qu o cherche à aalyser est cotiue, o commece par choisir ue partitio de R e u ombre fii d itervalles : I 0, I 1,..., I k. Ayat fixé la partitio, o défiit l histogramme de la série x 1,..., x comme la foctio h : R R + doée par la formule h(x) = j I j, si x I j, où j est le ombre d élémets de la série qui se trouvet das le jème itervalle I j de la partitio et I j est la logueur de l itervalle I j. Le choix de la partitio est ue questio délicate que l o approfodira pas ici. Das la plupart des cas, o choisit ue partitio uiforme (c est-à-dire, tous les I j sot de même logueur) d u itervalle coteat toutes les valeurs de la série umérique. De plus, o essaye de faire e sorte qu il y ait au mois 5 observatios das chaque itervalle o-vide. Par exemple, l histogramme de la série umérique (1.2) est tracé das la Figure 1.1 (à droite) Foctio de répartitio empirique Ue représetatio alterative des fréqueces des valeurs coteues das ue série umérique est la foctio de répartitio, appelée égalemet histogramme cumulé. Pour u x R, 1. Le terme variable cotiue est pas très bie choisi, mais cela e pose pas de problème majeur.

11 Sectio 1.2 Statistiques d ue série umérique uidimesioelle 11 FIGURE 1.1 Exemples d histogrammes. A gauche : l histogramme de la série discrète (1.1). A droite : l histogramme de la série (1.2). FIGURE 1.2 Foctio de répartitio empirique (FDRE). A gauche : la FDRE de la série discrète (1.1). A droite : la FDRE de la série (1.2). O voit bie que c est ue foctio e escalier croissate, qui vaut 0 sur l itervalle ], mi i x i [ et qui vaut 1 sur l itervalle ] max i x i, + [. la valeur e x de la foctio de répartitio d ue série umérique x 1,..., x est la proportio des élémets de la série iférieurs ou égaux à x, c est-à-dire : ˆF (x) = 1 1(x i x). i=1 L avatage de la foctio de répartitio, comparé à l histogramme, est que sa défiitio est idetique das le cas d ue variable discrète et das le cas d ue variable cotiue. 1.2 Statistiques d ue série umérique uidimesioelle O appelle ue statistique toute foctio qui associe aux doées x 1,..., x u vecteur S(x 1,..., x ) R p. O utilise les statistiques pour résumer les doées Statistiques de tedace cetrale et de dispersio Les trois statistiques de tedace cetrale les plus utilisées sot la moyee, la médiae et le mode. O les appelle égalemet les statistiques de positio.

12 12 Élémets de statistique descriptive Chapitre 1 La moyee, otée x, est défiie par : x = 1 x i. i=1 La médiae, otée Med x, est u ombre réel tel qu au mois la moitié des doées sot Med x et au mois la moitié des doées sot Med x. Le mode, oté Mode x, est la valeur la plus fréquete à l itérieur de l esemble des doées. Cotrairemet à la moyee, la médiae et le mode e sot pas toujours uiques. Les trois statistiques de dispersio les plus utilisées sot la variace, l écart-type et l écart iterquartile. La variace, otée v x, est la valeur moyee des carrés des écarts etre les doées et la moyee : v x = 1 i=1 (x i x) 2. L écart-type, otée s x, est la racie carré de la variace : s x = v x. L écart iterquartile est la différece etre le troisième et le premier quartile : Q 3 Q 1, où le premier quartile Q 1 (respectivemet, le troisième quartile Q 3 ) est la médiae des doées < Med x (resp. > Med x ) Statistiques d ordre et quatiles Etat doé ue série de doées uidimesioelles x 1,..., x, o s itéresse souvet à la plus petite valeur mi i x i ou à la plus grade valeur max i x i prise par les x i. E statistique, o utilise les otatios x (1) = mi 1 i x i, x () = max 1 i x i, et o les appelle première et derière statistiques d ordre. Plus gééralemet, o défiit la statistique d ordre de rag k, otée x (k), comme la k ème plus petite valeur parmi x 1,..., x. Plus précisémet, soit (i 1,..., i ) ue permutatio (il peut y e avoir plusieurs) des idices (1,..., ) qui classe les doées das l ordre croissat : x i1 x i2... x i. O appelle alors statistique d ordre k la valeur x (k) = x ik. Pour toute valeur α [0, 1], o appelle quatile d ordre α, oté q x α, de la série x 1,..., x, la statistique d ordre x (m) avec m = [α]. E utilisat la otio de quatile, o peut redéfiir les quartiles et la médiae comme suit : Q 1 = q x 0.25, Med x = q x 0.5, Q 3 = q x E pratique, ces défiitios de quartiles et médiae coduiset vers des résultats qui diffèret légèremet de ceux obteus par la première défiitio, mais gééralemet la différece est pas importate et décroît lorsque la taille de la série augmete.

13 Sectio 1.2 Statistiques d ue série umérique uidimesioelle Statistiques de forme Les deux statistiques de forme les plus utilisées sot le coefficiet d asymétrie et le coefficiet d aplatissemet. Le coefficiet d asymétrie (skewess), otée α x, et le coefficiet d aplatissemet (kurtosis), otée β x, sot défiis par : α x = 1 s 3 x i=1 (x i x) 3, β x = s 4 x i=1 (x i x) 4. O peut facilemet vérifier que le coefficiet d asymétrie de toute série umérique symé- FIGURE 1.3 Exemples de répartitios asymétriques : le coefficiet d asymétrie est positive pour la distributio à gauche et égative pour celle de droite. trique est ul. (O dit qu ue série umérique est symétrique par rapport à u ombre réel mu, si pour tout a > 0 la fréquece de la valeur µ + a das la série est égale à celle de µ a. O peut égalemet vérifier que le coefficiet d aplatissemet ted vers zéro lorsque si la série umérique représete des réalisatios idépedates de la loi gaussiee N (0, 1) Box plots (Boîtes à moustaches) U résumé simple et pratique de la répartitio d ue série x 1,..., x est doé par le quituplé (A, Q 1, Med x, Q 3, B), où A et B représetet les limites iférieure et supérieure de l itervalle e dehors duquel les doées sot cosidérées comme aberrates (o les appelle aussi atypiques ou des outliers). Q 1 et Q 3 sot respectivemet le premier et le troisième quartile. Med x est la médiae de l échatillo. Ce quituplé est utilisé pour costruire le diagramme e boîte ou à moustaches que ous appelleros désormais boxplot. La forme géérale d u boxplot est motrée das la Figure 1.4. Les valeurs A et B sot détermiées par les formules { } A = mi x i : x i Q 1 1.5(Q 3 Q 1 ), { } B = max x i : x i Q (Q 3 Q 1 ). Si la série umérique a ue répartitio ormale (Gaussiee), la probabilité qu ue valeur de la série se trouve e dehors de l itervalle [A, B] est de 0.7%.

14 14 Élémets de statistique descriptive Chapitre 1 FIGURE 1.4 La forme typique d ue boîte à moustaches (ou boxplot), le rectagle bleu état la boîte et les segmets [A, Q 1 ] et [Q 3, B] état les moustaches. Pour compléter le boxplot, o fait apparaître les valeurs aberrates. Toutes les valeurs qui se trouvet e dehors de l itervalle [A, B] sot désigées par u symbole (souvet par ue étoile). Das l exemple de la Fig. 1.4, il y a pas de valeur aberrate. Pour iterpréter u boxplot, il faut oter que la moitié des valeurs de la série se trouvet etre Q 1 et Q 3, c est-à-dire das la boîte du boxplot, la moitié des valeurs de la série se trouvet à gauche de la médiae, s il y a pas de valeurs aberrates, toutes les valeurs de la série se trouvet etre A et B. Les boxplots sot pratiques pour comparer deux séries statistiques. 1.3 Statistiques et représetatios graphiques de deux séries umériques Cosidéros maiteat le cas de deux séries umériques x 1,..., x et y 1,..., y correspodat aux valeurs de deux variables prélevées sur le même idividu. Par exemple, x i et y i peuvet costituer la taille et le poids d ue persoe, la température moyee et le iveau de pollutio à Paris u jour doé, Covariace et corrélatio La statistique la plus utilisée das le cotexte de deux séries umériques est la corrélatio. Pour la défiir, la otio de covariace doit être itroduite. O appelle covariace des séries umériques x 1,..., x et y 1,..., y la valeur s xy = 1 i=1 (x i x)(y i ȳ), où x et ȳ sot respectivemet la moyee des x i et celle des y i. O appelle coefficiet corrélatio ou coefficiet corrélatio liéaire des séries umériques x 1,..., x et y 1,..., y la valeur ρ xy = s xy s x s y, où s x et s y sot respectivemet l écart-type des x i et celui des y i. Par covetio, o pose ρ xy = 0 si au mois l u des deux écart-types s x, s y est ul. Propositio 1.1. Le coefficiet de corrélatio est toujours etre 1 et +1 : 1 ρ xy 1.

15 Sectio 1.3 Statistiques et représetatios graphiques de deux séries umériques 15 De plus, ρ xy = 1 si et seulemet si les séries x 1,..., x et y 1,..., y sot liées par ue relatio affie, c est-à-dire x i = ay i + b pour tout i = 1,...,. Démostratio. E utilisat l iégalité de Cauchy-Schwarz, o vérifie que s xy 1 (x i x)(y i ȳ) 1 ( i=1 i=1 (x i x) 2 i=1 (y i ȳ) 2) 1 2 = s x s y. Cela implique que le coefficiet de corrélatio ρ xy = s xy /(s x s y ) est toujours etre 1 et +1. De plus, l iégalité de Cauchy-Schwarz est ue égalité si et seulemet si x i x = a(y i ȳ), ce qui etraîe la secode assertio de la propositio Nuage de poits et droite de régressio Supposos que l o dispose de deux séries umériques x 1,..., x et y 1,..., y représetat les valeurs de deux variables prélevées sur idividus. Il est aturel et pratique de représeter ces doées sous forme d u uage de poits. Il s agit de représeter par u symbole (losage, das l exemple de la Fig. 4.1) les poits de coordoées (x i, y i ). A titre d exemple, cosidéros les doées présetées das la Table 1.1. Ces doées représetet deux variables dot les valeurs sot eregistrées pour = 38 idividus. Les idividus sot des pays, alors que les deux variables X et Y sot respectivemet le PIB (produit itérieur brut) par habitat et la cosommatio d éergie par habitat. Le uage de poit de ces doées est affiché das la partie haute de la Figure 4.1. Das ce cotexte, l idetité des idividus représete u itérêt (cela est pas toujours le cas). Il est alors pratique de marquer à côté de chaque poit du uage ue chaîe de caractère permettat l idetificatio de l idividu représeté par le poit. C est ce qui est fait das la partie basse de la Fig Cosommatio d éergie Cosommatio d éergie ArSa Kow Ca Aus 4 Rus CorS Alm Fr R UJap Sui Isr Esp It AfS Por Gr 2 Ir Ve Arg Nig Egy Ch Alg BréTur Vie Bé Id Par Mar Col 0 Sé Phi FIGURE 1.5 Le uage de poits représetat les doées de la Table 1.1. E haut : le uage simple. E bas : le uage aoté PIB E U Suè Nor Lu x 10 4

16 16 Élémets de statistique descriptive Chapitre 1 Pour redre le uage de poit plus lisible, o a souvet recours à ue trasformatio d ue ou des deux variables. Das l exemple de la Table 1.1, o obtiet u uage de poit plus iterprétable (voir la Fig. 4.3) e preat le logarithme des deux variables. log(cosommatio d éergie) Nig Vie Bé Id Sé Egy Par Phi Ch Mar Ir Col Alg Bré Arg Rus Ve Tur AfS log(pib) ArSa Kow Ca E U Aus Suè Nor Fr CorS Alm Jap Esp Sui Isr It R U Por Gr FIGURE 1.6 Le uage de poits représetat les logarithmes des doées de la Table 1.1. Lu Afi d obteir ue droite approximat le uage de poits, o calcule la droite de régressio de Y sur X, doée par l équatio y = ax + b où a = s xy s 2, b = ȳ a x. (1.3) x Pour les doées de la Table 1.1, la droite de régressio aisi que so équatio sot doées das la Fig O voit das la formule (1.3) que la droite de régressio de Y sur X e coïcide pas, e gééral, avec la droite de régressio de X sur Y. Si l o ote M i le poit qui a pour coordoées (x i, y i ) et par d i la distace etre M i et le poit M i = (x i, ax i + b), alors la droite de régressio est la droite pour laquelle la somme des d i au carré est miimale. C est la raiso pour laquelle o dit que la droite de régressio est obteue par la méthode des moidres carrés. O reparlera de cette propriété das u cadre plus gééral plus loi das ce documet. Cosommatio d éergie y = *x FIGURE 1.7 Le uage de poits représetat les doées de la Table 1.1 superposé de la droite de régressio. PIB d i M i x QQ-plot (graphiques quatile-quatile) U QQ-plot permet de voir rapidemet l adéquatio d ue série umérique à ue distributio, ou comparer les répartitios de deux séries umériques. 1er cas : Lorsque l o s itéresse à l adéquatio à ue distributio, l axe des ordoées porte les quatiles q j de la distributio observée, tadis que l axe des abscisses porte les quatiles q j correspodats de la loi théorique.

17 Sectio 1.3 Statistiques et représetatios graphiques de deux séries umériques 17 2ème cas : Lorsque l o s itéresse à la comparaiso de deux distributios, l axe des ordoées porte les quatiles q x j de la série x 1,..., x, tadis que l axe des abscisses porte les quatiles q y j de la série y 1,..., y. Le uage des poits (q j, q j) (respectivemet (q y j, qx j )) s alige sur la première bissectrice lorsque la distributio théorique proposée est ue boe représetatio des observatios (resp., lorsque les répartitios des x i et des y i sot égales). Si le uage des poits (q j, q j) s alige sur ue droite, alors il existe ue trasformatio affie des observatios telle que la distributio théorique proposée est ue boe représetatio des observatios trasformées. Quatiles of Iput Sample 8 x Y Quatiles Stadard Normal Quatiles X Quatiles x 10 4 FIGURE 1.8 QQ-plots pour les doées de la Table 1.1. Le graphe de gauche idique que la répartitio du PIB est sigificativemet différete d ue loi ormale. Le graphe de droite motre que les répartitios du PIB et de la cosommatio d éergie e sot pas liées par ue trasformatio affie. Exercice 1.1. Le tableau suivat présete les doées du PIB par habitat pour 15 pays dot la majeure partie se trouve e Asie. Ces doées ot été obteues sur le site http: // Le boxplot de ces doées a la forme suivate : 1. Selo ce diagramme, quelle est la valeur médiae du PIB/habitat e Asie? 2. Y a-t-il des doées atypiques? 3. La répartitio du PIB/habitat est-elle symétrique? Commet s iterprète cette asymétrie? 4. Répodre à la questio 3 e utilisat l iformatio que la moyee des 15 observatios qu o dispose est de Pays PIB / habitat (e $ US, 2004) Afghaista 174 Arabie Saoudite 9285 Arméie 1034 Chie 1258 Corée du Sud Ide 631 Ira 2350 Israël Japo Koweït Pakista 81 Philippies 948 Russie 4071 Turquie 4296 Vietam 520

18 18 Élémets de statistique descriptive Chapitre Résumé du Chapitre 1 Série umérique : Variable discrète : Variable cotiue : Histogramme : variable discrète : variable cotiue : Foctio de répartitio empirique : Statistiques de tedace cetrale : moyee : médiae : mode : Statistiques de dispersio : variace : écart-type : écart iterquartile : Statistiques d ordre : Quatiles : Boxplots : Covariace : Corrélatio : Nuage de poits : Droite de régressio : QQ-plot :

19 Sectio 1.4 Résumé du Chapitre 1 19 Pays PIB par habitat Cosommatio d éergie par habitat (e $ US, e 2004) (e Toes d équivalet pétrole, e 2002) Afrique du sud Algérie Béi Egypte Maroc Nigeria Séégal Allemage Espage Frace Grèce Italie Luxembourg Norvège Portugal Royaume-Ui Suède Suisse Arabie Saoudite Chie Corée du Sud Ide Ira Israël Japo Koweït Philippies Russie Turquie Vietam Argetie Brésil Caada Colombie Etats-Uis Paraguay Veezuela Australie TABLE 1.1 Ces doées sot obteues du site

20

21 2 Aalyse des doées multivariées 2.1 Itroductio Objectif Das toute étude appliquée, la démarche première du statisticie est de décrire et d explorer les doées dot il dispose, avat d e tirer de quelcoques lois ou modèles prédictifs. Or la statistique traite gééralemet du grad ombre et, les outils iformatiques aidat, les bases de doées devieet de plus e plus volumieuses, tat e largeur (quatité d iformatios recueillies) qu e hauteur (ombre d uités sur lesquelles ces iformatios sot recueillies). Cette phase d exploratio descriptive des doées est e coséquece pas aisée. Si le statisticie est déjà outillé pour aalyser la distributio d ue variable ou la relatio etre deux variables, ces outils basiques e permettet pas d appréheder ce vaste esemble iformatif das sa globalité. Il e s agit aturellemet pas d e doer alors ue visio exhaustive, mais bie de répodre à l ue des pricipales missios du statisticie : extraire d ue masse de doées ce qu il faut e reteir, e la sythétisat ou e simplifiat les structures. Les techiques d aalyse de doées répodet à ce besoi. O présetera ici l Aalyse e Composates Pricipales (ACP) qui s appuie sur la réductio de rag découlat des travaux de décompositio matricielle d Eckart et Youg (1936). Le but pricipal de l ACP est de détermier les pricipales relatios liéaires das u esemble de variables umériques. Il s agit bie de réduire u esemble complexe et de grade dimesio à ses pricipaux élémets, de faço à e mieux compredre les structures sous-jacetes Notatios O dispose de p variables X 1,..., X j,..., X p, que l o observe sur uités statistiques - ou idividus : o ote x j i la valeur de la variable Xj observée sur le i-ème idividu. Cet esemble de doées peut doc être mis sous la forme d u tableau X à liges et p coloes, et de terme courat x j i.

22 22 Aalyse des doées multivariées Chapitre 2 Das la suite - et c est très gééralemet le cas e aalyse des doées, cotrairemet aux autres domaies de la statistique - o cofodra la otio de variable avec le vecteur de dimesio qui la défiit sur otre échatillo, c est-à-dire X j = (x j 1,..., xj ). De même, chaque idividu sera assimilé au vecteur de dimesio p qui compile ses valeurs sur les variables : X i = (x 1 i,..., xp i ). x xp 1 X =..... x 1... x p } {{ } p variables idividu # 1, oté X 1 idividu #, oté X. 2.2 Exemple : billets suisses Nous choisiros ici u exemple décrivat 6 mesures, otée X 1,..., X 6, relevées sur 200 billets de 1000 Fracs Suisses. La Figure 2.1 présete la ature des mesures effectuées alors que l esemble des doées recueillies est doé das les Tables 2.1 et 2.2. Sur les 200 billets examiés, il y a eu 100 billets authetiques et 100 billets cotrefaits. Cet exemple comporte volotairemet u ombre réduit de variables, pour e faciliter la compréhesio. Pour compredre ce qu apportet les méthodes d aalyse de doées, meos au préalable ue brève aalyse descriptive de ces tableaux du poit de vue des variables. FIGURE 2.1 Cette figure motre ue coupure de 1000 Fracs Suisses (acies) avec les 6 mesures effectuées. Etude descriptive des variables Classiquemet, o peut se livrer à ue aalyse de la distributio de chaque variable. Cela peut se faire, par exemple, e visualisat les boxplots de chacue des 6 variables X i. La Fig. 2.2 motre ces boxplots, qui ous reseiget sur les caractéristiques idividuelles des variables X i. O y voit, etre autre, qu il y a 2 billets dot la logueur est aormalemet

23 Sectio 2.3 La théorie de l Aalyse e Composates Pricipales 23 grade et u billet dot la logueur est aormalemet petite. O remarque égalemet, e comparat les boxplots de X 2 et X 3, que la largeur à gauche est typiquemet légèremet plus grade que la largeur à droite. X 1 X 2 X 3 X 4 X 5 X 6 FIGURE 2.2 Les boxplots des doées de billets suisses Cette figure e dit cepedat rie sur la relatio etre les variables. Pour appréheder les distributios bivariées, des outils d aalyse vus à la fi du chapitre précédet peuvet être appliqués à tous les paires de variables. Exemples de tels outils sot la matrice de «scatter plots» (voir Fig. 2.3), ou la matrice des coefficiets de corrélatio liéaire. Ce derier représete u itérêt surtout lorsque les uages sot aplatis ou les répartitios bidimesioelles sot approximativemet gaussiees. Voici le tableau des corrélatios : X 1 X 2 X 3 X 4 X 5 X 6 X X X X X X Ce tableau motre que les variables X 2 et X 3 sot les plus corrélées, ce qui est tout à fait logique et cela se voyait déjà sur le scatter plot de la Fig O voit doc qu o dispose des outils qui ous permettet d aalyser les variables idividuellemet ou deux par deux. Il ous maque cepedat des outils de sythèse, qui permettraiet de dégager la structure globale de ces doées. Nous allos e développer u, parmi les plus utilisés. 2.3 La théorie de l Aalyse e Composates Pricipales Problématique O se place ici das la situatio où les p variables d itérêt X 1,..., X j,..., X p, sot umériques. Pour appréheder l iformatio coteue das le tableau umérique X, o peut teter de visualiser le uage de poits représetat les idividus das R p. Mais très souvet, le ombre de variables p peut atteidre quelques dizaies. Quoiqu il e soit, même

24 24 Aalyse des doées multivariées Chapitre 2 FIGURE 2.3 Scatter plots des différetes variables avec des outils de visualisatio performats, X e peut être appréhedé de faço simple das sa globalité, i les relatios etre les variables. La problématique est alors double : Commet visualiser la forme du uage des idividus? Commet sythétiser les relatios etre variables? L ACP permet justemet de répodre à ce type de besoi Choix de la métrique La méthode d Aalyse e Composates Pricipales requiert u espace vectoriel mui d u produit scalaire. Das ce chapitre, ous cosidéreros l espace euclidie R p mui de so produit scalaire caoique. La métrique associée est doée par X i X i 2 = p ( j x i ) 2. xj i j=1 Défiitio 2.1. Soiet x j = 1 i=1 xj i et s 2 j = 1 i=1 ( x j i xj) 2 la moyee et la variace de la variable d itérêt X j. La représetatio cetrée de l idividu i est doée par x j 1,..., xj p, où pour tout 1 j p, x j i = xj i xj.

25 Sectio 2.3 La théorie de l Aalyse e Composates Pricipales 25 La représetatio cetrée-réduite de l idividu i est doée par x j 1,..., xj p, où pour tout 1 j p, x j i = xj i xj s j. Ue ACP ormée est ue ACP meée sur la représetatio cetrée-réduite. L ACP opère toujours sur les représetatios cetrées. Pour simplifier la présetatio, o cosidérera das la suite que les variables ot été déjà cetrées, das le ses où i=1 X i = 0. Les différetes variables X j pouvat être hétérogèes, et correspodre à des échelles de mesure disparates, la représetatio cetrée-réduite est utilisée pour éviter que le choix de ces uités ait ue ifluece das le calcul des distaces. Cette représetatio red les variables cetrées et de variace Moidre déformatio du uage Pour visualiser le uage des idividus (et doc e coaître la forme, pour savoir commet sot liées os p variables), il est écessaire de réduire la dimesio de l espace qui le porte. L ACP réduit cette dimesio par projectio orthogoale sur des sous-espaces affies. Défiitio 2.2. Soit X 1,..., X u uage de poits dot le barycetre coïcide avec l origie (c est le cas pour des variables réduites). L iertie du uage X 1,..., X est doée par I = 1 X i 2. i=1 L iertie J H du uage autour du sous-espace liéaire H est doée par J H = 1 où P H X i le projeté orthogoal de X i sur H. X i P H X i 2, i=1 L iertie J H autour de H mesure la déformatio du uage lorsque celui-ci est projeté orthogoalemet sur H. Pour que la représetatio des doées par leur projectio sur u sous-espace affie ait u ses, il faut qu elle modifie peu la forme du uage de poits, doc qu elle miimise l iertie J H. Remarquos que d après le théorème de Pythagore, o a I = 1 ( Xi P H X i 2 + P H X i 2) déf = J H + I H. i=1 Par coséquet, la moidre déformatio d u uage de poits par projectio orthogoale sur u sous-espace liéaire est obteue, de maière équivalete, par miimisatio de l iertie par rapport au sous-espace liéaire ou par maximisatio de l iertie du uage projeté. Das le but de pouvoir visualiser le uage de poits des idividus, o aimerait trouver das R p u sous-espace liéaire de dimesio 2 (c est-à-dire, u pla) qui approche bie les doées. O est doc tout aturellemet itéressé par la résolutio du problème H 2 = arg mi J H = arg max I H H:dim(H)=2 H:dim(H)=2 } {{ } } {{ } miimisatio de la déformatio du uage maximisatio de l iértie du uage projeté

26 26 Aalyse des doées multivariées Chapitre 2 D ue faço plus géérale, o s itéresse aux sous-espaces liéaires H k, pour k {1,..., p 1}, défiis par H k = arg mi J H = arg max I H. (2.1) H:dim(H)=k H:dim(H)=k Par exemple, si le uage des idividus das R p est pas bie approximable par u pla, il pourrait être plus itéressat de cosidérer ue visualisatio 3 dimesioelle e projetat les doées sur H 3. Das certais cas, cela peut cosidérablemet augmeter l iertie du uage projeté. Motros maiteat que la recherche d u sous-espace affie de dimesio fixée maximisat l iertie du uage projeté peut être meée de maière séquetielle et que l iertie se décompose e la somme des ierties moyees du uage projeté sur des droites orthogoales, dites directios pricipales de l ACP. Soit Γ la matrice de variace-covariace associée au uage de poits (das la représetatio cetrée, les moyees X j sot ulles) : Γ = 1 (X)t X, autremet dit Γ j,j = i=1 xj i xj i est la covariace etre les variables d itérêt X j et X j. Notos au passage que lorsqu o cosidère des variables réduites, la matrice Γ est égalemet la matrice des corrélatios des variables X j. Théorème 2.1. Les assertios suivates caractériset la résolutio séquetielle du problème de réductio de dimesio par moidre déformatio. Soit u k u vecteur propre uitaire de Γ associée à la k-ième plus grade valeur propre. Alors H k = Vect(u 1,..., u k ) est l espace vectoriel egedré par les k premiers vecteurs propres de Γ. La k-ième plus grade valeur propre λ k de Γ vaut l iertie du uage projeté sur le k-ième axe propre u k : I uk = λ k. l iertie sur H k est la somme des ierties moyees sur les k axes propres pricipaux : I Hk = k λ l. l=1 Démostratio. Cherchos d abord le vecteur uitaire, i.e. de orme 1, u maximisat l iertie du uage projeté sur u. Cosidéros la projectio du uage sur la directio doée par le vecteur uitaire u. Le projeté X i de l idividu i s écrit X i = u, X i u et l iertie du uage projeté (ous ous plaços toujours das le cadre de la représetatio réduite) est I u = 1 i=1 u, X i u 2 = 1 i=1 u, X i 2 = 1 u t X i (X i ) t u = u t Γu. i=1 La matrice Γ est symétrique, semi-défiie positive ; elle est diagoalisable, a toutes ses valeurs propres réelles, et il existe ue base orthoormale de vecteurs propres de R p. Notos λ 1... λ p les valeurs propres triées par ordre décroissat, et u 1,..., u p les vecteurs propres uitaires associés. Alors I u = p p 2 2 λ j u, uj λ 1 u, uj = λ 1 u 2 = λ 1. j=1 j=1

27 Sectio 2.4 Représetatios graphiques et iterprétatio 27 Il suffit alors de choisir u = u 1 pour maximiser I u. Par coséquet, la meilleure droite de projectio du uage est celle de vecteur directeur u 1, associé à la plus grade valeur propre λ 1 de la matrice Γ. O admet sas démostratio que pour tout etier k < p, l espace H k+1 est obteu à partir de l espace H k par H k+1 = Vect(H k, v k+1 ) où v k+1 est u vecteur orthogoal à H k. Pour les H k suivats, o procède par récurrece. Asi, pour H 2 o cherche le vecteur directeur u 2 orthogoal à u 1 portat l iertie maximale. Pour tout vecteur u orthogoal à u 1, o a p 2 I u = λ j u, uj λ 2. j=2 Doc le maximum est atteit pour u = u 2, et aisi de suite. Au passage, o a égalemet prouvé la deuxième assertio du théorème : I uk = λ k. La troisième assertio découle alors du théorème de Pythagore. L iertie I du uage de poits est doc égale à la trace de matrice de variace-covariace, ce qui implique I = p, e ACP ormée. (E ACP o ormée, elle vaut la somme des variaces : I = p j=1 s2 j = p l=1 λ l.) O défiit la part d iertie expliquée sur le l-ième axe propre : τ l = λ l /I. L iertie portée par u sous-espace de dimesio k est doc au mieux k l=1 τ l pour cet de l iertie totale I. 2.4 Représetatios graphiques et iterprétatio Sur otre exemple cocerat les billets suisses, o peut chercher à visualiser les proximités (e termes de distace ormée sur les 6 caractéristiques) etre billets sur le premier pla factoriel (u 1 horizotalemet, u 2 verticalemet) (voir Fig.2.4 à gauche). Das cet exemple, FIGURE 2.4 A gauche : projectio des idividus sur le premier pla factoriel. A droite : la même projectio avec des symboles différets pour les billets authetiques et les billets cotrefaits. Les triagles correspodet aux billets cotrefaits, alors que les cercles représetet les billets authetiques. l iertie I = se décompose sur les premiers axes aisi : I 1 = 3 (doc τ 1 = 66.7%), I 2 = 0, 93 (doc τ 2 = 20.8%). O visualise doc de faço simplifiée, mais optimale (τ 1 2 = I u1 u 2 /I =87.5% de l iertie représetée sur ce pla), les proximités etre les billets. Les vecteurs directeurs de ces deux premiers axes s exprimet aisi, das l aciee base :

28 28 Aalyse des doées multivariées Chapitre 2 Vecteur propre X 1 X 2 X 3 X 4 X 5 X 6 u u Reste à iterpréter véritablemet ces axes, et à compredre quels sot les pricipales relatios liéaires etre les caractéristiques techiques Pricipales relatios etre variables Les composates pricipales La diagoalisatio vue précédemmet permet de défiir p ouvelles variables 1 appelées composates pricipales : p C α = uαx j j = Xu α R, j=1 ou ecore Ci α = X i, u α. Elles sot doc combiaisos liéaires des variables d itérêt X j iitiales. Elles sot cetrées puisque les X j le sot, et o a : ( Cov C α, C β) = p j=1 p j =1 u j αu j β Cov (X j, X j ) = u t αγu β = λ β u t αu β. Doc Cov ( { C α, C β) 0 si α = β, =, ce qui veut dire que les différetes composates pricipales sot λ α si α = β, o-corrélées. O peut calculer la covariace etre les composates pricipales et les variables iitiales : ( Cov C α, X j) = p ( uαcov j X j, X j) = j =1 p uα j Γ j,j = λ α uα. j j =1 Il s esuit que ( Corr C α, X j) = Cov ( C α, X j) Var(C α )Var(X j ) = λ α u j α/s j. Doc p j=1 s2 j Corr2 ( C α, X j) = λ α. Pour visualiser les corrélatios etre les composates pricipales et les X j, o établit des représetatios plaes où, e preat par exemple ( C 1, C 2) comme base orthogoale de ce pla, chaque X j est figuré par u vecteur de coordoées ( Corr ( C 1, X j), Corr ( C 2, X j)), à l itérieur du cercle uité 2, dit des corrélatios. 1. De même que précédemmet, o cofodra sous le vocable variable la forme liéaire, et sa réalisatio sur os idividus, soit ecore le vecteur de R associé. 2. Ce vecteur est das le cercle uité car, das R mui du produit scalaire x, y = i=1 x iy i, c est le vecteur projeté orthogoal du vecteur uitaire X j /s j sur le pla egedré par les vecteurs orthoormés C 1 / Var(C 1 ) et C 2 / Var(C 2 ).

29 Sectio 2.4 Représetatios graphiques et iterprétatio 29 Retour à l exemple O voit, das cet exemple (voir la partie droite de la Fig. 2.5), que les variables X 1, X 2 et X 3 sot mal expliquées par les deux premiers axes pricipaux, car les poits représetat ces variables sot éloigés du cercle. E revache, les 3 autres poits sot quasimet sur le cercle, ce qui veut dire que les variables X 4, X 5, X 6 sot très bie expliquées par C 1 et C 2. De plus, comme l agle formé par les vecteurs OX 4 et OX 5 est proche de 90, les variables X 4 et X 5 sot très faiblemet corrélées Nombre d axes (ou de composates) à aalyser Combie d axes aalyser? Il existe plusieurs critères de décisio. Le premier (Kaiser) veut qu o e s itéresse e gééral qu aux axes dot les valeurs propres sot supérieures à la moyee (qui vaut 1 e ACP ormée). U secod (dit du coude, ou de Cattell) utilise le résultat suivat : lorsque des variables sot peu corrélées, les valeurs propres de la matrice d iertie décroisset régulièremet - et l ACP présete alors peu d itérêt. A l iverse, lorsqu il existe ue structure sur les doées, o observe des ruptures das la décroissace des valeurs propres (cf. Fig.2.5). O cherchera doc à e reteir que les axes correspodat aux valeurs qui précèdet la décroissace régulière. Aalytiquemet, cela reviet à chercher u poit d iflexio das la décroissace des valeurs propres, et de e pas aller au-delà das l aalyse. Aisi, das otre exemple, o e s itéressera qu aux 2 premiers axes. FIGURE 2.5 Représetatio des valeurs propres et cercle des corrélatios pour le premier pla factoriel Aides à l iterprétatio Si, pour les variables umériques, la visualisatio des vecteurs à l itérieur du cercle des corrélatios doe toute l iformatio écessaire à l aalyse, il peut être utile de défiir, pour chaque idividu, les aides suivates : La cotributio à l iertie du uage, qui croît avec l excetricité de l idividu : CTR (X i ) = X i 2 I

30 30 Aalyse des doées multivariées Chapitre 2 La cotributio à l iertie portée par u axe (O, u α ) : CTR α (X i ) = ( C α i ) 2 λ α Par costructio : i=1 CTR (X i) = 1, et i=1 CTR α (X i ) = 1. La valeur de ces cotributios déped doc fortemet du ombre d idividus : ue cotributio de 5% sera cosidérée comme forte si l o maipule les doées de milliers d idividus, ettemet mois si l o e a qu ue vigtaie (de faço géérale, o cosidèrera que l idividu i a ue cotributio importate si elle dépasse so poids 1/). La qualité de projectio sur l axe (O, u α ) est doée par le carré du cosius de l agle : CO2 α (X i ) = ( C α i ) 2 X i 2. Par orthogoalité des u α, la qualité de projectio d u idividu sur u sous-espace pricipal est additive : CO2 α+β (X i ) = CO2 α (X i ) + CO2 β (X i ). D autre part, o remarque que p α=1 CO2 α (X i ) = 1 ; de même que précédemmet, cette qualité déped fortemet du ombre iitial de variables : o pourra être exigeat si l o e maipule qu ue poigée, o le sera mois s il y e a davatage. Pour u axe doé, l exame parallèle des CTR et des CO2 des idividus qui s y projettet peut doer lieu à quatre cas de figure, dot u pose problème (CO2 faible-ctr forte), qui apparaît lorsqu u idividu a u poids trop fort par rapport aux autres : CTR faible CTR forte CO2 faible Elémet peu cotributif Elémet très cotributif quasi idépedat de l axe mais peu illustratif de l axe CO2 forte Elémet peu cotributif Elémet particulièremet mais bie illustratif de l axe caractéristique de l axe 2.5 Résumé du Chapitre 2 Tableau de doées multivariées : variables : idividus : Matrice des corrélatios : Matrice de scatter-plots : Représetatio cetrée :

31 Sectio 2.5 Résumé du Chapitre 2 31 Représetatio cetrée-réduite : Aalyse e Composates Pricipales (ACP) : ACP ormée : Iertie du uage : Iertie autour d u sous-espace : Composates pricipales : Représetatio graphiques dérivées de l ACP : Projectio des idividus : Scree-graph : Projectio des variables :

32 32 Aalyse des doées multivariées Chapitre 2 X 1 X 2 X 3 X 4 X 5 X X 1 X 2 X 3 X 4 X 5 X TABLE 2.1 Les doées de billets suisses authetiques. Le tableau compred 100 liges (idividus) et 6 coloes (variables). Ces variables sot décrites das la Fig Toutes les valeurs sot e mm.

33 Sectio 2.5 Résumé du Chapitre 2 33 X 1 X 2 X 3 X 4 X 5 X X 1 X 2 X 3 X 4 X 5 X TABLE 2.2 Les doées de billets suisses cotrefaits. Le tableau compred 100 liges (idividus) et 6 coloes (variables). Ces variables sot décrites das la Fig Toutes les valeurs sot e mm.

34

35 3 Rappel des bases de la statistique paramétrique Das ce chapitre, ous survolos rapidemet les bases du calcul des probabilités et de la statistique. Toutes les otios et tous les résultats présetés ci-dessous costituet les prérequis pour ce cours de «Statistique umérique et aalyse des doées». Pour ue présetatio plus détaillée des sujets traités das ce chapitre voir le polycopié du cours de 1ère aée Itroductio Les problèmes statistiques que ous allos étudier das le cadre de ce module peuvet se résumer de la faço suivate : ous disposos d u jeu de doées qui sot supposées être géérées par u phéomèe aléatoire. (Rappelos que tout phéomèe aléatoire est etièremet caractérisé par sa loi de probabilité.) De plus, ous cosidéros qu u travail de modélisatio a été effectué à l issue duquel la loi de probabilité régissat les doées a été détermiée à u paramètre icou près. Das ce cotexte, les trois types de problèmes que ous allos étudier sot : estimatio : trouver ue valeur approchée du paramètre icou, régio de cofiace : détermier ue régio (aussi petite que possible) qui cotiet le paramètre icou avec ue probabilité prescrite (gééralemet 95%), test d hypothèse : pour u esemble Θ 0 de valeurs possibles du paramètre icou, décider au vu des doées si oui ou o le paramètre icou appartiet à Θ 0. Afi de faciliter la compréhesio, les différetes otios itroduites das ce chapitre serot illustrées das les deux exemples suivats. Exemple 1. (Qualité de l air) O cherche à évaluer la fréquece des jours où l idice ATMO (mesurat la qualité de l air) à Paris dépasse 2 le iveau 8. Pour avoir ue estimatio simple, o choisit au hasard jours das le passé et o regarde si oui ou o le iveau 8 a été dépassé ces jours-là. O obtiet aisi u échatillo x 1,..., x où chaque x i pred 1. B. Jourdai, Probabilités et statistique, 2. L idice ATMO varie sur ue échelle allat de 1 (très boe) à 10 (exécrable). Lorsque la valeur de cet idice dépasse le iveau 8, la qualité de l air est cosidérée comme mauvaise.

36 36 Rappel des bases de la statistique paramétrique Chapitre 3 deux valeurs : 0 ou 1. Par covetio, la valeur 0 correspod à u jour où le iveau 8 a pas été dépassé. Nous modélisos le dépassemet du iveau 8 par l idice ATMO par ue variable aléatoire X de loi de Beroulli ; Proba(X = 1) = ϑ, Proba(X = 0) = 1 ϑ pour ue valeur ϑ ]0, 1[ qui ous est icoue. Cette valeur représete la fréquece moyee des jours où la qualité de l air a été mauvaise à Paris. Exemple 2. (Vitesse du vet) Afi d étudier la possibilité de l istallatio d ue cetrale éoliee sur u site doé, o cherche à estimer la probabilité de l évéemet «la vitesse du vet sur le site e questio est iférieure à 10km/h». L itérêt à l égard de cet évéemet viet du fait que, lorsque la vitesse du vet est iférieure à 10km/h, ue cetrale éoliee s arrête e raiso des forces de frottemet sec qui s opposet à la rotatio de l hélice. L approche la plus simple cosiste à modéliser la vitesse du vet sur le site e questio à u istat doé par ue variable aléatoire de loi expoetielle. E d autres termes, si X représete la vitesse du vet, o suppose que Proba(X [a, b]) = b a p(ϑ ; x) dx, p(ϑ ; x) = 1 ϑ e x/ϑ 1l [0, [ (x), où ϑ > 0 est u paramètre icou. Si l o admet que cette modélisatio est correcte, o peut calculer la probabilité de l évéemet A = «la vitesse du vet est iférieure à 10km/h» par la formule Proba(A) = ϑ e x/ϑ dx = 1 e 10/ϑ. Par coséquet, ue valeur approchée de ϑ ous permettrait de calculer ue valeur approchée de la probabilité de l évéemet A. Pour pouvoir estimer ϑ, ous mesuros la vitesse du vet à istats suffisammet espacés das le temps, ce qui ous fourit les observatios x 1,..., x. Le but d u statisticie est, etre autre, d utiliser ces observatios pour estimer le paramètre ϑ. 3.2 Modèle statistique Nous commeços par doer la défiitio géérale d u modèle statistique, que ous illustros par la suite das les deux exemples présetés ci-dessus. Défiitio 3.1. O appelle modèle statistique la doée d u espace mesurable (X, F ) et d ue famille de mesures de probabilité P = {P,ϑ, ϑ Θ} défiies sur (X, F ). L espace X, appelé espace d états, est costitué de toutes les valeurs qu aurait pu predre le jeu de doées étudié. La famille P décrit l esemble des lois de probabilité pouvat avoir gééré le jeu de doées étudié. Pour u modèle statistique doé, la problématique géérale de la théorie statistique s éoce de la faço suivate : au vu d ue réalisatio x () X tiré au hasard selo ue loi P,ϑ P, étudier certaies propriétés de P,ϑ. Le plus souvet x () est u vecteur. O cherche doc à caractériser la loi d u vecteur aléatoire X () à partir d ue réalisatio x (). Bie-etedu, si l o autorise la famille P à être ue collectio quelcoque de lois sur (X, F ), la tâche de l extractio de l iformatio fiable sur la loi du vecteur aléatoire X () à partir d ue seule réalisatio est irréalisable. Afi de pouvoir élaborer ue théorie raisoable et utile pour les

37 Sectio 3.3 Estimatio 37 applicatios, o se restreit au cas où la famille P a ue certaie «structure». Exemples de telles structures sot le modèle à observatios i.i.d., le modèle de régressio liéaire, etc. Ce chapitre est etièremet dédié à l étude du modèle à observatios i.i.d. (idépedates et idetiquemet distribuées). Il s agit du cas où x () = (x 1,..., x ) est u vecteur das R dot les coordoées représetet copies idépedates d ue même variable aléatoire X. Cela reviet à postuler que x () est ue réalisatio du vecteur aléatoire X () = (X 1,..., X ) composé de variables aléatoires idépedates distribuées selo la même loi que X. Das ce cas, la loi de X () est etièremet caractérisée par celle de X, car Proba(X 1 A 1,..., X A ) = Proba(X 1 A 1 )... Proba(X A ) = Proba(X A 1 )... Proba(X A ) quels que soiet les itervalles A 1,..., A R. Si P désige la loi de X, o dit alors que X () est u échatillo i.i.d. de loi P. Par coséquet, pour défiir u modèle à observatios i.i.d., il suffit de décrire la famille P = {P ϑ } qui est sesée coteir la loi P de X. Les deux exemples présetés das l itroductio correspodet à des modèles à observatios i.i.d. : das le premier exemple P = {B(ϑ) : ϑ ]0, 1[} où B(ϑ) désige la loi de Beroulli de paramètre ϑ, tadis que das le deuxième exemple P = {E(ϑ 1 ) : ϑ > 0}, où E(λ) désige la loi expoetielle de paramètre λ > 0. E coséquece, das le premier exemple Θ = [0, 1] alors que das le deuxième exemple Θ =]0, [. Tout au log de ce chapitre, o appellera statistique toute foctio de l échatillo X (). 3.3 Estimatio Supposos maiteat qu o dispose d u échatillo i.i.d. X 1,..., X de loi P P = {P ϑ : ϑ Θ}. Cela veut dire que pour u ϑ Θ icou, o a X 1,..., X iid Pϑ. Par la suite, o appellera ϑ la vraie valeur du paramètre. La première questio qu o se pose est celle du calcul d ue valeur approchée de ϑ e utilisat uiquemet l échatillo observé. Défiitio 3.2. Soit X 1,..., X u échatillo i.i.d. de loi P P = {P ϑ : ϑ Θ} avec Θ R p pour u p N. O appelle estimateur de ϑ toute applicatio mesurable ϑ : R R p. Das la statistique théorique, o idetifie l applicatio ϑ au vecteur aléatoire ϑ(x 1,..., X ). U estimateur a pour objectif d approcher la vraie valeur ϑ. Cepedat, la défiitio cidessus e reflète absolumet pas cet objectif. E effet, même si ϑ(x 1,..., X ) est très éloigé de ϑ, ϑ sera appelé u estimateur si peu qu il soit mesurable. Afi de restreidre la classe de tous les estimateurs à ceux qui représetet u itérêt pratique, o spécifie des propriétés qu o aimerait voir satisfaites par u estimateur. Par la suite, pour souliger le fait que l estimateur ϑ déped de (la taille de l échatillo), o utilisera la otatio ϑ. Défiitio 3.3. O dit que l estimateur ϑ est sas biais, si E ϑ [ ϑ ] = ϑ, ϑ Θ,

38 38 Rappel des bases de la statistique paramétrique Chapitre 3 où l expressio E ϑ [ ϑ ] doit être lue comme «espérace du vecteur aléatoire ϑ (X 1,..., X ) sachat iid que X 1,..., X P ϑ». O dit que l estimateur ϑ est coverget (ou cosistat), s il coverge e probabilité vers la vraie valeur, c est-à-dire lim P ϑ ( ϑ ϑ > ε) = 0, ε > 0, ϑ Θ. La propriété de covergece est cetrale e statistique, car elle idique que la valeur estimée de ϑ calculée à l aide de l estimateur ϑ est proche de ϑ si la taille de l échatillo est suffisammet grade. Das beaucoup de situatios, il existe de ombreux estimateurs covergets. O s itéresse alors aux propriétés plus raffiées des estimateurs : la vitesse à laquelle ϑ ted vers ϑ et la loi asymptotique de la différece ϑ ϑ propremet ormalisée. Défiitio 3.4. O dit que l estimateur coverget ϑ est asymptotiquemet de loi P ϑ avec la vitesse γ, où γ > 0, si γ ( ϑ ϑ ) L P ϑ, ϑ Θ, où L désige la covergece e loi. Si P ϑ est la loi gaussiee N (0, σ2 ϑ ), o dit alors que ϑ est asymptotiquemet ormal avec la vitesse γ et la variace limite σ 2 ϑ. Pour démotrer la covergece et la ormalité asymptotique des estimateurs, o utilise le plus souvet les résultats probabilistes présetés das le paragraphe suivat Quelques résultats sur la covergece des variables aléatoires Soit ξ 1, ξ 2,..., ξ,... et ξ des variables aléatoires et soit F ξ (x) = P(ξ x) la foctio de répartitio de ξ, N { }. O distigue les quatre types de covergece (de {ξ } vers ξ ) suivats : 1. covergece e probabilité : pour tout ε > 0, o a lim P( ξ ξ > ε) = 0, 2. covergece presque sûr : P(lim sup ξ ξ = 0) = 1, 3. covergece e moyee quadratique : lim E[(ξ ξ ) 2 ] = 0, 4. covergece e loi : lim F ξ (x) = F ξ (x) pour tout x R tel que F ξ est cotiue e x. Rappelos que les covergeces presque sûr et e moyee quadratique etraîet la covergece e probabilité et cette derière etraîe à so tour la covergece e loi. Notos aussi que la défiitio de la covergece e loi, cotrairemet aux autres types de covergeces précitées, e sous-eted pas que les variables ξ soiet défiies sur le même espace probabilisé. Théorème 3.1 (Loi forte des grads ombres). Soit X 1,..., X des variables aléatoires i.i.d. itégrables : E[ X 1 ] <. Alors, X = 1 où p.s. désige la covergece presque-sûr. p.s. X i E[X 1 ], lorsque, i=1 Théorème 3.2 (Théorème de la limite cetrale). Soit X 1,..., X des variables aléatoires i.i.d. de carré itégrables : E[X 2 1 ] <. Alors, (X E[X 1 ]) L N (0, Var[X 1 ]), lorsque.

39 Sectio 3.3 Estimatio 39 Théorème 3.3 (Méthode delta). Soit X 1,..., X des variables aléatoires i.i.d. de carré itégrables et soit G ue foctio cotiûmet différetiable sur u esemble ouvert A tel que P(X 1 A) = 1. Alors, ( G(X ) G(E[X 1 ]) ) L N (0, σ 2 ), lorsque, avec la variace limite σ 2 = G (E[X 1 ]) 2 Var[X 1 ]. Ces résultats se gééraliset à ue suite de vecteurs aléatoires, auquel cas la variace est remplacée par la matrice de covariace Var[X 1 ] = E[X 1 X1 ] E[X 1]E[X1 ] et la variace limite das la méthode delta est doée par σ 2 = G(E[X 1 ]) Var[X 1 ] G(E[X 1 ]). Théorème 3.4 (Théorème de Slutsky). Soit {ξ } N {η } N deux suites de variables aléatoires défiies sur le même espace probabilisé. Si pour ue costate a R et pour ue variable aléatoire ξ o a L ξ ξ P, et η a alors ξ + η L ξ L + a, et ξ η aξ Estimateur du maximum de vraisemblace Après avoir vu ce que c est u estimateur et quelles sot les propriétés souhaitées d u estimateur, o s itéresse aturellemet à la mise e place d ue procédure géérique permettat la costructio d u estimateur pour ue large classe de modèles. O se focalise ici sur la méthode d estimatio la plus utilisée : le maximum de vraisemblace. De plus, pour éviter le rappel de otios abstraites (absolue cotiuité, théorème de Rado-Nykodim) de la théorie de la mesure, o e doera pas la défiitio de l estimateur du maximum de vraisemblace (EMV) das le cas le plus gééral des modèles domiés, mais seulemet das le cadre des modèles i.i.d. discrets et à desité. Défiitio 3.5. O dira que le modèle à observatios i.i.d. {P ϑ : ϑ Θ} est discret, s il existe u esemble A = {a 1, a 2,...} au plus déombrable tel que P ϑ (A) = 1 pour tout ϑ Θ. E d autres termes, l esemble A cotiet toutes les valeurs possibles prises par les variables de l échatillo. L exemple 1 cosidéré au début de ce chapitre porte sur u modèle discret, car les variables aléatoires costituat l échatillo sot des variables de Beroulli et, par coséquet, preet leurs valeurs das l esemble fii {0, 1}. O caractérise u modèle discret par les probabilités discrètes p(ϑ; a k ) = Proba(X i = a k ), a k A où X 1,..., X iid Pϑ. (3.1) Défiitio 3.6. O dira que le modèle à observatios i.i.d. {P ϑ : ϑ Θ} est à desité, si pour tout ϑ Θ il existe ue foctio (appelée desité) p(ϑ; ) : R R telle que pour tout a, b R. P ϑ ([a, b]) = Proba(X i [a, b]) = b a p(ϑ; x) dx, où X i P ϑ, (3.2)

40 40 Rappel des bases de la statistique paramétrique Chapitre 3 Défiitio 3.7. Soit P = {P ϑ : ϑ Θ} u modèle i.i.d. discret ou à desité et soit p(ϑ, x) la foctio défiie par (3.1) das le cas discret et par (3.2) das le cas à desité. O appelle foctio de vraisemblace l applicatio p : Θ R R +, p (ϑ; x 1,..., x ) = p(ϑ; x i ). (3.3) i=1 O appelle estimateur du maximum de vraisemblace (EMV), oté ˆϑ MV, le poit du maximum global (s il existe) de l applicatio ϑ p (ϑ, X 1,..., X ). O écrit alors ˆϑ MV L EMV das l exemple 1 = arg max ϑ Θ p (ϑ; X 1,..., X ). Das l exemple 1 portat sur la qualité de l air, o dispose d u échatillo i.i.d. X 1,..., X de loi de Beroulli B(ϑ ) avec ϑ Θ =]0, 1[. Il s agit d u modèle discret avec A = {0, 1} et { ϑ, si x = 1, p(ϑ; x) = 1 ϑ, si x = 0. O vérifie facilemet que cela équivaut à p(ϑ; x) = ϑ x (1 ϑ) 1 x, x {0, 1}. Par coséquet, la foctio de vraisemblace s écrit comme p (ϑ; x 1,..., x ) = i=1 ϑ x i (1 ϑ) 1 x i = ϑ i x i (1 ϑ) i x i. O remarque d abord que la foctio de vraisemblace est strictemet positive sur ]0, 1[. Il e résulte qu o peut remplacer le problème de maximisatio de p par celui de maximisatio de l = log p : ˆϑ MV = arg max ϑ ]0,1[ log p (ϑ; X 1,..., X ) = arg max ϑ ]0,1[ où X = 1 i X i. O vérifie aisémet que la foctio l (ϑ) = X log ϑ + (1 X) log(1 ϑ), { } X log ϑ + (1 X) log(1 ϑ), appelée foctio de log-vraisemblace est strictemet cocave sur ]0, 1[ et que X est le seul poit où la dérivée de l s aule. Or, si la dérivée d ue foctio cocave s aule e u poit alors c est le poit de maximum global. Il e découle que das le modèle de Beroulli ˆϑ MV = X. Par la liéarité de l espérace, o motre que cet estimateur est sas biais : E ϑ [X] = 1 E ϑ [X i ] = 1 ϑ = ϑ, ϑ [0, 1]. i=1 i=1 De plus, c est u estimateur cosistat et asymptotiquemet ormal de vitesse 1/ et de variace limite ϑ(1 ϑ). La courbe de la foctio de log-vraisemblace l pour trois échatillos i.i.d. de loi B(1/2) est représetée das la Figure 3.1. O y voit clairemet la ature aléatoire de l estimateur du maximum de vraisemblace, qui est dû au fait que l échatillo a été obteu par u tirage aléatoire.

41 Sectio 3.3 Estimatio 41 FIGURE 3.1 Modèle de Beroulli : la foctio de log-vraisemblace et so maximum global. Les trois courbes représetet la log-vraisemblace pour trois échatillos différets de taille 40. La vraie valeur du paramètre das les trois cas est ϑ = 1/2. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = 0.5 ; 0.55 ; L EMV das l exemple 2 Das l exemple 2 portat sur la vitesse du vet, o dispose d u échatillo i.i.d. X 1,..., X de loi Expoetielle E(1/ϑ ) avec ϑ Θ =]0, + [. Il s agit d u modèle à desité avec : O e déduit la foctio de vraisemblace p (ϑ; x 1,..., x ) = p(ϑ; x) = ϑ 1 e x/ϑ 1l [0, [ (x). i=1 { ϑ 1 e xi/ϑ = ϑ exp 1 ϑ } x i i=1 pour tout x 1,..., x 0. Comme o sait que l échatillo X 1,..., X est gééré par ue loi expoetielle, P(X i 0; i = 1,..., ) = 1. O a doc la foctio de log-vraisemblace l (ϑ) = (log ϑ + ϑ 1 X), ϑ > 0. Cette foctio est pas cocave sur R +, mais o vérifie aisémet qu elle est croissate sur ]0, X] et décroissate sur [X, + [. Il e découle que X est le poit de maximum global de l, ce qui etraîe que ˆϑ MV = X. Comme das l exemple précédet, ici aussi l estimateur X est sas biais. De plus, e vertu de la loi forte des grads ombres et du théorème de la limite cetrale, X est cosistat et asymptotiquemet ormal de vitesse 1/2 et de variace limite ϑ 2, c est-à-dire (X ϑ ) L N (0, ϑ 2 ). Remarque 3.1. Das les deux exemples précédets la méthode du maximum de vraisemblace ous a coduit à des estimateurs sas biais, cosistats et asymptotiquemet ormaux de vitesse 1/2. O peut aturellemet se demader si ces propriétés sot caractéristiques aux deux modèles cosidérés ou si elles restet valables das u cadre plus gééral. Nous e doeros pas ici ue répose exhaustive à cette questio, mais seulemet quelques élémets de répose : - l EMV est e gééral pas sas biais (o dit qu il est biaisé), mais so biais ted vers zéro lorsque sous certaies coditios de régularité ; - il existe des coditios de régularité assez faibles sur l applicatio (ϑ, x) p(ϑ; x) garatissat la cosistace de l EMV aisi que sa ormalité asymptotique avec la vitesse 1/2.

42 42 Rappel des bases de la statistique paramétrique Chapitre 3 FIGURE 3.2 Modèle expoetiel : la foctio de log-vraisemblace et so maximum global. Les trois courbes représetet la log-vraisemblace pour trois échatillos différets de taille 40. La vraie valeur du paramètre das les trois cas est ϑ = 20. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = ; ; U exemple de modèle irrégulier : modèle uiforme Pour se covaicre que l EMV est pas toujours sas biais et qu il peut coverger à ue vitesse différete de 1/2, cosidéros le modèle suivat. O dispose d u échatillo i.i.d. X 1,..., X de loi uiforme sur l itervalle [0, ϑ ], otée U([0, ϑ ]). Le paramètre icou ϑ est supposé apparteir à l esemble R +. C est u modèle à desité avec p(ϑ; x) = 1 ϑ 1l [0,ϑ](x). Par coséquet, la foctio de vraisemblace a la forme p (ϑ; x 1,..., x ) = 1 ϑ { 1, si x i [0, ϑ] i, 0, sio où x () = max i=1,..., x i. L EMV est doc défii par = ϑ 1l [x(),+ [(ϑ), ˆϑ MV = arg max ϑ>0 ϑ 1l [X(),+ [(ϑ) = X () (= max 1 i X i). Vérifios d abord que X () est biaisé. Pour cela, o itroduit l évéemet A = {X 1 ϑ /2;... X ϑ /2} qui vérifie P ϑ (A) = (1/2) > 0. Comme sur cet évéemet X () ϑ /2, o a Il e résulte que ˆϑ MV E ϑ [X () ] = E ϑ [X () 1l A ] + E ϑ [X () 1l A c] 1 2 ϑ P ϑ (A) + ϑ P ϑ (A c ) = ϑ 1 2 ϑ P ϑ (A) < ϑ. = X () est u estimateur biaisé. Exercice 3.1. Soit X 1,..., X iid U([0, ϑ ]) avec ϑ ]0, + [ et soit ˆϑ MV = X ().

43 Sectio 3.4 Itervalle de cofiace 43 FIGURE 3.3 Modèle uiforme : la foctio de vraisemblace et so maximum global. Les trois courbes représetet la vraisemblace pour trois échatillos différets de taille 10. La vraie valeur du paramètre das les trois cas est ϑ = 1. Les valeurs estimées qu o obtiet pour ces échatillos sot ˆϑ MV = 0.98 ; 0.95 ; Vérifier que la foctio de répartitio F de X () est doée par 0, si x ], 0], F (ϑ, x) = (x/ϑ ), si x ]0, ϑ ], 1, si x ]ϑ, + ]. E déduire la desité de ˆϑ MV. 2. Vérifier que la quatité B (ϑ ) = E ϑ [ ˆϑ MV ] ϑ, appelée le biais de ˆϑ MV, est égale à ϑ /( + 1). 3. E utilisat la défiitio de la covergece e loi, prouver que ˆϑ MV loi expoetielle E(1/ϑ ) avec la vitesse 1/, c est-à-dire 3.4 Itervalle de cofiace (ϑ ˆϑ MV L ) E(1/ϑ ). est asymptotiquemet de La méthode du maximum de vraisemblace ous permet de calculer ue estimatio de la vraie valeur du paramètre. Cepedat, ayat calculé cette estimatio, o peut aturellemet s iterroger sur sa qualité. Ue faço largemet répadue pour décrire la qualité de l estimatio cosiste à fourir u itervalle de cofiace ou, plus gééralemet, ue régio de cofiace. Défiitio 3.8. Soit X 1,..., X u échatillo i.i.d. de loi P ϑ avec ϑ Θ R p. O appelle régio de cofiace de iveau prescrit 1 α, avec α [0, 1], tout sous-esemble I = I(X 1,..., X ) de R p tel que P ϑ ( I cotiet ϑ ) 1 α, ϑ Θ. (3.4) Si p = 1 et I est u itervalle, o l appelle itervalle de cofiace. Si au lieu d avoir (3.4) pour fixé, o l a de faço asymptotique, c est-à-dire lim P ϑ ( I cotiet ϑ ) 1 α, ϑ Θ, (3.5) alors o dit que I est ue régio de cofiace de iveau asymptotique 1 α.

44 44 Rappel des bases de la statistique paramétrique Chapitre 3 La démarche géérale pour costruire u itervalle de cofiace peut se résumer de la maière suivate. 1. O détermie u estimateur cosistat ϑ ; das la plupart des cas, la loi de ϑ est cocetrée autour de la vraie valeur ϑ. 2. O cherche u δ = δ(x 1,..., X ) > 0 tel que et l o défiit I = [ ϑ δ, ϑ + δ ]. P ϑ ( ϑ ϑ > δ ) α, ϑ Θ, Remarque 3.2. Si la loi de ϑ ϑ est fortemet asymétrique, o remplace la secode étape par la recherche de deux variables aléatoires δ = δ(x 1,..., X ) > 0 et δ = δ (X 1,..., X ) > 0 telles que ( P ϑ ϑ ϑ ) α < δ 2, et P ( ϑ ϑ ϑ > δ ) α 2, pour tout ϑ Θ, et l o défiit I = [ ϑ δ, ϑ + δ ]. Afi de clarifier le schéma préseté ci-dessus, cosidéros deux exemples Modèle de Beroulli : itervalle de cofiace par excès Rappelos que das l exemple 1 portat sur la qualité de l air, o dispose de variables i.i.d. de loi B(ϑ ) avec ϑ ]0, 1[. Nous avos déjà vu que l EMV ˆϑ MV = X est cosistat das ce modèle. O cherche doc u δ tel que D après l iégalité de Tchebychev, o a P ϑ ( X ϑ > δ ) α, ϑ ]0, 1[. (3.6) P ϑ ( X ϑ ) E > δ ϑ [(X ϑ ) 2 ] δ 2. Or, comme X est sas biais, il viet E ϑ [(X ϑ ) 2 ] = Var ϑ (X ) = [ ] Var ϑ i=1 X i 2 = ϑ (1 ϑ ). E combiat les deux iégalités précédetes avec l iégalité élémetaire ab (a + b) 2 /4, o obtiet ( P ϑ X ϑ ) ϑ > (1 ϑ ) δ δ 2 1 4δ 2. Il e résulte qu e choisissat δ 2 = 1/(4α), l iégalité (3.6) sera satisfaite. Par coséquet, I = [ X 1 2 α ; X + 1 ] 2 α est u itervalle de cofiace (IC) de iveau 1 α pour ϑ. O remarque que le δ qu o a trouvé est pas aléatoire. E d autres termes, la logueur de l IC e déped pas de l échatillo qu au travers de sa taille.

45 Sectio 3.4 Itervalle de cofiace 45 FIGURE 3.4 A gauche : les itervalles de cofiace de iveau 90% pour ϑ = 0.25 das le modèle de Beroulli. O a tiré au hasard 40 échatillos de taille 400. E particulier, o remarque sur le graphe ci-dessus que tous les 40 itervalles cotieet la valeur 0.25 et sot tous de même taille. A droite : les itervalles de cofiace de iveau 90% pour ϑ = 5 das le modèle expoetiel. O remarque que sur 40 échatillos de taille 400 tirés au hasard, 4 fois l itervalle de cofiace calculé e cotiet pas la vraie valeur Modèle expoetiel : itervalle de cofiace asymptotique Cosidéros maiteat l exemple de modèle expoetielle : X 1,..., X iid E(1/ϑ ), ϑ ]0, [. Nous avos vu que das cet exemple l EMV de ϑ est la moyee empirique X. De plus, e vertu de la loi des grads ombres X est u estimateur cosistat. O cherche doc u itervalle de cofiace sous la forme [X δ, X + δ ]. Das ce cas, il est impossible d appliquer la stratégie utilisée das l exemple précédet, car la variace de X égale à ϑ 2 / est pas borée sur Θ =]0, + [. Supposos que la taille de l échatillo est suffisammet grade. O peut alors utiliser ue approximatio de la loi de X par ue loi ormale, car e vertu du théorème de la limite cetrale (TLC), (X ϑ L ) N (0, ϑ 2 ). (L utilisatio du TLC est justifiée puisque E ϑ [X2 1 ] = Var ϑ [X 1] + (E ϑ [X 1 ]) 2 = 2ϑ 2 <.) Cela implique que ( ) X ϑ 1 L N (0, 1) et, par coséquet, ( ( ) ) lim P X ϑ ϑ 1 A = P(ξ A), A B R, où ξ N (0, 1). O peut démotrer que le plus petit esemble A tel que P(ξ A) = 1 α pour ξ N (0, 1) est A = [ q1 α/2 N, qn 1 α/2 ] où qn 1 α/2 désige le quatile d ordre 1 α/2 de

46 46 Rappel des bases de la statistique paramétrique Chapitre 3 FIGURE 3.5 La courbe de la desité de la loi ormale cetrée réduite et les quatiles d ordre 1 α/2. la loi ormale cetrée réduite (voir la Figure 3.5). E choisissat A de cette faço, o obtiet ( ( ) ) lim P X ϑ ϑ 1 [ q N1 α/2, qn1 α/2 ] = 1 α. Pour coclure, il suffit de remarquer que ( ) X ϑ 1 [ q1 α/2 N, qn 1 α/2 ] X [ ϑ 1 qn 1 α/2 [ ϑ O e déduit que [ ] X I = 1 + (q1 α/2 N / ), X 1 (q1 α/2 N / ) est u itervalle de cofiace de iveau asymptotique 1 α pour ϑ. ], 1 + qn 1 α/2 X 1 + (q N 1 α/2 / ), X 1 (q N 1 α/2 / ) Exercice 3.2. Soit X 1,..., X u échatillo i.i.d. de loi E(1/ϑ ) avec ϑ ]0, [. 1. Prouver que 2. E déduire que Ĩ = est i IC de iveau asymptotique α pour ϑ. (X ϑ L ) N (0, 1). X ( ) ( )] [X 1 qn 1 α/2, X 1 + qn 1 α/2 3. Démotrer que, pour les grades valeurs de, les itervalles I et Ĩ sot très proches. Plus précisémet, motrer que si qn 1 α/2 1/2 alors I \ Ĩ + Ĩ \ I Ĩ 2qN 1 α/2. Exercice 3.3. Vérifier que, das le modèle de Beroulli X 1,..., X iid B(ϑ ), [ Ĩ = X qn 1 α/2 ; X + qn ] 1 α/2 est u itervalle de cofiace de iveau asymptotique 1 α pour le paramètre ϑ ].

47 Sectio 3.5 Test d hypothèses Test d hypothèses O termie ce chapitre par u rappel très succict des tests d hypothèses. O se place toujours das le cotexte des modèles à observatios i.i.d., où u échatillo X 1,..., X de loi P ϑ sur R est à otre dispositio, mais le paramètre ϑ Θ est icou. Le but des tests statistiques est de désiger des procédures automatiques qui, pour u sous-esemble (propre) Θ 0 Θ doé, permettet de décider avec ue probabilité d erreur cotrôlée si oui ou o l hypothèse «Θ 0 cotiet ϑ» est satisfaite Défiitios pricipales O est doc itéressé par tester l hypothèse H 0 : ϑ Θ 0 cotre H 1 : ϑ Θ c 0 = Θ \ Θ 0. (3.7) O dit que H 0 est l hypothèse ulle et H 1 est l hypothèse alterative. La décisio quat au rejet (ou pas) de l hypothèse ulle doit bie-etedu être prise au vu de l échatillo observé. Par coséquet, ue procédure de test peut être cosidérée comme ue partitio de l esemble R (c est l esemble des valeurs prises par l échatillo) e deux classes. Si l échatillo observé appartiet à la première classe de la partitio, o rejette l hypothèse ulle, sio o l accepte. Ce raisoemet ous coduit à la défiitio suivate. Défiitio 3.9. O appelle régio critique ou régio de rejet, otée R, toute partie mesurable de R. La procédure de test associée à la régio critique R cosiste à - rejeter H 0 si (x 1,..., x ) R, - e pas rejeter H 0 si (x 1,..., x ) R. Lorsqu o effectue u test e utilisat ue procédure basée sur la régio critique R, deux types d erreurs sot possibles. L erreur de première espèce cosiste à rejeter à tort l hypothèse H 0. Par oppositio, l erreur de deuxième espèce cosiste à accepter à tort l hypothèse H 0. Comme la décisio est prise au vu d u échatillo aléatoire, chacue de ces deux erreurs a ue certaie probabilité (gééralemet o ulle) d être commise. Défiitio Le risque de première espèce d ue procédure de test R, oté α(r ) est la plus grade valeur atteite par la probabilité de commettre l erreur de première espèce : ( ) α(r ) = sup P ϑ (X1,..., X ) R. ϑ Θ 0 De la même faço, le risque de deuxième espèce d ue procédure de test R, oté β(r ) est la plus grade valeur atteite par la probabilité de commettre l erreur de deuxième espèce : ( ) β(r ) = sup P ϑ (X1,..., X ) R. ϑ Θ 0 O appelle puissace d ue procédure de test R l applicatio qui à chaque valeur ϑ Θ 0 associe la probabilité de rejeter H 0 : π R (ϑ) = P ϑ ( (X1,..., X ) R ). E utilisat ce vocabulaire, ue procédure de test R serait idéale si les risques de première et de deuxième espèce étaiet tous les deux égaux à zéro : α(r ) = β(r ) = 0. Malheureusemet, sauf das des cas très spécifiques, il existe pas de procédure idéale et o doit se coteter par des procédures dot les risques sot cotrôlés.

48 48 Rappel des bases de la statistique paramétrique Chapitre 3 Défiitio Soit α ]0, 1[ ue valeur doée. Ue procédure de test R est dite de iveau α si so risque de première espèce e dépasse pas le iveau α : α(r ) α. O dit que R est asymptotiquemet de iveau α si lim α(r ) α. Il existe e gééral u grad ombre de procédures de test de iveau α. L ue des approches les plus répadues pour départager deux procédures de iveau α est de doer la préférece à celle dot la puissace est plus grade partout sur Θ0 c. Das la même logique, u test de iveau asymptotique α est dit coverget (et cosidéré comme u bo test) si pour tout ϑ Θ 0 fixé, la puissace π R (ϑ) ted vers 1. Même si l évaluatio de la puissace est ue étape importate das l étude d ue procédure de test, ous avos fait le choix de e pas approfodir cette questio das ce cours Stratégie géérale Nous présetos ici u schéma géérique qui compred la plupart des stratégies usuelles de costructio des procédures de test pour le problème (3.7). Il s agit d effectuer les étapes suivates : 1. Détermier u estimateur cosistat, oté ˆϑ, du paramètre icou ϑ. 2. Détermier ue foctio T : R Θ R telle que (a) pour tout ϑ Θ, la foctio u T(ϑ + u, ϑ ) est cotiue et e s aule qu e 0, c est-à-dire T(ϑ + u, ϑ ) = 0 si et seulemet si u = 0. (b) La loi de la variable aléatoire T( ˆϑ, ϑ ) e déped pas de ϑ. 3. Défiir, pour deux valeurs réelles a, b telles que a 0 b, R = {(x 1,..., x ) : T( ˆϑ, ϑ) [a, b] ϑ Θ 0 }. 4. Choisir a et b de telle sorte que R soit de iveau α. La justificatio de cette stratégie est simple. La foctio T joue le rôle d ue distace (sigée) etre l estimateur et les valeurs possibles du paramètre icou ϑ. Comme ˆϑ est cosistat et T est cotiue par rapport à la première variable, o a T( ˆϑ, ϑ ) T(ϑ, ϑ ) = 0. Par coséquet, si l hypothèse ulle H 0 : ϑ Θ 0 est vraie, il existe u élémet ϑ de Θ 0 tel que T( ˆϑ, ϑ) se trouve das u voisiage de 0. Cela ous coduit à accepter H 0 si T( ˆϑ, ϑ) [a, b] pour u élémet ϑ Θ 0 et de la rejeter das le cas cotraire. D où la défiitio de la régio critique ci-dessus. Remarque 3.3 (Loi symétrique). Das la plupart des exemples que ous allos cosidérer par la suite, la loi de la variable aléatoire T( ˆϑ, ϑ ) sera symétrique par rapport à zéro. O predra alors a = b et o pourra réécrire R sous la forme R = {(x 1,..., x ) : mi ϑ Θ 0 T( ˆϑ, ϑ) > b}. Remarque 3.4 (Test asymptotique). Si o cherche u test de iveau asymptotique α, la coditio 2(b) peut être remplacée par la suivate : pour tout ϑ Θ 0, la variable aléatoire T( ˆϑ, ϑ ) coverge e loi vers ue variable aléatoire dot la loi e déped pas de ϑ.

49 Sectio 3.5 Test d hypothèses P-value d u test Lorsqu o effectue u test statistique, o a souvet evie de quatifier l évidece ou la pertiece de la decisio dictée par le test. La otio qui ous permet d atteidre cet objectif est la p-value d u test. Afi de motiver la défiitio rigoureuse de la p-value doée ci-dessous, remarquos que la majorité des tests peut être écrite comme R,α = { (x 1,..., x ) : S (x 1,..., x ) C α } où S est ue statistique de test et C α est u ombre réel appelé seuil critique du test. Ici, o a ajouté u idice α à la régio critique R pour souliger le fait que le test est de iveau α. Cosidéros le cas où ( ) sup P ϑ (X1,..., X ) R,α = α. ϑ Θ 0 Ituitivemet, il est claire que la régio R,α grossit lorsque α augmete. Il existe doc ue valeur α pour laquelle R,α cotiet la réalisatio observée x 1,..., x, alors que pour tous les α < α R,α e cotiet pas la réalisatio observée. Cette valeur α est appelée p-value du test R,α. Défiitio O appelle p-value d u test R = R,α, otée α (R ), la plus petite valeur de α pour laquelle le test R rejette l hypothèse H 0. E pratique, si la p-value d u test est iférieure à 5%, alors l hypothèse H 0 sera rejeté au seuil de 5%. De plus, ue p-value très petite traduit l évidece de la décisio cocerat le rejet de H Exemple 1 : test bilatéral das le modèle de Beroulli O observe X 1,..., X iid B(ϑ ) et o cherche à tester l hypothèse cotre l alterative bilatérale H 0 : ϑ = ϑ 0 H 1 : ϑ = ϑ 0 où ϑ 0 = 10%. E suivat le schéma géérique, o utilise comme estimateur de ϑ la proportio empirique X = 1 i=1 X i. D après le théorème de la limite cetrale, o a (X ϑ ) ou ecore (X ϑ ) ϑ (1 ϑ ) Par coséquet, o pose et T(X, ϑ) = L N (0, ϑ (1 ϑ )) L N (0, 1). (X ϑ) ϑ(1 ϑ) R = {(x 1,..., x ) : T(X, ϑ 0 ) > b}. Pour que R soit de iveau α, il faut que lim P ϑ0 ( T(X, ϑ 0 ) > b) α. Or, la covergece e loi établie ci-dessus implique que lim P ϑ 0 ( T(X, ϑ 0 ) > b) = P( ξ > b), ξ N (0, 1).

50 50 Rappel des bases de la statistique paramétrique Chapitre 3 Par coséquet, o choisit b de telle sorte que la probabilité de l évéemet ξ > b soit égale à α. Cela ous coduit vers b = q1 α/2 N (voir la Figure 3.5). Nous avos doc costruit la procédure de test suivat : - o rejette H 0 : ϑ = ϑ 0, avec ϑ 0 = 10%, si (X ϑ 0 ) ϑ0 (1 ϑ 0 ) > qn 1 α/2 X 0.1 > 0.3 qn 1 α/2. - o e rejette pas H 0 si l iégalité ci-dessus est pas satisfaite Exemple 2 : test uilatéral das le modèle expoetiel Plaços-ous maiteat das la situatio où o observe X 1,..., X iid E(1/ϑ ) et o cherche à tester l hypothèse H 0 : ϑ ϑ 0 cotre l alterative uilatérale H 1 : ϑ < ϑ 0 avec, par exemple, ϑ 0 = 2. Comme das l exemple précédet, o utilise l EMV de ϑ qui est autre que la moyee empirique ˆϑ MV = X et qui vérifie (X ϑ L ) N (0, ϑ 2 ) e vertu du théorème de la limite cetrale. Posos (X ϑ) T(X, ϑ) = et R = { (x 1,..., x ) : mi T(X, ϑ) > b }. ϑ ϑ ϑ 0 O vérifie aisémet que mi ϑ ϑ 0 T(X, ϑ) > b ϑ 1 X 1 > b 1/2, ϑ ϑ 0 X < ϑ 0 (1 b 1/2 ). O veut doc détermier b de telle sorte que ( ) lim sup P ϑ X < ϑ 0 (1 b 1/2 ) ϑ ϑ 0 O peut vérifier que la loi de X /ϑ est absolumet cotiue et e déped pas de ϑ, ce qui implique que ( ) ( sup P ϑ X < ϑ 0 (1 b 1/2 ϑ0 (1 b ) = 1/2 ) ) sup F X /ϑ ϑ ϑ 0 ϑ ϑ 0 ϑ ( = F X /ϑ 1 b 1/2 ) = P ϑ (X /ϑ < 1 b 1/2) = P ϑ ( (X ϑ ) ϑ = α. ) < b P(ξ < b) = P(ξ > b) = 1 P(ξ b) où ξ N (0, 1). Pour que le test soit de iveau asymptotique α, o choisit b = q N 1 α. E coclusio, ous rejetos l hypothèse H 0 : ϑ ϑ 0 si et seulemet si X < ϑ 0 (1 qn 1 α ).

51 Sectio 3.7 Exercices Exercices Exercice 1. O observe u échatillo X 1,..., X de loi double expoetielle traslatée. C està-dire, X 1,..., X iid Pϑ où ϑ R et P ϑ a pour desité la foctio p(ϑ, x) = 1 2 e x ϑ, x R. 1. Vérifier que p(ϑ, ) est bie ue desité de probabilité et prouver que la médiae empirique de l échatillo X 1,..., X est l EMV de ϑ. 2. Motrer que la moyee empirique de l échatillo est u estimateur cosistat et asymptotiquemet ormal de ϑ. 3. O suppose que est grad et o admet le résultat suivat : si X 1,..., X sot i.i.d. de desité p dot la médiae est ϑ, alors la médiae empirique Me de l échatillo X 1,..., X vérifie 2p(ϑ ) ( Me ϑ L ) N (0, 1). Au vu de ce résultat et de celui de la questio 2, lequel des deux estimateurs Me et X préféreriez-vous. Exercice 2. Soiet X 1,..., X des variables i.i.d. de loi expoetielle E(1/ϑ ) avec ϑ > Motrer que la foctio T(x, ϑ) = (x ϑ)/ϑ vérifie les coditios 2(a) et 2(b) (voir paragraphe 3.5.2) avec ˆϑ = X. 2. E déduire u test d hypothèse H 0 : ϑ = 1 cotre H 1 : ϑ = Résumé du Chapitre Modèle statistique 1. Défiitio : o appelle modèle statistique le triplet (X, F, {P,ϑ, ϑ Θ}), où X est l espace d états et Θ est l espace des paramètres. La problématique statistique est alors la suivate : ayat observé u élémet x () de X tiré au hasard selo la loi P,ϑ (avec u ϑ que l o igore), caractériser la loi P,ϑ. 2. Modèle à observatios i.i.d. : x () est ue réalisatio d u vecteur aléatoire X () = (X 1,..., X ) dot les coordoées sot des variables aléatoires idépedates et idetiquemet distribuées (i.i.d.). 3. Modèle discret : u modèle à observatios i.i.d. tel que X 1 pred ces valeurs das u esemble fii ou déombrable, oté A = {a 1, a 2,...}. U modèle discret est caractérisé par les valeurs p(ϑ; a k ) = P ϑ (X 1 = a k ). 4. Modèle à desité : u modèle à observatios i.i.d. tel que X 1 admet ue desité par rapport à la mesure de Lebesgue, oté p(ϑ; x). Cela équivaut à P ϑ (X 1 I) = p(ϑ; x) dx I pour tout itervalle I et tout ϑ Θ. 5. Echatillo : le vecteur aléatoire dot o a observé ue réalisatio. Das le modèle à observatios i.i.d., c est simplemet ue suite X 1,..., X de variables aléatoires i.i.d. de loi P ϑ. 6. Statistique : toute variable aléatoire de forme Y = g(x 1,..., X ) où g est ue foctio mesurable.

52 52 Rappel des bases de la statistique paramétrique Chapitre 3 7. Vraisemblace : pour u modèle à observatios i.i.d., qu il soit discret ou à desité, la foctio de vraisemblace est doée par la formule : p (ϑ; x 1,..., x ) = p(ϑ; x i ). i=1 Pour u modèle discret, p(ϑ; x i ) est la probabilité de la valeur x i si la vraie valeur du paramètre est ϑ. Pour u modèle à desité, p(ϑ; x i ) est la valeur de la desité, lorsque la vraie valeur du paramètre est ϑ, évaluée au poit x i. 8. Log-vraisemblace : état doé les observatios X 1,..., X, la log-vraisemblace est : l (ϑ) = log p (ϑ; X 1,..., X ) = i=1 log p(ϑ; X i ). Cette foctio peut predre la valeur si l argumet du log s aule Estimatio Pour u échatillo X 1,..., X doé, o appelle estimateur toute statistique des X 1,..., X : ˆϑ = g (X 1,..., X ). 1. Estimateur sas biais : E ϑ [ ˆϑ ] = ϑ pour tout ϑ. 2. Estimateur coverget (cosistat) : ˆϑ P ϑ si X 1,..., X iid Pϑ. 3. Estimateur asymptotiquemet ormal (de vitesse 1/ et de variace limite σϑ 2 ) : ( ˆϑ ϑ loi ) N (0, σ2 ϑ ). 4. Estimateur du maximum de vraisemblace : la valeur du paramètre ϑ qui maximise la vraisemblace p (ϑ; X 1,..., X ) ou, de faço équivalete, la log-vraisemblace l (ϑ), est appelée estimateur du maximum de vraisemblace et est otée ˆϑ MV Itervalle de cofiace 1. Itervalle de cofiace de iveau 1 α : o dit que l itervalle I qui déped de l échatillo X 1,..., X est u itervalle de cofiace de iveau 1 α pour le paramètre ϑ, si P ϑ (ϑ I) 1 α. Si cette iégalité est stricte, o parle d u itervalle de cofiace par excès. 2. Itervalle de cofiace de iveau asymptotique 1 α : o dit que l itervalle I qui déped de l échatillo X 1,..., X est u itervalle de cofiace de iveau asymptotique 1 α pour le paramètre ϑ, si 3 lim P ϑ (ϑ I ) 1 α. 3. Exemple géérique : si ˆϑ est u estimateur cosistat de ϑ tel que ( ˆϑ ϑ ) N (0, σϑ 2 ) et l applicatio ϑ σϑ 2 est cotiue, alors [ ] I = ˆϑ σˆϑ q N 1 α/2 ; ˆϑ + σˆϑ q N 1 α/2 loi est u itervalle de cofiace de iveau asymptotique 1 α pour ϑ. Ici, q N 1 α/2 désige le quatile d ordre 1 α/2 de la loi ormale cetrée réduite : N (0, 1). 3. La limite ici est e réalité ue limité iférieure

53 Sectio 3.7 Résumé du Chapitre Test d hypothèses O cherche à tester l hypothèse ulle H 0 : ϑ Θ 0 cotre l alterative H 1 : ϑ Θ O dit que l hypothèse H 0 est simple, si Θ 0 e cotiet qu u seul élémet :Θ 0 = {ϑ 0 }. Ue hypothèse qui est pas simple est dite composite. 2. Régio critique ou régio de rejet : o appelle régio critique d u test l esemble R des valeurs possibles de l échatillo pour lesquelles l hypothèse ulle est rejetée. 3. Erreur de première espèce : le fait de rejeter à tort l hypothèse ulle. 4. Erreur de deuxième espèce : le fait de e pas rejeter l hypothèse H 0, alors qu il fallait le faire. 5. Risque de première espèce : la probabilité de l erreur de première espèce : ( sup P ϑ (X1,..., X ) R ). ϑ Θ 0 6. Risque de deuxième espèce : la probabilité de l erreur de deuxième espèce : ( sup P ϑ (X1,..., X ) R ). ϑ Θ 1 7. Test de iveau α : le risque de première espèce e dépasse pas le iveau α. 8. Test de iveau asymptotique α : la limite (iférieure) lorsque du risque de première espèce e dépasse pas α. 9. Puissace d u test : la foctio ϑ P ϑ ( (X1,..., X ) R ), ϑ Θ 1. Etre deux tests de iveau α, celui dot la puissace est plus grade est préférable. 10. P-value d u test : soit R α la régio critique d u test (de iveau α). Etat doé les observatios x 1,..., x, la p-value du test R α est la plus grade valeur de α pour laquelle l hypothèse H 0 est pas rejetée : max{α : (x 1,..., x ) R α }. 11. Iterprétatio : ue p-value élevée suggère que l hypothèse ulle e doit pas être rejetée. Typiquemet, si la p-value est > 5% o e rejette pas l hypothèse ulle.

54

55 4 Régressio liéaire multiple 4.1 Gééralités Plas d expérieces Le statisticie plaifie ue expériece statistique e foctio d u objectif qui est souvet l étude de l effet de certais facteurs de variabilité d u phéomèe. Ces facteurs sot présets sous plusieurs modalités. La techique de bo ses lorsque plusieurs facteurs sot à étudier est de e modifier qu u facteur à la fois. Par exemple, si o dispose de 3 facteurs présets chacu sous p modalités, cette techique coduirait à fixer 2 facteurs puis étudier das chacu des cas l effet du troisième facteur, soit 3p 2 expérieces. Das beaucoup de cas le coût, l efficacité, ou les possibilités effectives d expérimetatio, recommadet de miimiser le ombre d expérieces tout e coservat u cadre expérimetal rigoureux. E répodat à ces critères, la méthode des plas d expériece iitiée au début du XX ème siècle par Roald A.Fisher s est imposée das le cadre idustriel pour tester des médicamets, des variétés de plates, des procédés de fabricatio, etc... L objectif de la costructio de plas d expériece est de mettre e place u dispositif expérimetal permettat d aboutir à ue iterprétatio statistique des résultats otammet à l aide de tests d hypothèses. Pour cela il faut costruire u modèle statistique qui distiguera parmi les facteurs de variabilité les facteurs cotrôlés et les facteurs aléatoires Le modèle gééral Ce type d expériece statistique peut être décrit avec le modèle gééral suivat : Y = f (ϑ) + ε, où Y = (Y i ) i=1,..., désige les observatios effectuées. ϑ = (ϑ 1,..., ϑ p ) est u vecteur de paramètres icou caractérisat les facteurs cotrôlés que l o souhaite étudier à l aide de ces observatios.

56 56 Régressio liéaire multiple Chapitre 4 ε = (ε i ) i=1,..., sot des variables aléatoires idépedates et cetrées, représetat l erreur expérimetale. Le modèle est gaussie si ε est u vecteur gaussie cetré. f ( ) est ue applicatio coue qui fixe le modèle. Ce modèle est liéaire si f (ϑ) est ue applicatio ϑ Xϑ où X est ue matrice. Le modèle s écrit alors matriciellemet : Y = Xϑ + ε. Das la suite ous cosidéreros des modèles liéaires gaussies. Ces deux hypothèses (liéarité et caractère gaussie de l erreur) doivet être validées. Pour les vérifier o peut, soit utiliser la coaissace a priori que l o a du modèle, soit costruire des tests. Das certais cas, lorsqu il y a plusieurs observatios, le caractère gaussie peut être ue coséquece du théorème de la limite cetrale. Efi, das de ombreux cas, o peut redre le modèle gaussie et liéaire e effectuat des trasformatios sur les observatios Exemples Das ce paragraphe ous proposos des exemples illustrat la problématique précédete. Das les sectios suivates, ous doeros les élémets permettat de résoudre ce type de problèmes. Exemple 4.1. Le tableau ci-dessous représete des mesures de hauteurs d arbres e mètres effectuées das 3 forêts distictes. O rassemble das u même tableau les mesures effectuées das les 3 forêts das le but de les comparer. Foret 1 Foret 2 Foret 3 1 = 13 arbres 2 = 14 3 = TABLE 4.1 Hauteurs d arbres das 3 forêts Le facteur étudié est ici l ifluece de la forêt sur la hauteur de ces arbres. La variabilité de la hauteur due ici au tirage d u échatillo aléatoire das chaque forêt se décompose doc aturellemet e ue partie cotrolée, le facteur (forêt), et ue partie aléatoire, la variabilité itrisèque à la pousse des arbres due au terrai, à la lumière, à la présece ou o d u autre arbre à proximité... O peut supposer que les hauteurs des différets arbres sot idépedates (ce qui exige que l o e mesure pas des arbres trop rapprochés les us des autres), et que, pour la forêt uméro k, la mesure d u arbre suit ue loi gaussiee de moyee m k et de variace σk 2 ; o peut alors comparer les 3

57 Sectio 4.1 Gééralités 57 échatillos 2 à 2. Mais si la variabilité des hauteurs des arbres peut être cosidérée comme idetique d ue forêt à l autre (σ 2 1 = σ2 2 = σ2 3 = σ2 ) o observe trois échatillos gaussies de même variace σ 2 et de moyees différetes qui représetet l effet de chaque forêt (les modalités du facteur forêt ) sur la pousse des arbres. L hypothèse d égalité des variaces est appelée homoscédasticité. Avec ces hypothèses o peut alors écrire : Y i,j = m i + ε i,j pour la j-ième mesure de la forêt i, j = 1,..., i, i = 1, 2, 3, où ε N (0, σ 2 ). Ceci s écrit avec ue otatio matricielle : où ε est u vecteur aléatoire gaussie, et Y = Xϑ + ε, Y = (Y 1,1,..., Y 1,1, Y 2,1,..., Y 2,2, Y 3,1,..., Y 3,3 ) t, m 1 X =..., ϑ = m m Ce problème est u problème d aalyse de la variace à u facteur. Pour répodre à la questio existe-t-il u effet forêt, o costruira u test statistique dot l hypothèse ulle est : H 0 : m 1 = m 2 = m 3. Exemple 4.2. Le tableau suivat doe le ombre de jours de pluie et la hauteur de pluie e mm, observés pedat toute l aée à Paris de 1956 à Ue représetatio sur u graphique (fig. 4.1) des doées avec e abscisse le ombre de jours de pluie et e ordoée la hauteur de pluie permet de costater que l esemble des poits forme u uage allogé et que la quatité de pluie augmete lorsque le ombre de jours de pluie augmete. Le facteur hauteur de pluie est alors u facteur à expliquer par le facteur explicatif cotrôlé ombre de jours de pluie. La questio que l o se pose est de savoir si ces deux quatités sot liées par ue relatio affie, de calculer les paramètres de cette relatio et d avoir ue idicatio sur le caractère prédictif de ce modèle (autremet dit, peut-o déduire de faço satisfaisate la hauteur de pluie à partir du ombre de jours de pluie?). Le modèle statistique que l o propose est le suivat : où : Y i = β + α X i + ε i

58 58 Régressio liéaire multiple Chapitre 4 Aées Jours Hauteur Aées Jours Hauteur Aées Jours Hauteur Aées Jours Hauteur TABLE 4.2 Jour et quatité de pluie par aées Hauteur de pluie Nombre de jours FIGURE 4.1 Représetatio des doées Y = (Y i ) i=1,..., désige la hauteur de pluie. (X i ) i=1,..., désige le ombre de jours de pluie la droite d équatio y = α x + β est appelée droite de régressio ; α et β sot à estimer à partir des observatios. ε = (ε i ) i=1,..., représete les écarts aléatoires etre les observatios et la droite. O supposera que c est ue suite de variables aléatoires idépedates de loi N (0, σ 2 ). Le modèle peut alors s écrire : Y = Xϑ + ε

59 Sectio 4.2 Lois associées aux échatillos gaussies 59 e otat : 1 X 1 1 X 2 X =.., et ϑ = 1 X ( ) β α C est u modèle de régressio liéaire simple qui sera étudié e Lois associées aux échatillos gaussies Rappelos pour commecer les défiitios des lois associées aux échatillos gaussies qui ous seros utiles das la suite. Défiitio 4.1. Si (X 1,..., X ) est u échatillo de loi ormale N (0, 1), alors la loi de la v.a. i=1 X2 i est la loi du chi-deux à degrés de liberté, otée χ 2 (). Si X N (0, 1), Y χ 2 () et que X et Y sot idépedates, alors X Y/ t(), loi de Studet à degrés de liberté. Si X χ 2 (), Y χ 2 (m) et que X et Y sot idépedates, alors X/ Y/m F(, m), loi de Fisher (ou de Fisher-Sedecor) à et m degrés de liberté. Efi, o utilise souvet la covetio pratique suivate : si ue v.a. X a pour loi F, o ote af la loi de ax. Aisi, o otera σ 2 χ 2 () la loi de i=1 X2 i das le cas où (X 1,..., X ) formet u -échatillo de la loi N (0, σ 2 ) Théorème de Cochra C est l outil fodametal pour l étude des échatillos gaussies et du modèle liéaire gaussie (la otatio désige la orme euclidiee das R ). Théorème 4.1. Soit Y = (Y 1,..., Y ) u -échatillo de N (0, 1), et E 1,..., E p ue suite de p sous-espaces deux-à-deux orthogoaux de R, avec dim(e j ) = d j, j = 1,..., p. Alors o a : (i) Les composates de Y das toute base orthoormale de R formet ecore u -échatillo de N (0, 1). (ii) Les vecteurs aléatoires Y E1,..., Y Ep, qui sot les projectios de Y sur E 1,..., E p, sot idépedats. (iii) Les variables aléatoires Y E1,..., Y Ep sot idépedates, et Y Ej 2 χ 2 (d j ), j = 1,..., p. Ue formulatio équivalete cosiste à dire (par exemple avec p = 2), que si P 1 et P 2 sot deux projecteurs orthogoaux de R sur deux sous-espaces orthogoaux E 1 et E 2 de dimesios d 1 et d 2, alors P 1 Y = Y E1 et P 2 Y = Y E2 sot idépedats, et P 1 Y 2 et P 2 Y 2 sot idépedats et ot pour lois respectivemet χ 2 (d 1 ) et χ 2 (d 2 ) Statistiques fodametales Plaços-ous doc das le cas où (Y 1,..., Y ) est u -échatillo de la loi N (µ, σ 2 ). Les statistiques utiles pour les problèmes de test ou d itervalle de cofiace sur les paramètres

60 60 Régressio liéaire multiple Chapitre 4 µ et σ 2 sot foctio de la moyee empirique, que ous otos Ȳ = 1 et de la variace empirique, dot ous choisissos ici la versio sas biais (voir 4.3.1) : S 2 = 1 1 i=1 i=1 Y i, (Y i Ȳ) 2 = 1 [ 1 i=1 Y 2 i (Ȳ) 2 ]. Utilisos le théorème 4.1 das le cas où p = 2 et où o projette Y sur le sous-espace E de dimesio 1 egedré par le vecteur (ormé) de R, e 1 = 1 1 (où o ote 1 le vecteur de dimesio ayat toute ses coordoées égales à 1). O obtiet Y E = Ȳ 1 1. La orme de la projectio de Y sur l orthogoal de E (de dimesio 1) est Y Y E 2 = i=1 (Y i Ȳ) 2 qui suit la loi σ 2 χ 2 ( 1) (c est le poit (iii) du théorème de Cochra à ceci près qu il faut teir compte de la variace σ 2 ). O e déduit les résultats suivats, utiles pour le statisticie : Propositio 4.1. Soit Y = (Y 1,..., Y ) u -échatillo de N (µ, σ 2 ). Alors o a : (i) Les v.a. Ȳ et S 2 sot idépedates. (ii) ( 1)S 2 σ 2 χ 2 ( 1). (Ȳ µ) (iii) t( 1). S Remarquos que la v.a. i=1 (Y i µ) 2 suit elle-même la loi σ 2 χ 2 () mais, si µ est icou, so calcul est pas accessible. Le poit (ii) exprime ituitivemet le fait que l o perd u degré de liberté e raiso du remplacemet de µ, icou, par so estimateur Ȳ. De même la v.a. (Ȳ µ)/σ N (0, 1), autremet dit le poit (iii) sigifie que la loi de Studet remplace la loi ormale comme loi de la moyee empirique ormalisée das le cas où σ est icou et doit être remplacé par so estimateur S. 4.3 Le modèle gaussie Nous illustros das u premier temps les cocepts du modèle paramètrique sur le modèle gaussie. Ce modèle est très (trop?) courammet utilisé pour aalyser des doées cotiues. Cet usage fréquet est dû à la simplicité des calculs et à la gééralité du TCL (sous des hypothèses très faibles, la somme de ombreux petits bruits suit asymptotiquemet ue loi gaussiee) U exemple de doées réelles à loi gaussiee O a eregistré le taux d alcool das le sag (e dg/l) de sujets : voici le tableau des observatios, avec = 30 (extrait de l ouvrage de D. Schwartz, Méthodes statistiques à l usage des médecis et des biologistes, Flammario).

61 Sectio 4.3 Le modèle gaussie Quatiles of Iput Sample Stadard Normal Quatiles FIGURE 4.2 Le boxplot, l histogramme et le QQ-plot des doées du taux d alcool. 27, 26, 26, 29, 10, 28, 26, 23, 14, 37, 16, 18, 26, 27, 24 19, 11, 19, 16, 18, 27, 10, 37, 24, 18, 26, 23, 26, 19, 37 O otera (x 1,..., x 30 ) cette suite de résultats observée. Les valeurs s écheloat etre 10 et 37, la précisio état l uité, il serait maladroit de modéliser ceci comme les réalisatios de v.a. discrètes : le ombre de valeurs distictes evisageables devrait être grad, de l ordre de la quarataie, car rie iterdit de peser qu auraiet pu être observées des valeurs e dehors de l itervalle ici préset. Il est plus raisoable de cosidérer qu il y a, sous-jacet à ces observatios, u phéomèe à valeurs réelles, dot les observatios recueillies sot ue discrétisatio, l arrodi se faisat à la précisio du décigramme par litre. Les modèles les plus simples que l o puisse evisager ici sot des modèles d échatilloage : o admet que l o a observé les réalisatios de v.a. Y i idépedates et idetiquemet distribuées. Pour voir si u tel modèle est approprié, il faut d abord se demader commet a été costitué cet échatillo. Le problème essetiel est, comme das le premier paragraphe, celui de la source de variabilité (cause de l aléatoire). Celle-ci a e fait ici plusieurs origies simultaées : variatio d idividu à idividu et, pour chaque idividu, imprécisio de l appareil de mesure et effet de l erreur d arrodi. Il est assez évidet que, quelles que soiet les coditios de recueil, elles ot dû assurer l idépedace des v.a. Y i dot les observatios résultet. Le problème de l idetité de leurs lois et du choix de la famille à laquelle serait supposée apparteir cette loi commue est plus délicat. Nous l avos dit, les praticies utiliset souvet das u tel cotexte ue modélisatio avec pour loi commue ue loi ormale, de moyee µ et variace σ 2 (o ulle) icoues, N (µ, σ 2 ). Le paramètre est doc bi-dimesioel ϑ = (µ, σ 2 ) R R +. La probabilité N (µ, σ 2 ) a pour support R tout etier, alors qu ici (comme presque toujours das la pratique) les doées sot fodametalemet borées ; cet usage suppose doc que, pour la zoe de valeurs de µ et σ evisageables, la probabilité du complémetaire de l itervalle des

62 62 Régressio liéaire multiple Chapitre 4 valeurs effectivemet atteigables par les taux d alcool soit égligeable Étude du modèle O cosidère doc u échatillo (Y 1,..., Y ) de v.a. idépedates et de même loi gaussiee : P = {N (µ, σ 2 ), ϑ = (µ, σ 2 ) R ]0, [}. La desité de la loi N (µ, σ 2 ) est p(y 1 ; µ, σ 2 ) = 1 2πσ 2 e (y 1 µ) 2 /2σ 2. La vraisemblace du modèle est pour y = (y 1,..., y ) R, p (y; µ, σ 2 ) = (2πσ 2 ) /2 e i=1 (y i µ) 2 /2σ 2 = (2πσ 2 ) /2 e (ȳ µ)2 +v 2σ 2, où ȳ = 1 i=1 y i et v = 1 i=1 (y i ȳ ) 2. Traditioellemet, o cosidère S 2 = 1 1 i=1 (Y i Ȳ ) 2 = 1 1 i=1 Y 2 i 1 (Ȳ ) 2, au lieu de V = 1 i=1 (Y i Ȳ ) 2 (car S 2 est u estimateur sas biais de σ 2 ), cf la propositio 4.1. La loi de la statistique (Ȳ, S 2 ) est doée das la propositio Estimatio Pour calculer l estimateur du maximum de vraisemblace de (µ, σ 2 ), o cosidère la logvraisemblace l (y; µ, σ 2 ) = 2 log(2π) 2 log(σ2 ) (ȳ µ) 2 + v 2σ 2. E calculat les dérivées partielles, il viet et µ l (y; µ, σ 2 ) = ȳ µ σ 2, σ 2 l (y; µ, σ 2 ) = 2σ 2 + (ȳ µ) 2 + v 2σ 4. E particulier, les dérivées de la log-vraisemblace s aulet pour µ = ȳ et σ 2 = v. Esuite, o vérifie sas difficulté que la log-vraisemblace atteit so maximum pour (µ, σ 2 ) = (ȳ, v ). O e déduit doc que l EMV de ϑ = (µ, σ 2 ) est (Ȳ, V ). O déduit de la propositio 4.1 que E ϑ [Ȳ ] = µ et que E ϑ [S 2 ] = σ 2. (E revache V est u estimateur biaisé de σ 2, d où le choix traditioel de S 2 ). Aisi l estimateur ˆϑ = (Ȳ, S 2 ) est u estimateur sas biais de ϑ. Par la loi forte des grads ombre Ȳ et S 2 sot des estimateurs covergets. Aisi ˆϑ est u estimateur coverget de ϑ. (O peut égalemet vérifier qu il est asymptotiquemet ormal, mais cela e ous sera pas utile par la suite).

63 Sectio 4.3 Le modèle gaussie Itervalle de cofiace et tests pour la moyee O déduit de la propositio 4.1, que la loi de (Ȳ µ)/s est la loi t( 1). La loi de Studet est symétrique, aisi si q 1 α/2 (t 1 ) est le quatile d ordre 1 α/2 de la loi t( 1), alors q 1 α/2 (t 1 ) est le quatile d ordre α/2. E particulier, ue v.a. de loi t( 1) appartiet à [ q 1 α/2 (t 1 ), q 1 α/2 (t 1 )] avec probabilité 1 α. Comme (Ȳ µ) S [ q 1 α/2 (t 1 ), q 1 α/2 (t 1 )] µ [Ȳ ± q 1 α/2 (t 1 ) S ], o e déduit que [Ȳ ± q 1 α/2 (t 1 ) S ] est u itervalle de cofiace de iveau 1 α pour µ. O remarque que la logueur de l itervalle de cofiace [ ȳ ± q 1 α/2 (t 1 ) s ], où s 2 = 1 1 i=1 (y i ȳ ) 2 ted bie vers 0 quad la taille de l échatillo ted vers l ifii (à ȳ et s fixé). Il est aussi d autat plus log que s est plus élevé (ceci est aturel : la fluctuatio des doées cotrarie la cofiace que l o a e elles, cofiace qui se traduirait par u itervalle de cofiace assez court). Exercice 4.1. Si la variace est coue et égale à σ0 2, c est-à-dire si l o cosidère le modèle P = {N (µ, σ0 2), µ R}, vérifier que l itervalle [Ȳ ± q1 α/2 N σ 0 ] (où q1 α/2 N est le quatile d ordre 1 α/2 de la loi N (0, 1)) est alors u itervalle de cofiace de iveau 1 α pour µ. O cosidère les hypothèses H 0 : µ = µ 0 et H 1 : µ = µ 0, où µ 0 est doé. (O parle d hypothèse bilatérale, par oppositio à l exercice 4.2, où parle d hypothèse uilatérale). Il est aturel de comparer la moyee empirique avec moyee proposée, µ 0. Toutefois, sous H 0, la loi de Ȳ µ 0 est la loi N (0, σ 2 /), qui déped du paramètre icou σ 2. O cosidère doc la statistique de test ζ = Ȳ µ 0 S. La loi de la statistique de test sous H 0 est la loi de Studet de paramètre 1. La loi de ζ sous H 1 est la loi de Studet décetrée, mais ous e l expliciteros pas ici. O remarque que sous H 1, Ȳ µ 0 coverge p.s. vers µ µ 0 = 0 quad. O a toujours que S coverge p.s. vers σ 2. O e déduit doc que sous H 1, p.s. lim ζ = +. Il est doc aturel de cosidérer la régio critique W = {(y 1,..., y ); ζ obs a }, (4.1) où ζ obs = ȳ µ 0 s, avec ȳ = 1 i=1 y i et s = 1 1 i=1 (y i ȳ ) 2. D après le comportemet de la statistique de test sous H 1, o e déduit que le test W est coverget. Comme sous H 0, la loi de ζ est la loi de Studet de paramètre 1, o e déduit que le iveau du test W est sup ϑ H 0 P ϑ (W ) = P( Z a ), où Z est de loi t( 1). Pour obteir u test de iveau α, o choisit a = q 1 α/2 (t 1 ), le quatile d ordre 1 α/2 de loi de Studet de paramètre 1.

64 64 Régressio liéaire multiple Chapitre 4 La p-valeur du test est doée par où ζ obs p-valeur = P( Z ζ obs ), (4.2) est la statistique de test évaluée e les observatios. Remarque 4.1. O peut étudier la répose du test e foctio de, ȳ et s. à et s fixés, si ȳ s éloige de µ 0, alors ζ augmete et o a tedace à rejeter le test. à et ȳ fixés, si s dimiue, alors ζ augmete et o a tedace à rejeter le test. Cela traduit le fait que si s est petit alors la variabilité des doées est petite et ȳ doe ue estimatio précise du vrai paramètre µ. Des petits écarts etre ȳ et µ 0 devieet sigificatifs. à ȳ et s fixés, si augmete, alors ζ augmete et o a tedace à rejeter le test. E effet, plus la taille de l échatillo est grade est plus ȳ doe ue estimatio précise du vrai paramètre µ. Exercice 4.2. Écrire le test pour les hypothèses uilatérales H 0 : µ µ 0 et H 1 : µ > µ 0. Exercice 4.3. Tester les hypothèses H 0 : µ = µ 0 et H 1 : µ = µ 0, où µ 0 est doé das le modèle gaussie à variace coue : P = {N (µ, σ0 2 ), µ R} Itervalles de cofiace et tests pour la variace Le raisoemet est idetique das le cas de la variace : la costructio d itervalles de cofiace ou de tests se fait à partir de la coaissace de la loi, sous l hypothèse ulle ou à la frotière de celle-ci, de l estimateur du paramètre d itérêt. Itervalles de cofiace pour la variace L estimateur (sas biais) de σ 2 est la variace empirique sas biais S 2, et le poit (ii) de la propositio 4.1 permet d écrire par exemple que, si χ 2,1 α est le quatile d ordre (1 α) de la loi χ 2 (), ) 2 1 ( 1)S2 P (q α/2 (χ ) < σ 2 < q 1 α/2 (χ 2 1 ) = 1 α, d où l o déduit u itervalle de cofiace pour la variace (bilatéral das cet exemple) de iveau de cofiace (1 α) : [ ] ( 1)S 2 q 1 α/2 (χ 2 1 ) ; ( 1)S 2 q α/2 (χ 2 1 ). Tests pour la variace O peut aussi, e suivat la démarche itroduite au chapitre 3, costruire des tests pour des hypothèses relatives au paramètre σ 2. Cosidéros par exemple le test de H 0 : σ 2 σ 2 0 cotre H 1 : σ 2 > σ 2 0. à la frotière de H 0, i.e. lorsque la valeur du paramètre est σ0 2, la statistique Z = ( 1)S2 σ 2 0 χ 2 ( 1).

65 Sectio 4.4 Régressio liéaire multiple 65 Cette statistique aura tedace à croître avec σ sous l hypothèse alterative (et de plus S 2 σ 2 p.s. e vertu de la loi forte des grads ombres), d où le choix d ue régio de rejet de la forme ]c, + [, où c est calibré (le plus petit possible) de sorte que P σ0 (Z > c) = α. Ceci amèe doc à choisir pour c le quatile d ordre (1 α) de la loi χ 2 ( 1), autremet dit à coclure ( 1)S 2 Rejet de H 0 si > q 1 α (χ 2 1 ). Le lecteur pourra costruire les tests relatifs aux situatios suivates : σ 2 0 H 0 : {σ 2 σ 2 0 } cotre H 1 : {σ 2 < σ 2 0 }, H 0 : {σ 2 = σ 2 0 } cotre H 1 : {σ 2 = σ 2 0 } Aalyse des doées réelles O choisit le modèle P = {N (µ, σ 2 ), µ R, σ > 0}. O obtiet l estimatio de (µ, σ 2 ) à l aide de (ȳ, s 2 ) : ȳ = 1 y i = 22.9 et s 2 = 1 1 i=1 i=1 L itervalle de cofiace de iveau 95% de µ est doé par [ȳ ± q 1 α/2 (t 1 ) s ] = [20.2, 25.6]. (y i ȳ ) 2 = La p-valeur associée au test de régio critique (4.1), défiie par (4.2), est pour µ 0 = 20, p-valeur = P( Z ζ obs ) = 0.037, où ζ = ȳ µ 0 s = E particulier o rejette H 0 : {µ = µ 0 } au iveau de 5%. 4.4 Régressio liéaire multiple Rappel de la problématique La problématique a été itroduite sur u exemple e 4.1. Repreos-la avec ue autre situatio. Il s agit ici de modéliser u phéomèe aléatoire observé par ue combiaiso liéaire ou affie de variables explicatives, dot les valeurs sot détermiistes et coues pour chaque expériece (ou observatio) réalisée. Par exemple, si l o souhaite expliquer la durée d ue certaie maladie (e jours) après l admissio de patiets à l hôpital, o peut peser que cette durée est liée à certaies variables quatitatives (i.e., à valeur umériques). O relèvera par exemple les ombres de bactéries de certais types présetes das l orgaisme du patiet à so arrivée, aisi que des idicateurs de so état gééral (poids, température,... ). Si l o dispose de observatios de ces variables explicatives aisi que de la variable à expliquer (l observatio de la variable à expliquer est doc faite a posteriori das cet exemple, lorsque les patiets ot quitté l hopital) o peut étudier la pertiece de cette modélisatio liéaire. Il est possible de tester la sigificativité du modèle, et celle de certaies variables explicatives. Il est possible aussi d estimer les lies etre variables explicatives et variable à expliquer et évetuellemet de faire esuite de la prédictio, c est à dire ici d estimer la durée d hospitalisatio d u ouveau patiet à partir de la coaissace des valeurs des variables explicatives das so cas.

66 66 Régressio liéaire multiple Chapitre Cadre gééral du modèle liéaire gaussie L itroductio géérale et l exemple précédet permettet de dégager le cadre formel cidessous. O effectue observatios Y = (Y 1,..., Y ), et chaque observatio est l additio d u effet moye et d u bruit. Si o cosidère le vecteur des observatios Y R, le modèle s écrit Y = µ + ε, et o fait les hypothèses (de modèle) suivates : M1 l effet moye µ est icou et o observable, mais µ E, sous espace vectoriel de R, fixé et de dimesio k ; M2 le vecteur aléatoire ε (o observable) a pour loi N (0, σ 2 I ) et le paramètre σ 2 > 0 est icou. Estimatio Ayat observé Y, le poit de E le plus proche de Y est sa projectio sur E, Y E = µ + ε E, qui est l estimateur ituitif de µ. La projectio sur l orthogoal de E, Y Y E = ε ε E e cotiet pas d iformatio sur µ (elle est cetrée) : c est u idicateur de la dispersio des observatios, qu il est aturel d utiliser pour estimer σ 2. O précise ceci das le résultat suivat, coséquece directe du théorème 4.1. Propositio 4.2. O observe Y = µ + ε avec les hypothèses M1 et M2. Alors o a : (i) Y E est u estimateur sas biais de µ. (ii) Y Y E 2 /( k) est u estimateur sas biais de σ 2. (iii) Y E et Y Y E sot idépedats. (iv) Y E µ 2 σ 2 χ 2 (k) et Y Y E 2 σ 2 χ 2 ( k). O peut motrer égalemet que, pour tout vecteur u R, le produit scalaire u, Y E est l estimateur de u, µ sas biais de variace miimum Défiitio du modèle O observe u phéomèe aléatoire Y et l o suppose ce phéomèe ifluecé par p variables explicatives ou régresseurs, R 1,..., R p. Parfois, Y est aussi appelée la variable dépedate, et R 1,..., R p les variables idépedates. O réalise observatios, autremet dit Y = (Y 1,..., Y ), et o ote R 1 i,..., Rp i les coditios expérimetales pour la i-ème observatio Y i, c est à dire les valeurs (détermiistes) des p régresseurs lors de l expériece i. O fait comme o l a dit l hypothèse d ue relatio liéaire ou affie etre les régresseurs et la variable à expliquer Y et, comme e aalyse de la variace, o suppose observer la somme de l effet de ces régresseurs et d u esemble de perturbatios o observables, que l o résume par u bruit gaussie cetré. Ce modèle s écrit aisi Y i = p p α j R j i + ε i, ou bie Y i = β + α j R j i + ε i, i = 1,...,, j=1 j=1 où ε = (ε 1,..., ε ) est u -échatillo de la loi N (0, σ 2 ) (l hypothèse d homoscédasticité est présete ici aussi, puisque σ 2 e déped pas de i). Les paramètres icous à estimer sot (β, α 1,..., α p, σ 2 ) das le cas affie (o retire β das le cas liéaire sas costate).

67 Sectio 4.4 Régressio liéaire multiple 67 Notatio vectorielle Cosidéros par exemple le cas affie, et posos 1 R 1 1 Rp 1 X =... 1 R 1 R p = [ 1 R 1 R p], la matrice (p + 1) des régresseurs (la coloe de 1, 1, état cosidérée comme u régresseur particulier lorsqu elle figure das le modèle). Posos aussi ϑ R p+1 le paramètre du modèle, où ϑ = (β, α 1,..., α p ) t. Le modèle s écrit vectoriellemet : Y = Xϑ + ε, avec Xϑ E et ε N (0, σ 2 I ), où E = {Xu, u R p+1 } est le sous-espace vectoriel de R egedré par les coloes de X. Ce modèle s iscrit aisi das le cadre gééral du modèle liéaire gaussie décrit e 4.4.1, avec adoptio des hypothèses M1 et M2 qui y ot été faites. O suppose que la dimesio de E est p + 1, c est à dire que les p régresseurs et 1 sot liéairemet idépedats, ou ce qui reviet au même que rag(x) = p + 1, ou ecore que la matrice symétrique X T X est elle-même de rag p + 1. Cette hypothèse est pas ue réelle perte de gééralité puisque, si elle est pas vérifiée, cela sigifie que l u des régresseurs est combiaiso liéaire des autres ; il apporte alors pas d explicatio supplémetaire et il suffit de le retirer. Exemple 4.3. La régressio simple. C est la situatio où l o dispose d u seul régresseur (p = 1) que ous otos simplemet R. Le modèle s écrit Y i = β + αr i + ε i, i = 1,...,, ce qui reviet à dire que Y i N (β + αr i, σ 2 ). O visualise ce modèle das l espace des variables (R, Y) par le fait que les observatios tombet das u tuel gaussie d amplitude σ le log de la droite d équatio x = β + αr. L exemple 4.2 des doées de pluie est de ce type Estimatio O applique das ce cadre les résultats de la propositio 4.2. La projectio de Y sur E est l estimateur sas biais de Xϑ. Il s écrit Y E = X ˆϑ, où ˆϑ R p+1 est l estimateur sas biais de ϑ. Il est tel que Y X ˆϑ est orthogoal à tout vecteur de E, autremet dit pour tout vecteur u R p+1, Xu, Y X ˆϑ = 0, ce qui doe ˆϑ = (X t X) 1 X t Y. Remarquos que, si l o ote P le projecteur sur E (doc tel que Y E = PY), celui-ci s écrit P = X(X t X) 1 X t. La résiduelle est Y Y E 2 = Y, Y Y E = Y t (I P)Y, soit Y Y E 2 = Y t [ I X(X t X) 1 X t] Y. D après le poit (iv) de la propositio 4.2, Y Y E 2 σ 2 χ 2( (p + 1) ), et l o estime (sas biais) la variace par ˆσ 2 = Y Y E 2 (p + 1). Remarque : das le cas de la régressio sas costate, il suffit de retirer la coloe 1 de X et de remplacer p + 1 par p.

68 68 Régressio liéaire multiple Chapitre 4 Variaces des estimateurs O déduit immédiatemet de l expressio de ˆϑ que sa matrice de variaces-covariaces est Var( ˆϑ) = σ 2 (X t X) 1. Exemple 4.4. La régressio simple (suite de l exemple 4.3). Il est facile de meer les calculs à la mai das le cas de la régressio simple. La matrice des régresseurs est X = [1 R], d où et le calcul de ˆϑ doe (X t X) 1 = 1 i=1 (R i R) 2 ˆα = [ i=1 R 2 i i=1 R i i=1 R i Cov(R, Y), ˆβ = Ȳ ˆα R, Var(R) où R = i=1 R i/ est la moyee empirique de R, et Var(R) = 1 i=1(r i R) 2, Cov(R, Y) = 1 ], i=1(r i R)(Y i Ȳ) = 1 R i Y i RȲ, i=1 sot les variaces et covariaces empiriques (qui ot le ses de mesures descriptives ici puisque R est pas aléatoire). O peut remarquer que ces estimateurs coïcidet avec les estimateurs des moidres carrés de la droite de régressio de Y sur R, c est à dire la pete et la costate de la droite d équatio Y = b + ar qui miimiset les carrés des écarts i=1 (Y i b ar i ) 2. O déduit immédiatemet de l expressio de Var( ˆϑ) l expressio des variaces de ˆα et ˆβ, aisi que la covariace etre les deux estimateurs (ils e sot pas idépedats). Comme ils sot des estimateurs sas biais des paramètres qu ils estimet, et suivet des lois gaussiees (car combiaisos liéaires de Y), o a fialemet : ˆα N ( α, σ 2 ) ( i=1 (R i R) 2, ˆβ N β, Le projeté est Y E = ˆβ1 + ˆαR, et o peut écrire directemet la résiduelle SSE = Y Y E 2 = i=1 (Y i ˆβ ˆαR i ) 2, σ 2 i=1 ) R2 i i=1 (R i R) 2. écarts etre les valeurs observées et les valeurs ajustées par le modèle. Elle suit la loi σ 2 χ 2 ( 2), et l estimateur sas biais de la variace est Y Y E 2 /( 2) qui est idépedat de ˆϑ. La coaissace des lois des estimateurs de (β, α), qui dépedet de σ 2, aisi que de la loi de l estimateur de σ 2 et cette propriété d idépedace permet de costruire des itervalles de cofiace ou des tests pour β et α aalogues aux itervalles de cofiace et tests de Studet costruits e Test de l utilité des régresseurs Das le modèle Y = Xϑ + ε avec p régresseurs et la costate (cas affie), o souhaite souvet tester l utilité d ue partie des régresseurs, autremet dit ue hypothèse ulle de la forme H 0 : { R q+1,..., R p sot iutiles } cotre H 1 : { c est faux },

69 Sectio 4.4 Régressio liéaire multiple 69 où 1 q < p, et où o a évetuellemet effectué ue permutatio de l ordre des régresseurs. La cotre-hypothèse se compred comme H 1 : l u des R j, q + 1 j p au mois est utile. L hypothèse ulle, si elle est pas rejetée, permet alors de simplifier le modèle de régressio, e e coservat qu ue partie des variables qui étaiet a priori explicatives. Les hypothèses peuvet se reformuler comme H 0 : {α j = 0, j = q + 1,..., p} cotre H 1 : {il existe au mois u α j = 0}, autremet dit comme l apparteace, sous H 0, de l effet moye à u sous-espace vectoriel de E de dimesio plus petite, ce qui ous ramèe à la méthode employée pour le test d homogééité e aalyse de la variace (voir le passage Gééralisatio e??, p.??). E effet, le sous-modèle associé à H 0 s écrit Y i = β + q j=1 α jr j i + ε i, i = 1,...,, ou vectoriellemet (e idiçat par 0 les quatités qui diffèret sous l hypothèse ulle) Y = X 0 ϑ 0 + ε, X 0 = [1 R 1 R q ], ϑ 0 = (β, α 1,..., α q ) t, et doc X 0 ϑ 0 H = {X 0 w : w R q+1 }, où H est de dimesio q + 1. O teste aisi H 0 : {Xϑ H} cotre H 1 : {Xϑ E \ H}. Sous H 0, o estime l effet moye par la projectio de Y sur H c est à dire Y H = X 0 ˆϑ 0 avec ˆϑ 0 = (X t 0 X 0) 1 X t 0 Y. O procède esuite comme pour le test d homogééité : sous H 0, Y E Y H 2 σ 2 χ 2 (p q) mais σ est icou. O pred le rapport avec la résiduelle ormalisée qui, elle, suit toujours la loi χ 2 ( p 1), pour costruire la statistique de test F = Y E Y H 2 /(p q) Y Y E 2 /( p 1) F(p q, p 1) sous H 0. La loi du χ 2 du umérateur (ormalisé coveablemet) se décetre sous l hypothèse alterative, d où le test au iveau α qui coduit à rejeter H 0 dès que F > q 1 α (F(p q, p 1)). Table d aalyse de la variace pour le modèle de régressio Lorsqu ils traitet u modèle de régressio, la plupart des logiciels de statistique calculet les estimateurs des paramètres et effectuet des tests idividuels de ullité de ces paramètres (p tests de Studet de H 0 : α j = 0, j = 1,..., p, fodés sur les lois que ous avos doé plus haut). Ils fourisset égalemet ue table d aalyse de variace associée au modèle de régressio. Il s agit du résultat du test de Fisher pour l hypothèse ulle pas de modèle de régressio, autremet dit aucu régresseur est sigificatif. C est la réalisatio du test ci-dessus pour H = {λ1, λ R}. Coefficiet de détermiatio Lorsque il y a ue costate das la régressio, o appelle coefficiet de détermiatio, ou R 2, le ombre R 2 = Y E Ȳ1 2 [0, 1]. Y Ȳ1 2 C est u idicateur de la qualité de la régressio : plus le R 2 est proche de 1, meilleure est l adéquatio du modèle aux doées (o parle aussi de pourcetage de la variabilité expliquée par le modèle de régressio).

70 70 Régressio liéaire multiple Chapitre 4 Remarquos que pour le test de Fisher associé à l hypothèse ulle aucu régresseur est sigificatif, le sous-espace vectoriel H est celui egedré par 1 ce qui etraîe que Y H = Ȳ1. Das ce cas il existe u lie simple etre le R 2 et la statistique du test de Fisher : F = ( (p + 1)) p R 2 1 R 2. Exemple 4.5. La régressio simple, (suite et fi de l exemple 4.4). Nous termios l étude détaillée de la régressio simple avec le test de o effet du seul régresseur préset das le modèle : H 0 : {α = 0} cotre H 1 : {α = 0}. Remarquos que, ici, il est possible de costruire ce test de deux maières : à partir de la loi de ˆα e utilisat la loi de Studet (qui proviet, rappelos-le, de l obligatio d estimer σ 2 par la résiduelle), ou bie à partir du test de Fisher. O vérifie que les statistiques de ces deux tests sot liées par la relatio F = T 2, et ils doet la même p-valeur. Nous allos utiliser ici la secode méthode. Sous H 0, le modèle est simplemet Y = β1 + ε (il s agit doc d u -échatillo de N (β, σ 2 )), et Y H = Ȳ1. Nous avos déjà précisé l expressio de la résiduelle das ce cas. La somme des carrés du modèle est et la statistique de test F = SSM = Y E Y H 2 = i=1 ( ˆβ + ˆαR i Ȳ) 2, Y E Y H 2 Y Y E 2 /( 2) F(1, 2) sous H 0. O rejette doc H 0 au iveau γ si F > q 1 γ (F(1, 2)). Efi, si o a observé la valeur f de la statistique F, la p-valeur de ce test est P(F > f ), où F F(1, 2). Das le cas de la régressio simple, le coefficiet de détermiatio R 2 = SSM/SST est aussi le carré du coefficiet de corrélatio etre Y et R. Exemple 4.6. Si o repred l exemple 4.2, o obtiet les résultats suivats : Les estimatios des paramètres valet : ˆα = 4.55 et ˆβ = Sur le graphique (Fig. 4.3) o a représeté la droite de régressio y = 4.6*x - 1.3e+002 Hauteur de pluie Nombre de jours FIGURE 4.3 Droite de régressio sur le uage de poits

71 Sectio 4.6 Exercices 71 Les itervalles de cofiace de Studet sot : I 0.05 (α) = [3.40; 5.70] et I 0.05 (β) = [ 322; 66] Le calcul du R 2 et du test de H 0 : {α = 0} doet : doc o rejette clairemet H 0. R 2 Fisher p-valeur < Exercices 4.6 Résumé du Chapitre Le modèle gaussie à variace coue 1. Modèle : (Y k, 1 k ) suite de v.a. i.i.d. de loi gaussiee à variace, σ0 2, coue : P = {N (µ, σ0 2 ), µ R}. 2. H 0 : {µ = µ 0 }, H 1 : {µ = µ 0 }, avec µ 0 R. 3. Statistique de test : ζ = Ȳ µ 0 σ Loi sous H 0 : N (0, 1). 5. Loi sous H 1 : gaussiee réduite décetrée. 6. Régio critique : W = { ζ a}. 7. Niveau exact α : a = q1 α/2 N, où qn 1 α/2 est le quatile d ordre 1 α/2 de N (0, 1). 8. Test coverget. 9. p-valeur : P( G ζ obs ) où G de loi N (0, 1). 10. Variate : H 0 : {µ µ 0 }, H 1 : {µ > µ 0 }. Même statistique de test. Régio critique : W = {ζ a}. Niveau exact α : a = q1 α N. Test coverget. p-valeur : P(G ζobs ) Le modèle gaussie à variace icoue 1. Modèle : (Y k, 1 k ) suite de v.a. i.i.d. de loi gaussiee : P = {N (µ, σ 2 ), µ R, σ > 0}. 2. H 0 = {µ = µ 0 }, H 1 : {µ = µ 0 }, avec µ 0 R. 3. Statistique de test : ζ = Ȳ µ 0 S. 4. Loi sous H 0 : Studet de paramètre Comportemet asymptotique sous H 1 : ζ coverge p.s. vers ou Régio critique : W = { ζ a}. 7. Niveau exact α : a = q 1 α/2 (t 1 ), où q 1 α/2 (t 1 ) est le quatile d ordre 1 α/2 de la loi de Studet de paramètre Test coverget. 9. p-valeur : P( T ζ obs ) où T de loi de Studet de paramètre Variate : H 0 : {µ µ 0 }, H 1 : {µ > µ 0 }. Régio critique : W = {ζ a}. Niveau exact α : a = q 1 α (t 1 ). Test coverget. p-valeur : P(T ζ obs ).

72 72 Régressio liéaire multiple Chapitre Régressio multiple 1. Modèle : pour i = 1... Y i = β + p α j R j i + ε i. j=1 Les v.a. ε i, i = 1... sot i.i.d. de loi N (0, σ 2 ). Les coefficiets de la régressio β, α 1,..., α p et la variace σ 2 sot icoues. 2. H 0 : {α q+1 =... = α p = 0} (les p q régresseurs R q+1,..., R p sot iutiles), H 1 : { j {q + 1,..., p}, α j = 0} (u au mois des p q régresseurs R q+1,..., R p est utile). 3. Statistique de test : F = Y E Y H 2 /(p q) Y Y E 2 /( p 1), où Y E est la projectio orthogoale de Y sur l espace vectoriel, E, egedré par 1, R 1,..., R p, et Y H est la projectio orthogoale de Y sur l espace vectoriel, H, egedré par 1, R 1,..., R q. 4. Comportemet sous H 0 : F suit ue loi de Fischer : F(p q, p 1). 5. Comportemet sous H 1 : F quad. 6. Régio critique : W = {F > a}. 7. Niveau α : a = q 1 α (F(p q, p 1)), où q 1 α (F(p q, p 1)) est le quatile d ordre 1 α de la loi de Fisher F(p q, p 1). 8. Le test est coverget. 9. p-valeur : P(F f obs ).

73 5 Tests d adéquatio 5.1 Itroductio E pratique, das la plupart des situatios, il est impossible de savoir quelle est la loi de probabilité des doées que ous souhaitos aalyser. Au chapitre 1, ous avos vu quelques outils graphiques histogramme, foctio de répartitio empirique, QQ-plot offrat ue évaluatio visuelle de la pertiece de modélisatio des doées observées par telle ou telle loi. Le but de ce chapitre est de fourir des méthodes statistiques permettat ue évaluatio quatitative de la modélisatio des doées par ue loi doée ou par ue famille des lois. 5.2 Tests du chi-deux Test d adéquatio à ue loi discrète Le problème O observe v.a. (X i ) 1 i, idépedates et de même loi, à valeurs das u espace fii A = {a 1,..., a k }. Cette loi, icoue, est caractérisée par la suite p = (p 1,... p k ) (avec k j=1 p j = 1), où pour tout j = 1,..., k, la quatité p j désige la probabilité d observer a j (idépedate de i e raiso de l idetique distributio des X i ) ; soit p j = P(X i = a j ). La loi joite du - uplet X = (X i ) 1 i est : pour tout (x 1,, x ) A, P p (X i = x i, 1 i ) = i=1 P p (X i = x i ) = k p card({i ; x i=a j }) j. j=1 Remarque 5.1. Il e est aisi, par exemple, si o procède à u sodage das ue populatio divisée e k catégories, les tirages des idividus pouvat être cosidérés comme idépedats, et, à chaque fois, la probabilité d être das ue catégorie doée état égale à la proportio (icoue) d idividus de cette catégorie das la populatio totale. C est bie le cas si o effectue des tirages avec remises et brassage de la populatio, mais u tel modèle d ure, quoique traditioel, est pas très réaliste. Cepedat, o peut cosidérer qu o est approximativemet das le modèle proposé si o fait porter

74 74 Tests d adéquatio Chapitre 5 le tirage sur des idividus disticts (tirage sas remise ) mais das u cotexte où la taille totale de la populatio est très grade par rapport à celle de l échatillo. O avace l hypothèse que le paramètre est p 0 = (p 0 1,..., p0 k ), où p0 j > 0, pour tout j = 1,..., k. Le but est de tester, à u iveau doé α, cette hypothèse ulle simple, H 0 : p = p 0, cotre l hypothèse alterative H 1 : p = p 0. Ituitios Pour tout j = 1,..., k o ote N j = card({i : X i = a j }) = i=1 1 {X i =a j } la variable aléatoire de comptage du ombres de fois où l état a j est visité par les v.a. X i, i = 1,...,. La v.a. N j suit ue loi biomiale de paramètres (, p j ). O rappelle que E[N j ] = p j, que la v.a. ˆP j = N j est u estimateur coverget sas biais de p j. Il y a doc lieu de peser que, s il est vrai que p = p 0, la suite des effectifs observés j = card({i : x i = a j }) sera telle que la suite des fréqueces observées, ˆp = ( ˆp 1,..., ˆp k ) = ( 1,..., k ), sera proche (e raiso de la loi forte des grads ombres citée précèdemmet) de la suite mise e test p 0 = (p 0 1,..., p0 k ). Avec cette otatio, il viet que P p (X i = x i, 1 i ) = k j=1 p j j. O peut e déduire que ˆp est l estimatio par maximum de vraisemblace de p, ce qui justifie que ous fassios porter otre test sur cette suite des fréqueces observées ˆP = ( ˆP j ) 1 j k. O souhaite doc pouvoir caractériser ue distace etre la suite des fréqueces observées ˆp et la suite des fréqueces théoriques p 0, de maière à rejeter l hypothèse ulle si cette distace est supérieure à ue certaie valeur frotière. Pour réaliser ce programme, il faut que : la loi, sous l hypothèse ulle, de cette distace soit (au mois approximativemet) coue de sorte que la frotière sera le quatile d ordre 1 α de cette loi (le rejet à tort de l hypothèse ulle sera bie alors de probabilité approximativemet égale à α), si l hypothèse ulle est pas satisfaite, cette distace ait tedace à predre des valeurs d autat plus grades que la vraie valeur du paramètre p est plus éloigée de p 0 (ce qui, là aussi, coduit à souhaiter disposer d ue distace etre p et p 0, gouverat la loi de la distace etre la v.a. ˆP et p 0 ). Outils O défiit la distace du χ 2 (ou distace du chi-deux), etre deux probabilités sur u esemble fii à k élémets, p = (p j ) 1 j k et q = (q j ) 1 j k, par : D(p, q) = k (p j q j ) 2. q j=1 j Remarquos que, faute de symétrie etre p et q, cet objet est pas ue distace au ses mathématique traditioel du terme (o parle parfois de pseudo-distace du χ 2 ). O démotre (ous l admettros) que, si l hypothèse ulle est satisfaite, la loi de la v.a..d( ˆP, p 0 ) ted, quad ted vers l ifii, vers la loi du chi-deux à k 1 degrés de liberté. Ceci coduit, pour assez grad (otio qui sera précisée empiriquemet das la suite),

75 Sectio 5.2 Tests du chi-deux 75 à foder sur.d( ˆP, p 0 ) le test, au iveau α, de l hypothèse H 0 = {p = p 0 }, le rejet ayat lieu si ( ˆp j p 0 j )2 χ 2 k 1,1 α, k j=1 p 0 j où q 1 α (χ 2 k 1 ) désige le quatile d ordre 1 α de la loi du chi-deux à k 1 degrés de liberté, dispoible das des tables ou via les ordiateurs. C est ce que l o appelle le test du χ 2. Critère pratique. O cosidère souvet que l approximatio fourie par la loi du χ 2 à k 1 degrés de liberté pour la loi de.d( ˆP, p 0 ) est valide si tous les produits p 0 j (1 p0 j ) sot supérieurs ou égaux à 5. Remarque 5.2 (Pour les lecteurs de iveau avacé). Itéressos ous maiteat à la puissace de ce test, c est-à-dire cosidéros les situatios où p = p 0. O démotre (ous l admettros ) que, si la loi commue des v.a. X i est caractérisée par la valeur p du paramètre, alors la loi de.d( ˆP, p 0 ) est bie approchée, quad ted vers l ifii, par la loi dite du χ 2 décetré à k 1 degrés de liberté, χ 2 k 1,δ, avec pour coefficiet d excetricité δ =.D(p, p 0). Il se produit alors ue circostace heureuse cocerat la famille des lois χ 2 k 1,δ : elle est, à ombre de degrés de liberté fixé (ici k 1) stochastiquemet croissate avec le coefficiet d excetricité δ, c est-à-dire que, pour tout t > 0, la probabilité qu ue v.a. suivat la loi χ 2 k 1,δ dépasse t est foctio croissate de δ. Afi d illustrer davatage le phéomèe d excetricité egedré par δ ous pouvos rappeler que E[χ 2 k,δ ] = k + δ et Var(χ2 k,δ ) = 2(k + 2δ) Test d adéquatio à ue famille de lois discrètes Présetatio géérale Le modèle est ici le même qu e : o observe v.a. X i, idépedates et de même loi, à valeurs das u espace fii, soit A = {a 1,..., a k }. Cette loi, icoue, est caractérisée par la suite p = (p 1,... p k ), où, pour tout j (avec 1 j k), p j désige la probabilité d observer a j. Ici l hypothèse à tester est plus réduite à ue valeur bie détermiée p 0, mais elle exprime que le paramètre appartiet à ue famille (p ϑ, ϑ Θ), où l o ote p ϑ = (p 1,ϑ,..., p k,ϑ ) u vecteur de poids de probabilité idexé par u paramètre ϑ. Attetio : Θ est pas ici l esemble des paramètres du modèle tout etier mais paramétrise seulemet l hypothèse ulle. Ue idée aturelle est de repredre la méthode du test d adéquatio vue e e y remplaçat p 0 par p, où ˆϑ est ue estimatio de ϑ. C est ce que l o appelle u test du χ 2 ˆϑ adaptatif. O démotre alors que si l esemble Θ des valeurs possibles pour ϑ est ue partie ouverte d itérieur o vide de R h (avec h < k 1) la loi de D( ˆP, p ˆϑ ) ted, sous l hypothèse ulle, vers la loi du χ 2 à k h 1 degrés de liberté, sous des coditios de régularité que ous e préciseros pas ici, mais qui sot satisfaites si ˆϑ est ue estimatio par maximum de vraisemblace. Doc o procède comme das le test du χ 2 d adéquatio, e remplaçat seulemet le ombre de degrés de liberté k 1 par k h 1. Exemple : test du χ 2 d idépedace Les v.a. i.i.d. X i sot ici de la forme (Y i, Z i ), où les premières composates Y i sot à valeurs das A = {a 1,..., a k }, et les secodes composates Z i sot à valeurs das B = {b 1,..., b m }.

76 76 Tests d adéquatio Chapitre 5 O ote, pour tout j = 1,..., k, et tout l = 1,..., m, p j,l = P((Y i, Z i ) = (a j, b l )). Le paramètre est doc p = (p j,l ) 1 j k,1 l m. O veut tester l hypothèse que les 2 composates sot idépedates, autremet dit que la loi commue des couples (Y i, Z i ) est ue loi produit, c est-à-dire ecore que tous les p j,l sot de la forme : (j, l) A B, p j,l = P(Y i = a j, Z i = b l ) = P(Y i = a j )P(Z i = b l ) = q j r l, où écessairemet, pour tout j, q j = m l=1 p j,l et, pour tout l, r l = k j=1 p j,l. Les q j caractériset la loi commue des v.a. Y i et les r l caractériset la loi commue des v.a. Z i ; ces lois sot appelées aussi première et secode lois margiales des X i. Aisi, sous l hypothèse ulle, le paramètre, caractérisé d ue part par les k valeurs q j (de somme égale à 1) et d autre part par les m valeurs r l (aussi de somme égale à 1), appartiet à u espace de dimesio h = k + m 2. O supposera que les q j et les r l sot tous o uls, ce qui assure que, sous l hypothèse ulle, l esemble de paramétrage est ue partie ouverte de R k+m 2 État observé u échatillo de taille, soit (y i, z i ) 1 i, otos, pour tout couple (j, l), j,l l effectif des observatios égales à (a j, b l ) et ˆp j,l leur fréquece ( ˆp j,l = j,l ). O estime alors chaque q j de la première marge par la fréquece margiale correspodate ˆq j = 1 m l=1 j,l et de même, pour la secode marge, chaque r l par la fréquece margiale correspodate ˆr l = 1 k j=1 j,l. Alors, si l hypothèse ulle est satisfaite, o estime, pour tout couple (j, l), p j,l, par le produit des fréqueces margiales ˆq jˆr l (pour mimer la formule d idépedace citée plus haut). Nous admettos que les coditios de validité de la méthode sot satisfaites, ˆq j et ˆr l état respectivemet des estimateurs par maximum de vraisemblace de q j et r l. Le test, au seuil α, cosiste doc à rejeter l hypothèse d idépedace si : autremet dit k m j=1 l=1 k j=1 m l=1 ( ˆp j,l ˆq jˆr l ) 2 ( j,l ˆq jˆr l q 1 α (χ 2 (k 1)(m 1) ), j. l 2 ) 2 j. l 2 q 1 α (χ 2 (k 1)(m 1) ), où : j,l est le ombre d observatios égales à (a j, b l ), j = m l=1 j,l est le ombre d observatios dot la première composate est égale à a j, l = k j=1 j,l est le ombre d observatios dot la secode composate est égale à b l, q 1 α (χ 2 (k 1)(m 1) ) est le quatile d ordre 1 α de la loi du χ2 à (k 1)(m 1) degrés de liberté (e effet km (k + m 2) 1 = (k 1)(m 1)). 5.3 Test de Kolmogorov C est u test d ajustemet à ue loi, comme le test du χ 2, mais qui s applique à ue variable cotiue. O veut tester l hypothèse selo laquelle les doées observées sot tirées d ue loi dot la foctio de répartitio est F 0. Das toute cette sectio, o cosidère que la vraie foctio de répartio icoue F et F 0 sot cotiues.

77 Sectio 5.3 Test de Kolmogorov 77 Le test est basé sur la différece etre la foctio de répartitio F 0 de cette loi théorique et la foctio de répartitio empirique ˆF dot o rappelle la défiitio : Défiitio 5.1. O défiit la foctio de répartitio empirique du -échatillo (X 1,..., X ), par la foctio e escalier suivate : ˆF (t) = Card({1 i : X i t}) = 1 1 {Xi t}. i=1 Remarque 5.3. Notos que ˆF est cotiue à droite. Le test de Kolmogorov 1 permet de tester l hypothèse H 0 : Les observatios sot u échatillo de la loi F 0 cotre sa égatio. La statistique D de ce test est alors basée sur la distace maximale etre F 0 et ˆF, c est à dire : D = sup t R F0 (t) ˆF (t). Il s agit d u choix de distace raisoable, car d après le théorème de Gliveko-Catelli, sous H 0, D coverge presque sûremet vers 0 lorsque ted vers l ifii. La zoe de rejet est alors de la forme : {D > a}. Notos que comme ˆF est costate et égale à i/ sur l itervalle [X (i), X (i+1) [ tadis que F 0 est croissate sur cet itervalle, sup F0 (t) ˆF (t) ( F0 = max (X (i) ) i, F 0 (X t [X (i),x (i+1) [ (i+1) ) i ). O e déduit l expressio suivate très utile e pratique ( D = max max F0 (X (i) ) i 1, F 0 (X 1 i (i) ) i ). La légitimité du choix de D comme statistique de test repose sur la propositio suivate : Propositio 5.1. Sous H 0, la loi de D e déped pas de F. O dit alors que D est ue statistique libre. Démostratio. O vérifie facilemet que D = sup t R F 0(t) 1 i=1 1 {Ui F 0 (t)} où les variables U i = F 0 (X i ) sot i.i.d. suivat la loi uiforme sur [0, 1]. Il suffit esuite de faire le chagemet de variable u = F 0 (t) pour coclure. La loi de D sous H 0 a été tabulée, ce qui doe des valeurs seuils a α à e pas dépasser pour que H 0 soit acceptable au iveau α. Les moyes actuels de calcul iformatique permettet égalemet d approcher la loi de D à l aide de simulatios. Pour grad, il existe ue approximatio décrite par la propositio suivate : 1. Ce test est égalemet appelé test de Kolmogorov-Smirov à u échatillo

78 78 Tests d adéquatio Chapitre 5 Propositio 5.2. Sous H 0, e posat ζ = D, o dispose du résultat asymptotique suivat : la suite (ζ, 1) coverge e loi et pour tout y > 0, o a P(ζ y) ( 1) k exp ( 2k 2 y 2). k= Démostratio. Comme pour t R, ˆF (t) = 1 i=1 1 {X i t} où les variables 1 {Xi t} sot i.i.d. suivat la loi de Beroulli B(F 0 (t)), le TCL etraîe que (F 0 (t) ˆF (t)) coverge e loi vers Y t de loi ormale cetrée N (0, F 0 (t)(1 F 0 (t))). Plus gééralemet, le théorème de la limite cetrale multidimesioel assure que (F 0 (t 1 ) ˆF (t 1 ),..., F 0 (t k ) ˆF (t k )) coverge e loi vers u vecteur gaussie cetré (Y t1,..., Y tk ) de covariace doée par Cov(Y ti, Y tj ) = F 0 (mi(t i, t j )) F 0 (t i )F 0 (t j ). E fait o motre que le processus (F0 (t) ˆF (t)) t R coverge e loi vers u processus gaussie cetré tel que Cov(Y s, Y t ) = F 0 (mi(s, t)) F 0 (s)f 0 (t) et o motre que pour tout y > 0, ( ) P sup Y t y t R = + ( 1) k exp ( 2k 2 y 2). Propositio 5.3. Sous H 1, ζ = D ted p.s. vers + avec. Le test est doc écessairemet uilatéral à droite (rejet des valeurs trop grades). Démostratio. Sous H 1 la foctio de répartitio commue des X i, otée F est différete de F 0. Soit t 1 R tel que F 0 (t 1 ) = F(t 1 ). D après la loi forte des grads ombres ˆF (t 1 ) = 1 i=1 1 {X i t 1 } coverge p.s. vers E [ 1 {Xi t 1 }] = F(t1 ). Doc F 0 (t 1 ) ˆF (t 1 ) ted p.s. vers + de même pour D. Remarque 5.4. Si F 0 est o cotiue (par exemple lorsqu il s agit d ue loi discrète), le test de Kolmogorov sous sa forme classique est pas valide (la propositio 5.2 est valable que si F 0 est cotiue) : o peut motrer que D est alors plus «cocetrée» à proximité de zéro que quad F est cotiue. Remarque 5.5. O peut aussi evisager des cotre-hypothèses plus fies, du type uilatéral : «la loi des doées a ue fotio de répartitio F telle que F F 0 au ses où t R, F(t) F 0 (t) et t 0 R, F(t 0 ) < F 0 (t 0 )». Das ce cas, la statistique de test s écrit sas la valeur absolue (et sa loi est différete) U exemple O dispose des 10 doées suivates : x = (2.2, 3.3, 5.3, 1.8, 4.3, 6.3, 4.5, 3.8, 6.4, 5.5) La questio aïve «ces observatios provieet-elles d ue loi ormale de moyee 4 et de variace 4?» va être formalisée sous l éocé : «tester, au iveau de sigificatio 0.05, l hypothèse ulle selo laquelle ces observatios, supposées idépedates et idetiquemet distribuées, ot pour loi commue la loi ormale de moyee 4 et variace 4». O calcule la foctio empirique dessiée sur la figure 5.1. Elle motre que D x = 0.163, écart maximal

79 Sectio 5.4 Test de Kolmogorov 79 FIGURE 5.1 Le test de Kolmogorov s appuie sur la distace etre foctio de répartitio empirique et théorique. obteu e t = 3.3. Cette valeur est-elle plausible, au iveau 0.05, sous l hypothèse H 0? Les praticies ot l habitude de faire la trasformatio de l axe des abscisses u = F(t). Cette trasformatio permet de travailler das le carré [0, 1] [0, 1] (cf figure 5.2) où D mesure alors l écart de la foctio de répartitio empirique par rapport à la première bissectrice. E utilisat ue table ou bie e approchat les quatiles de la loi de D sous H 0 par simulatio d u grad ombre de réalisatios suivat cette loi, o remarque que la valeur observée D x = est iférieure au quatile d ordre 0.95 de la loi de D : (La p-valeur est de ) L hypothèse de référece H 0 est acceptée Test de ormalité Reveos à l exemple des mesures de taux d alcoolémie. O peut de la même maière tester H 0 : Les doées suivet ue loi gaussiee de moyee 23 et de variace 49 cotre l alterative : c est faux. O trouve D x = doc o e rejette pas H 0 pour les iveaux habituellemet utilisés (quatile asymptotique d ordre 0.95 égal à 0.242, et p-valeur asymptotique égale à 0.637). Das ce problème o pourrait tester H 0 : Les doées suivet ue loi gaussiee cotre l alterative : c est faux, à l aide du test de ormalité de Lilliefors : ce test utilise la statistique de Kolmogorov détermiée par la distace etre la loi empirique et la loi gaussiee dot l espérace est la moyee empirique et la variace, la variace empirique. Les quatiles sot différets des quatiles du test de Kolmogorov et peuvet être calculés par simulatio. Il existe de ombreux tests de ormalité (test de Pearso costruit avec ue approche de discrétisatio et u test du χ 2, test de Shapiro-Wilk,... ).

80 80 Tests d adéquatio Chapitre 5 FIGURE 5.2 Présetatio usuelle de la distace de Kolmogorov. 5.4 Résumé du Chapitre Test d adéquatio à ue loi discrète : le test du χ 2 L objectif est de détermier si les doées discrètes observées provieet d ue loi doée ou o. 1. Descriptio du modèle : (X j, 1 j ) est ue suite de v.a. i.i.d. à valeurs das A = {a 1,..., a k }. Ue loi P p sur A est décrite par le paramètre p = (p 1,..., p k ), où p i = P p (X 1 = a i ). 2. Les hypothèses : H 0 : p = p 0 et H 1 : p = p 0, où p 0 est doé. 3. La statistique de test : ζ = k i=1 ( ˆp i p 0 i )2, où ˆp i est le ombre d occurrece de a i divisé par. 4. Sous H 0, (ζ, 1) coverge e loi vers χ 2 (k 1). 5. Sous H 1, (ζ, 1) diverge vers Régio de critique du test asymptotique : [a, + [. 7. Niveau asymptotique du test égal à α : a est le quatile d ordre 1 α de la loi χ 2 (k 1). 8. Le test est coverget. 9. La p-valeur asymptotique est doée par où Z est de loi χ 2 (k 1), et ζ obs p 0 i p-valeur = P(Z ζ obs ), est la statistique de test calculée avec les observatios. Le test asymptotique est cosidéré valide si p 0 i (1 p0 i ) 5 pour tout i.

81 Sectio 5.4 Résumé du Chapitre Test d idépedace etre deux variables qualitatives L objectif est de vérifier si deux variables catégorielles sot idépedates ou o. 1. Descriptio du modèle : ((Y i, Z i ), 1 i ) est ue suite de v.a. i.i.d. respectivemet à valeurs das A = {a 1,..., a k } et B = {b 1,..., b m }. Ue loi commue P p des couples (Y i, Z i ) sur (A, B) est décrite par le paramètre p = (p j,h ) 1 j k,1 l m où p j,l = P p ((Y i, Z i ) = (a j, b l )). 2. Les hypothèses : H 0 = {p j,l = q j r l } 1 j k,1 l m et H 1 = { j, l; p j,l = q j r l }, où q j = m l=1 p j,l et r l = k j=1 p j,l. 3. La statistique de test : ζ = k j=1 m l=1 ( ˆp j,l ˆq jˆr l ) 2 ˆq jˆr l, où ˆp j,l, ˆq j et ˆr l sot respectivemet les ombres d occurrece de (a j, b l ), de a j et de b l divisé par. 4. Sous H 0, (ζ, 1) coverge e loi vers χ 2 ((k 1)(m 1)). 5. Sous H 1, (ζ, 1) diverge vers Régio de critique du test asymptotique : [a, + [. 7. Niveau asymptotique du test égal à α : a est le quatile d ordre 1 α de la loi χ 2 ((k 1)(m 1)). 8. Le test est coverget. 9. La p-valeur asymptotique est doée par p-valeur = P(Z ζ obs ), où Z est de loi χ 2 ((k 1)(m 1)), et ζ obs observatios. est la statistique de test calculée avec les Le test asymptotique est cosidéré valide si ˆq jˆr l (1 ˆq jˆr l ) 5 pour tout (j, l) Test de Kolmogorov 1. Modèle o paramétrique : (X i, 1 i ) i.i.d. de foctio de répartitio F cotiue. 2. Hypothèses : H 0 : F = F 0 et H 1 : F = F 0 3. Statistique de Kolmogorov ( D = max max F 0 (X (i) ) i 1 1 i, F 0(X (i) ) i ) où X (1) X (2)... X () est le réordoemet croissat des X i. Statistique de test : ζ = D. 4. Sous H 0, lorsque ted vers l ifii, ζ coverge e loi vers la loi de foctio de répartitio 1 {y>0} + k= ( 1)k exp( 2k 2 y 2 ). 5. Sous H 1, ζ ted p.s. vers Régio critique : [a, + [, avec a > Test coverget pour Pour u iveau asymptotique α, a est doé par + k= ( 1)k exp( 2k 2 a 2 ) = 1 α.

82

83 6 Tables umériques 6.1 Quatiles de la loi ormale cetrée réduite La table suivate doe les valeurs umériques des quatiles q 1 z (N ) de la loi ormale cetrée réduite N (0, 1). Rappelos que, par défiitio, q 1 z (N ) est l uique solutio de l équatio Φ(q) = 1 z, où Φ( ) désige la foctio de répartitio de la loi ormale cetrée réduite. Utilisatio de la table : si, par exemple, o souhaite détermier q (N ), o calcule z = = et o écrit = , o cherche la lige correspodat à 0.02 et la coloe correspodat à 0.005, à l itersectio de la lige et de la coloe trouvée o lit Doc q (N ) = 1.96.

84 84 Tables umériques Chapitre 6 z

85 Sectio 6.2 Table de la loi du khi-deux Table de la loi du khi-deux La table suivate doe la valeur du quatile d ordre (1 z) de la loi du khi-deux à k degrés de liberté. Par exemple, le quatile q 0.05 (t 19 ) se trouve à l itersectio de la lige 19 et de la coloe = 0.95, doc q 0.05 (t 19 ) = E d autres termes, si X t 19, alors P(X 10.12) = 5%. k\z

86 86 Tables umériques Chapitre Table de la loi de Studet La table suivate doe la valeur du quatile d ordre (1 z) de la loi de Studet à k degrés de liberté. Par exemple, le quatile q 0.6 (t 19 ) se trouve à l itersectio de la lige 19 et de la coloe = 0.4, doc q 0.6 (t 19 ) = k\z

87 Sectio 6.4 Quatiles pour le test de Kolmogorov Quatiles pour le test de Kolmogorov La Table ci-dessous cotiet les quatiles d ordre 1 α de la loi de la statistique D = supx R ˆF (x) F (x), utilisée das le test d adéquatio de Kolmogorov. α = 10% α = 5% α = 1% α = 10% α = 5% α = 1% TABLE 6.1 Quatiles de la statistique de Kolmogorov

SÉRIES STATISTIQUES À DEUX VARIABLES

SÉRIES STATISTIQUES À DEUX VARIABLES 1 ) POSITION DU PROBLÈME - VOCABULAIRE A ) DÉFINITION SÉRIES STATISTIQUES À DEUX VARIABLES O cosidère deux variables statistiques umériques x et y observées sur ue même populatio de idividus. O ote x 1

Plus en détail

Statistique descriptive bidimensionnelle

Statistique descriptive bidimensionnelle 1 Statistique descriptive bidimesioelle Statistique descriptive bidimesioelle Résumé Liaisos etre variables quatitatives (corrélatio et uages de poits), qualitatives (cotigece, mosaïque) et de types différets

Plus en détail

Chapitre 3 : Fonctions d une variable réelle (1)

Chapitre 3 : Fonctions d une variable réelle (1) Uiversités Paris 6 et Paris 7 M1 MEEF Aalyse (UE 3) 2013-2014 Chapitre 3 : Foctios d ue variable réelle (1) 1 Lagage topologique das R Défiitio 1 Soit a u poit de R. U esemble V R est u voisiage de a s

Plus en détail

1 Mesure et intégrale

1 Mesure et intégrale 1 Mesure et itégrale 1.1 Tribu boréliee et foctios mesurables Soit =[a, b] u itervalle (le cas où b = ou a = est pas exclu) et F ue famille de sous-esembles de. OditqueF est ue tribu sur si les coditios

Plus en détail

STATISTIQUE : TESTS D HYPOTHESES

STATISTIQUE : TESTS D HYPOTHESES STATISTIQUE : TESTS D HYPOTHESES Préparatio à l Agrégatio Bordeaux Aée 203-204 Jea-Jacques Ruch Table des Matières Chapitre I. Gééralités sur les tests 5. Itroductio 5 2. Pricipe des tests 6 2.a. Méthodologie

Plus en détail

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1 Premières propriétés des ombres réels 2 Suites umériques 3 Suites mootoes : à faire 4 Séries umériques 4. Notio de série. Défiitio 4.. Soit (u ) ue suite de ombres réels ou complexes. Pour N N, o ote S

Plus en détail

Limites des Suites numériques

Limites des Suites numériques Chapitre 2 Limites des Suites umériques Termiale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Limite fiie ou ifiie d ue suite. Limites et comparaiso. Opératios sur les ites. Comportemet

Plus en détail

Exercice I ( non spé ) 1/ u 1 = 3 4. 2 3 u 2 4 + 3 9. 19 4 2/ Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Exercice I ( non spé ) 1/ u 1 = 3 4. 2 3 u 2 4 + 3 9. 19 4 2/ Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1 Bac blac TS Correctio Exercice I ( Spé ) / émotros par récurrece que 5x y = pour tout etier aturel 5x y = 5 8 = La propriété est doc vraie au rag = Supposos que la propriété est vraie jusqu au rag, o a

Plus en détail

Cours 5 : ESTIMATION PONCTUELLE

Cours 5 : ESTIMATION PONCTUELLE Cours 5 : ESTIMATION PONCTUELLE A- Gééralités B- Précisio d u estimateur C- Exhaustivité D- iformatio E-estimateur sas biais de variace miimale, estimateur efficace F- Quelques méthode s d estimatio A-

Plus en détail

STATISTIQUE AVANCÉE : MÉTHODES

STATISTIQUE AVANCÉE : MÉTHODES STATISTIQUE AVANCÉE : MÉTHODES NON-PAAMÉTIQUES Ecole Cetrale de Paris Arak S. DALALYAN Table des matières 1 Itroductio 5 2 Modèle de desité 7 2.1 Estimatio par istogrammes............................

Plus en détail

Séquence 5. La fonction logarithme népérien. Sommaire

Séquence 5. La fonction logarithme népérien. Sommaire Séquece 5 La foctio logarithme épérie Objectifs de la séquece Itroduire ue ouvelle foctio : la foctio logarithme épérie. Coaître les propriétés de cette foctio : sa dérivée, ses variatios, sa courbe, sa

Plus en détail

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI FEUILLE D EXERCICES 7 - PROBABILITÉS SUR UN UNIVERS FINI Exercice - Lacer de dés O lace deux dés à 6 faces équilibrés. Calculer la probabilité d obteir : u double ; ue somme des deux dés égale à 8 ; ue

Plus en détail

Intégration et probabilités ENS Paris, 2012-2013. TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Intégration et probabilités ENS Paris, 2012-2013. TD (20)13 Lois des grands nombres, théorème central limite. Corrigé : Itégratio et probabilités EN Paris, 202-203 TD 203 Lois des grads ombres, théorème cetral limite. Corrigé Lois des grads ombres Exercice. Calculer e cet leços Détermier les limites suivates : x +... +

Plus en détail

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009 M LA REGRESSION : HYPOTHESES ET TESTS Avril 009 I LES HYPOTHESES DE LA MCO. Hypothèses sur la variable explicative a. est o stochastique. b. a des valeurs xes das les différets échatillos. c. Quad ted

Plus en détail

[http://mp.cpgedupuydelome.fr] édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ 02475 ] [correction] Si n est un entier 2, le rationnel H n =

[http://mp.cpgedupuydelome.fr] édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ 02475 ] [correction] Si n est un entier 2, le rationnel H n = [http://mp.cpgedupuydelome.fr] édité le 1 juillet 14 Eocés 1 Nombres réels Ratioels et irratioels Exercice 1 [ 9 ] [correctio] Motrer que la somme d u ombre ratioel et d u ombre irratioel est u ombre irratioel.

Plus en détail

Cours de Statistiques inférentielles

Cours de Statistiques inférentielles Licece 2-S4 SI-MASS Aée 2015 Cours de Statistiques iféretielles Pierre DUSART 2 Chapitre 1 Lois statistiques 1.1 Itroductio Nous allos voir que si ue variable aléatoire suit ue certaie loi, alors ses réalisatios

Plus en détail

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1 Aalyse des doées Statistiques appliquées à la gestio Cours d aalyse de doés Master F. SEYTE : Maître de coféreces HDR e scieces écoomiques Uiversité de Motpellier I M. TERRAZA : Professeur de scieces écoomiques

Plus en détail

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015 Uiversité de Bordeaux - Master MIMSE - 2ème aée Scorig Marie Chavet http://www.math.u-bordeaux.fr/ machave/ 2014-2015 1 Itroductio L idée géérale est d affecter ue ote (u score) global à u idividu à partir

Plus en détail

Principes et Méthodes Statistiques

Principes et Méthodes Statistiques Esimag - 2ème aée 0 1 2 3 4 5 6 7 0 5 10 15 x y Pricipes et Méthodes Statistiques Notes de cours Olivier Gaudoi 2 Table des matières 1 Itroductio 7 1.1 Défiitio et domaies d applicatio de la statistique............

Plus en détail

Séries réelles ou complexes

Séries réelles ou complexes 6 Séries réelles ou complexes Comme pour le chapitre 3, les suites cosidérées sot a priori complexes et les résultats classiques sur les foctios cotiues ou dérivables d ue variable réelle sot supposés

Plus en détail

14 Chapitre 14. Théorème du point fixe

14 Chapitre 14. Théorème du point fixe Chapitre 14 Chapitre 14. Théorème du poit fixe Si l o examie de plus près les méthodes de Lagrage et de Newto, étudiées au chapitre précédet, elles revieet das leur pricipe à remplacer la résolutio de

Plus en détail

20. Algorithmique & Mathématiques

20. Algorithmique & Mathématiques L'éditeur L'éditeur permet à l'utilisateur de saisir les liges de codes d'u programme ou de défiir des foctios. Remarque : O peut saisir directemet des istructios das la cosole Scilab, mais il est plus

Plus en détail

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3 1 Groupe orthogoal d'u espace vectoriel euclidie de dimesio, de dimesio Voir le chapitre 19 pour l'étude des espaces euclidies et des isométries. État doé u espace euclidie E de dimesio 1, o rappelle que

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Exo7 Topologie Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable Exercice **

Plus en détail

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X Exo7 Détermiats Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable T : pour

Plus en détail

Processus et martingales en temps continu

Processus et martingales en temps continu Chapitre 3 Processus et martigales e temps cotiu 1 Quelques rappels sur les martigales e temps discret (voir [4]) O cosidère u espace filtré (Ω, F, (F ) 0, IP). O ote F = 0 F. Défiitio 1.1 Ue suite de

Plus en détail

CHAPITRE 2 SÉRIES ENTIÈRES

CHAPITRE 2 SÉRIES ENTIÈRES CHAPITRE 2 SÉRIES ENTIÈRES 2. Séries etières Défiitio 2.. O appelle série etière toute série de foctios ( ) f dot le terme gééral est de la forme f ()=a, où (a ) désige ue suite réelle ou complee et R.

Plus en détail

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME Uiversité Victor Segale Bordeaux Istitut de Saté Publique, d Épidémiologie et de Développemet (ISPED) Campus Numérique SEME MODULE Pricipaux outils e statistique Versio du 8 août 008 Écrit par : Relu par

Plus en détail

55 - EXEMPLES D UTILISATION DU TABLEUR.

55 - EXEMPLES D UTILISATION DU TABLEUR. 55 - EXEMPLES D UTILISATION DU TABLEUR. CHANTAL MENINI 1. U pla possible Les exemples qui vot suivre sot des pistes possibles et e aucu cas ue présetatio exhaustive. De même je ai pas fait ue étude systématique

Plus en détail

Etude de la fonction ζ de Riemann

Etude de la fonction ζ de Riemann Etude de la foctio ζ de Riema ) Défiitio Pour x réel doé, la série de terme gééral,, coverge si et seulemet si x >. x La foctio zeta de Riema est la foctio défiie sur ], [ par : ( x > ), = x. Remarque.

Plus en détail

4 Approximation des fonctions

4 Approximation des fonctions 4 Approximatio des foctios Ue foctio f arbitraire défiie sur u itervalle I et à valeur das IR peut être représetée par so graphe, ou de maière équivalete par la doée de l esemble de ses valeurs f(t) pour

Plus en détail

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil. Qu appelle-t-o éclipse? Éclipser sigifie «cacher». Vus depuis la Terre, deu corps célestes peuvet être éclipsés : la Lue et le Soleil. LES ÉCLIPSES Pour qu il ait éclipse, les cetres de la Terre, de la

Plus en détail

Comportement d'une suite

Comportement d'une suite Comportemet d'ue suite I) Approche de "ses de variatio et de ite d'ue suite" : 7 Soit la suite ( ) telle que = 5 ( + ) 2 Représetos graphiquemet la suite das u pla mui d' u repère. Il suffit de placer

Plus en détail

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre 2010. 1.1 Quelques dénitions

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre 2010. 1.1 Quelques dénitions Déombremet ECE3 Lycée Carot 12 ovembre 2010 Itroductio La combiatoire, sciece du déombremet, sert comme so om l'idique à compter. Il e s'agit bie etedu pas de reveir au stade du CP et d'appredre à compter

Plus en détail

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2. Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES PLAN DU CHAPITRE 2 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Pla de sodage 2.2.2 Probabilités d iclusio 2.3 SONDAGE

Plus en détail

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices

Dénombrement. Chapitre 1. 1.1 Enoncés des exercices Chapitre 1 Déombremet 1.1 Eocés des exercices Exercice 1 L acie système d immatriculatio fraçais était le suivat : chaque plaque avait 4 chiffres, suivis de 2 lettres, puis des 2 uméros du départemet.

Plus en détail

Initiation à l analyse factorielle des correspondances

Initiation à l analyse factorielle des correspondances Fiche TD avec le logiciel : tdr620b Iitiatio à l aalyse factorielle des correspodaces A.B. Dufour & M. Royer & J.R. Lobry Das cette fiche, o étudie l Aalyse Factorielle des Correspodaces. Cette techique

Plus en détail

Chapitre 3 : Transistor bipolaire à jonction

Chapitre 3 : Transistor bipolaire à jonction Chapitre 3 : Trasistor bipolaire à joctio ELEN075 : Electroique Aalogique ELEN075 : Electroique Aalogique / Trasistor bipolaire U aperçu du chapitre 1. Itroductio 2. Trasistor p e mode actif ormal 3. Courats

Plus en détail

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9 Au sommaire : Suites extraites Le théorème de Bolzao-Weierstrass La preuve du théorème de Bolzao-Weierstrass3 Foctio K-cotractate4 Le théorème du poit fixe5 La preuve du théorème du poit fixe6 Utilisatios

Plus en détail

EXERCICES : DÉNOMBREMENT

EXERCICES : DÉNOMBREMENT Chapitre 7 ECE 1 - Grad Nouméa - 015 EXERCICES : DÉNOMBREMENT LISTES / ARRANGEMENTS Exercice 1 : Le code ativol Pour so vélo, Toto possède u ativol a code. Le code est ue successio de trois chiffres compris

Plus en détail

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3. EXERCICE 3 (6 poits ) (Commu à tous les cadidats) Il est possible de traiter la partie C sas avoir traité la partie B Partie A O désige par f la foctio défiie sur l itervalle [, + [ par Détermier la limite

Plus en détail

Chap. 5 : Les intérêts (Les calculs financiers)

Chap. 5 : Les intérêts (Les calculs financiers) Chap. 5 : Les itérêts (Les calculs fiaciers) Das u cotrat de prêt, le prêteur met à la dispositio de l empruteur, à u taux d itérêt doé, ue somme d arget (le capital) qu il devra rembourser à ue certaie

Plus en détail

2 ième partie : MATHÉMATIQUES FINANCIÈRES

2 ième partie : MATHÉMATIQUES FINANCIÈRES 2 ième partie : MATHÉMATIQUES FINANCIÈRES 1. Défiitios L'itérêt est l'idemité que doe au propriétaire d'ue somme d'arget celui qui e a joui pedat u certai temps. Divers élémets itervieet das le calcul

Plus en détail

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 ) RAIRO Operatios Research RAIRO Oper. Res. 34 (2000) 99-129 TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 ) Commuiqué par Berard LEMAIRE Résumé. L étude

Plus en détail

Processus géométrique généralisé et applications en fiabilité

Processus géométrique généralisé et applications en fiabilité Processus géométrique gééralisé et applicatios e fiabilité Lauret Bordes 1 & Sophie Mercier 2 1,2 Uiversité de Pau et des Pays de l Adour Laboratoire de Mathématiques et de leurs Applicatios - Pau UMR

Plus en détail

Probabilités et statistique pour le CAPES

Probabilités et statistique pour le CAPES Probabilités et statistique pour le CAPES Béatrice de Tilière Frédérique Petit 2 3 jui 205. Uiversité Pierre et Marie Curie 2. Uiversité Pierre et Marie Curie 2 Table des matières Modélisatio de phéomèes

Plus en détail

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4 UNVERSTE MONTESQUEU BORDEAUX V Licece 3 ère aée Ecoomie - Gestio Aée uiversitaire 2006-2007 Semestre 2 Prévisios Fiacières Travaux Dirigés - Séaces 4 «Les Critères Complémetaires des Choix d vestissemet»

Plus en détail

c. Calcul pour une évolution d une proportion entre deux années non consécutives

c. Calcul pour une évolution d une proportion entre deux années non consécutives Calcul des itervalles de cofiace our les EPCV 996-004 - Cas d u ourcetage ou d ue évolutio e oit das la oulatio totale des méages - Cas d u ourcetage ou d ue évolutio das ue sous oulatio das les méages

Plus en détail

Les Nombres Parfaits.

Les Nombres Parfaits. Les Nombres Parfaits. Agathe CAGE, Matthieu CABAUSSEL, David LABROUSSE (2 de Lycée MONTAIGNE BORDEAUX) et Alexadre DEVERT, Pierre Damie DESSARPS (TS Lycée SUD MEDOC LETAILLAN MEDOC) La première partie

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Eo7 Séries etières Eercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable Eercice

Plus en détail

Chaînes de Markov. Arthur Charpentier

Chaînes de Markov. Arthur Charpentier Chaîes de Markov Arthur Charpetier École Natioale de la Statistique et d Aalyse de l Iformatio - otes de cours à usage exclusif des étudiats de l ENSAI - - e pas diffuser, e pas citer - Quelques motivatios.

Plus en détail

Suites et séries de fonctions

Suites et séries de fonctions [http://mp.cpgedupuydelome.fr] édité le 3 avril 5 Eocés Suites et séries de foctios Propriétés de la limite d ue suite de foctios Eercice [ 868 ] [correctio] Etablir que la limite simple d ue suite de

Plus en détail

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales PROMENADE ALÉATOIRE : Chaîes de Markov et martigales Thierry Bodieau École Polytechique Paris Départemet de Mathématiques Appliquées [email protected] Novembre 2013 2 Table des matières

Plus en détail

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe Cosolidatio La société THEOS, qui commercialise des vis, exerce so activité das trois villes : Paris, Nacy et Nice. Le directeur de la société souhaite cosolider les résultats de ses vetes par ville das

Plus en détail

Module 3 : Inversion de matrices

Module 3 : Inversion de matrices Math Stat Module : Iversio de matrices M Module : Iversio de matrices Uité. Défiitio O e défiira l iverse d ue matrice que si est carrée. O appelle iverse de la matrice carrée toute matrice B telle que

Plus en détail

Université Pierre et Marie Curie. Biostatistique PACES - UE4 2013-2014

Université Pierre et Marie Curie. Biostatistique PACES - UE4 2013-2014 Uiversité Pierre et Marie Curie Biostatistique PACES - UE4 2013-2014 Resposables : F. Carrat et A. Mallet Auteurs : F. Carrat, A. Mallet, V. Morice Mise à jour : 21 octobre 2013 Relecture : V. Morice,

Plus en détail

Baccalauréat S Asie 19 juin 2014 Corrigé

Baccalauréat S Asie 19 juin 2014 Corrigé Bcclurét S Asie 9 jui 24 Corrigé A. P. M. E. P. Exercice Commu à tous les cdidts 4 poits Questio - c. O peut élimier rpidemet les réposes. et d. cr les vecteurs directeurs des droites proposées e sot ps

Plus en détail

Exercices de mathématiques

Exercices de mathématiques MP MP* Thierry DugarDi Marc rezzouk Exercices de mathématiques Cetrale-Supélec, Mies-Pots, École Polytechique et ENS Coceptio et créatio de couverture : Atelier 3+ Duod, 205 5 rue Laromiguière, 75005 Paris

Plus en détail

UNIVERSITÉ DE SFAX École Supérieure de Commerce

UNIVERSITÉ DE SFAX École Supérieure de Commerce UNIVERSITÉ DE SFAX École Supérieure de Commerce Aée Uiversitaire 2003 / 2004 Auditoire : Troisième Aée Études Supérieures Commerciales & Scieces Comptables DÉCISIONS FINANCIÈRES Note de cours N 3 Première

Plus en détail

Polynésie Septembre 2002 - Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Polynésie Septembre 2002 - Exercice On peut traiter la question 4 sans avoir traité les questions précédentes. Polyésie Septembre 2 - Exercice O peut traiter la questio 4 sas avoir traité les questios précédetes Pour u achat immobilier, lorsqu ue persoe emprute ue somme de 50 000 euros, remboursable par mesualités

Plus en détail

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES DEUXIEME PARTIE Deuième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES Chapitre. L assurace de capital différé Chapitre 2. Les opératios de retes Chapitre 3. Les assuraces décès Chapitre 4. Les assuraces

Plus en détail

UV SQ 20. Automne 2006. Responsable d Rémy Garandel ( m.-el. [email protected] ) page 1

UV SQ 20. Automne 2006. Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1 UV SQ 0 Probabilités Statistiques UV SQ 0 Autome 006 Resposable d Rémy Garadel ( m.-el. [email protected] ) page SQ-0 Probabilités - Statistiques Bibliographie: Titre Auteur(s) Editios Localisatio Niveau

Plus en détail

Formation d un ester à partir d un acide et d un alcool

Formation d un ester à partir d un acide et d un alcool CHAPITRE 10 RÉACTINS D ESTÉRIFICATIN ET D HYDRLYSE 1 Formatio d u ester à partir d u acide et d u alcool 1. Nomeclature Acide : R C H Alcool : R H Groupe caractéristique ester : C Formule géérale d u ester

Plus en détail

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation Tempêtes : Etude des dépedaces etre les braches Automobile et Icedie à l aide de la théorie des copulas Topic Risk evaluatio Belguise Olivier Charles Levi ACM Guy Carpeter 34 rue du Wacke 47/53 rue Raspail

Plus en détail

Les algorithmes de tri

Les algorithmes de tri CONSERVATOIRE NATIONAL DES ARTS ET METIERS PARIS MEMOIRE POUR L'EXAMEN PROBATOIRE e INFORMATIQUE par Nicolas HERVE Les algorithmes de tri Souteu le mai JURY PRESIDENTE : Mme COSTA Sommaire Itroductio....

Plus en détail

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT? Etude Spéciale o. 7 Javier 2003 SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT? MARK SCHNEIDER Le CGAP vous ivite à lui faire part de vos commetaires, de vos rapports et de toute demade d evoid autres

Plus en détail

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe 1/5 Trois objectifs poursuivis par le gouveremet : > améliorer la compétitivité fiscale de la Frace > péreiser les activités de R&D > faire de la Frace u territoire attractif pour l iovatio Les icitatios

Plus en détail

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3... Applicatios des maths Algèbre fiacière 1. Itérêts composés O place u capital C 0 à u taux auel T a pedat aées. Quelle est la valeur fiale C de ce capital? aée capital e fi d'aée 1 C 0 + T C 0 = C 0 (1

Plus en détail

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation 1 / 9 Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Le cycle d exploitatio des etreprises (achats stockage productio stockage vetes) peut etraîer des décalages de trésorerie plus

Plus en détail

Échantillonnage et estimation

Échantillonnage et estimation Stage «Nouveaux programmes de Termiale S» - Ho Chi Mih-Ville Novembre 202 Échatilloage et estimatio Partie C - Frédéric Barôme page Échatilloage et estimatio Partie C : Capacités et exercices-types. Rappelos

Plus en détail

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Les etreprises ot souvet besoi de moyes de fiacemet à court terme : elles ot alors recours aux crédits bacaires (découverts bacaires

Plus en détail

Introduction : Mesures et espaces de probabilités

Introduction : Mesures et espaces de probabilités Itroductio : Mesures et espaces de probabilités Référeces : Poly cédric Berardi et Jea Michel Morel. J.-F. Le Gall, Itégratio, Probabilités et Processus Aléatoire J.-Y. Ouvrard, Probabilités 2, maîtrise-agrégatio,

Plus en détail

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot Exame fial pour Coseiller fiacier / coseillère fiacière avec brevet fédéral Recueil de formules Auteur: Iwa Brot Ce recueil de formules sera mis à dispositio des cadidats, si écessaire. Etat au 1er mars

Plus en détail

DETERMINANTS. a b et a'

DETERMINANTS. a b et a' 2003 - Gérard Lavau - http://perso.waadoo.fr/lavau/idex.htm Vous avez toute liberté pour télécharger, imprimer, photocopier ce cours et le diffuser gratuitemet. Toute diffusio à titre oéreux ou utilisatio

Plus en détail

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison ANNALES D ÉCONOMIE ET DE STATISTIQUE. N 58 2000 La tarificatio hospitalière : de l eveloppe globale à la cocurrece par comparaiso Michel MOUGEOT * RÉSUMÉ. Cet article cosidère différetes politiques de

Plus en détail

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers. Reseigemets et moitorig. Reseigemets commerciaux et de solvabilité sur les etreprises et les particuliers. ENSEMBLE CONTRE LES PERTES. Reseigemets Creditreform. Pour plus de trasparece. Etreteir des rapports

Plus en détail

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus Yacie Oussar To cite this versio: Yacie Oussar. Réseaux d odelettes et réseaux de euroes pour la modélisatio

Plus en détail

MESURE DE L'INFORMATION

MESURE DE L'INFORMATION MESURE DE L'INFORMATION Marc URO TABLE DES MATIÈRES INTRODUCTION... 3 INCERTITUDE D'UN ÉVÉNEMENT (OU SELF-INFORMATION)... 7 INFORMATION MUTUELLE DE DEUX ÉVÉNEMENTS... 9 ENTROPIE D'UNE VARIABLE ALÉATOIRE

Plus en détail

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions. 3 Réseau Le réseau costitue u aspect essetiel d u eviroemet virtuel ESX. Il est doc importat de compredre la techologie, y compris ses différets composats et leur coopératio. Das ce chapitre, ous étudios

Plus en détail

Des résultats d irrationalité pour deux fonctions particulières

Des résultats d irrationalité pour deux fonctions particulières Collect. Math. 5, 00, 0 c 00 Uiversitat de Barceloa Des résultats d irratioalité pour deux foctios particulières Richard Choulet 7, Rue du 4 Août, 40 Aveay, Frace E-mail: [email protected] Received

Plus en détail

Sommaire Chapitre 1 - L interface de Windows 7 9

Sommaire Chapitre 1 - L interface de Windows 7 9 Sommaire Chapitre 1 - L iterface de Widows 7 9 1.1. Utiliser le meu Démarrer et la barre des tâches de Widows 7...11 Démarrer et arrêter des programmes...15 Épigler u programme das la barre des tâches...18

Plus en détail

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT POLTQU ONOMQU T DVLOPPMNT TRUTUR DU MAR NATONAL DU AF-AAO T PR AU PRODUTUR MALAN Beïla Beoit osultat PD N 06/008 ellule d Aalyse de Politiques coomiques du R Aée de pulicatio : Avril 009 Résumé e papier

Plus en détail

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

La fibre optique arrive chez vous Devenez acteur de la révolution numérique 2 e éditio Edité par l Autorité de régulatio des commuicatios électroiques et des postes RÉPUBLIQUE FRANÇAISE DÉCEMBRE 2010 La fibre optique arrive chez vous Deveez acteur de la révolutio umérique Petit

Plus en détail

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï INTRODUCTION AUX MATRICES ALÉATOIRES par Djalil Chafaï Résumé. E cocevat les mathématiques comme u graphe, où chaque sommet est u domaie, la théorie des probabilités et l algèbre liéaire figuret parmi

Plus en détail

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret Tests o paramétriques de spécificatio pour desité coditioelle : applicatio à des modèles de choix discret Mémoire Koami Dzigbodi AMEGBLE Maîtrise e écoomique Maître ès arts (M.A.) Québec, Caada Koami Dzigbodi

Plus en détail

Régulation analogique industrielle ESTF- G.Thermique

Régulation analogique industrielle ESTF- G.Thermique Chapitre 5 Stabilité, Rapidité, Précisio et Réglage Stabilité. Défiitio Coditio de stabilité. Critères de stabilité.. Critères algébriques.. Critère graphique ou de revers das le pla de Nyquist Rapidité

Plus en détail

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble. II LE MARCHE DU CAFE 1 L attractivité La segmetatio selo le mode de productio Le marché du café peut être segmeté e foctio de deux modes de productio pricipaux : la torréfactio et la fabricatio de café

Plus en détail

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION RÈGLES ORDIALES : UE GÉÉRALISATIO DES RÈGLES D'ASSOCIATIO SYLVIE GUILLAUME ALI KHECHAF 2 RÉSUMÉ: La plupart des mesures des règles cocere les variables biaires et écessite pour les autres types de variables

Plus en détail

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet : http://www.lesphinxdeveloppement.fr/club/index.html

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet : http://www.lesphinxdeveloppement.fr/club/index.html Equêtes, Sodages Aalyse de doées Le Sphix! Iteret : http://www.lesphixdeveloppemet.fr/club/idex.html Lagarde J. Aalyse statistique de doées, Duod. Réaliser vos equêtes Questioaire Traitemets et aalyses

Plus en détail

Télé OPTIK. Plus spectaculaire que jamais.

Télé OPTIK. Plus spectaculaire que jamais. Télé OPTIK Plus spectaculaire que jamais. Vivez toute la puissace de la télévisio sur IP grâce au réseau OPTIK 1 de TELUS et découvrez-e l extraordiaire potetiel. Télé OPTIK MC vous doe la parfaite maîtrise

Plus en détail

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO Des résultats du Programme de réductio des risques STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO 1. Cotexte La puaise tere Lygus lieolaris (figure 1) est

Plus en détail

La maladie rénale chronique

La maladie rénale chronique La maladie réale chroique Qu est-ce que cela veut dire pour moi? Natioal Kidey Disease Educatio Program La maladie réale chroique: l essetiel Vous avez été iformé(e) que vous êtes atteit(e) de la maladie

Plus en détail

Neolane Leads. Neolane v6.0

Neolane Leads. Neolane v6.0 Neolae Leads Neolae v6.0 Ce documet, aisi que le logiciel qu'il décrit, est fouri das le cadre d'u accord de licece et e peut être utilisé ou copié que das les coditios prévues par cet accord. Cette publicatio

Plus en détail

Terminale S. Terminale S 1 F. Laroche

Terminale S. Terminale S 1 F. Laroche Termiale S Exercices. Rappels et exercices de base 3.. QCM (P. Egel) 3.. QCM, Atilles 005 4. 3. QCM, Liba 009, 3 poits 4. 4. QCM, C. étragers 007. 5. QCM, Frace 007 5 6. 6. QCM, N. Calédoie 007 7. 7. QCM

Plus en détail

Comment les Canadiens classent-ils leur système de soins de santé?

Comment les Canadiens classent-ils leur système de soins de santé? Novembre Les sois de saté au Caada, c est capital bulleti o 4 Commet les Caadies classet-ils leur système de sois de saté? Résultats du sodage iteratioal du Fods du Commowealth sur les politiques de saté

Plus en détail

Donnez de la liberté à vos données. BiBOARD. www.biboard.fr

Donnez de la liberté à vos données. BiBOARD. www.biboard.fr Doez de la liberté à vos doées BiBOARD www.biboard.fr Le décisioel pour tous Le décisioel évolue. L etreprise quelle que soit sa taille, a besoi de piloter so activité à l aide d outils simples, fiables,

Plus en détail

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *) RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *) *) Uiversité de Blida Faculté des scieces Départemet de Mathématiques. BP 270, Route de Soumaa. Blida, Algérie. Tel &

Plus en détail

Compte Sélect Banque Manuvie Guide du débutant

Compte Sélect Banque Manuvie Guide du débutant GUIDE DU DÉBUTANT Compte Sélect Baque Mauvie Guide du débutat Besoi d aide? Preez quelques miutes pour lire attetivemet votre Guide du cliet. Le préset Guide du débutat vous facilitera l utilisatio de

Plus en détail

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012 Mobile Busiess Commuiquez efficacemet avec vos relatios commerciales 9040412 09/2012 U choix capital pour mes affaires Pour gérer efficacemet ses affaires, il y a pas de secret : il faut savoir predre

Plus en détail

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL LE WMS EXET DE LA SULY HAIN DE DÉTAIL QUELS SNT LES ENJEUX DE LA SULY HAIN? garatir la promesse cliet es derières aées, la distributio coaît ue véritable mutatio avec l évolutio des modes de cosommatio.

Plus en détail