Principes et Méthodes Statistiques
|
|
|
- Céline Barrette
- il y a 10 ans
- Total affichages :
Transcription
1 Esimag - 2ème aée x y Pricipes et Méthodes Statistiques Notes de cours Olivier Gaudoi
2 2
3 Table des matières 1 Itroductio Défiitio et domaies d applicatio de la statistique La démarche statistique Objectifs et pla du cours Statistique descriptive Termiologie Représetatios graphiques Variables discrètes Variables qualitatives Variables quatitatives Choix d u modèle probabiliste discret Variables cotiues Histogramme et polygoe des fréqueces Foctio de répartitio empirique Les graphes de probabilités Idicateurs statistiques Idicateurs de localisatio ou de tedace cetrale La moyee empirique Les valeurs extrêmes La médiae empirique Caractérisatio des idicateurs de localisatio Idicateurs de dispersio ou de variabilité Variace et écart-type empiriques L étedue Les quatiles empiriques Estimatio poctuelle Itroductio Méthodes d estimatio Défiitio d u estimateur La méthode des momets L estimateur des momets (EMM) Exemples La méthode du maximum de vraisemblace
4 4 TABLE DES MATIÈRES La foctio de vraisemblace Exemple itroductif L estimateur de maximum de vraisemblace (EMV) Exemples Qualité d u estimateur Estimateur sas biais et de variace miimale (ESBVM) Quatité d iformatio, efficacité d u estimateur Propriétés des EMM et des EMV Propriétés des estimateurs des momets Propriétés des estimateurs de maximum de vraisemblace Exemples Itervalles de cofiace Problématique et défiitio Itervalles de cofiace pour les paramètres de la loi ormale Itervalle de cofiace pour la moyee Itervalle de cofiace pour la variace Itervalle de cofiace pour ue proportio Tests d hypothèses Itroductio : le problème de décisio Formalisatio du problème de test paramétrique sur u échatillo Tests d hypothèses simples Tests d hypothèses composites Tests sur la moyee d ue loi ormale Exemple itroductif : essais thérapeutiques Première idée Deuxième idée Troisième idée Exemple La p-valeur Remarques Les tests de Studet Lie etre tests d hypothèses et itervalles de cofiace Procédure pour costruire u test d hypothèses Tests sur la variace d ue loi ormale Tests sur ue proportio Test de comparaiso de deux échatillos Itroductio Comparaiso de deux échatillos gaussies idépedats Test de Fisher de comparaiso des variaces Test de Studet de comparaiso des moyees Comparaiso de deux proportios Comparaiso d échatillos gaussies appariés
5 TABLE DES MATIÈRES Le test du χ Le test du χ 2 sur les probabilités d évèemets Test d adéquatio du χ 2 à ue loi etièremet spécifiée Test d adéquatio du χ 2 à ue famille de lois La régressio liéaire Itroductio Le modèle de régressio liéaire simple Estimatio par la méthode des moidres carrés Le modèle liéaire simple gaussie Défiitio du modèle et estimatio des paramètres Maximum de vraisemblace Itervalles de cofiace et tests d hypothèses Etude complète de l exemple e R Aexe A : Rappels de probabilités pour la statistique Variables aléatoires réelles Loi de probabilité d ue variable aléatoire Variables aléatoires discrètes et cotiues Momets et quatiles d ue variable aléatoire réelle Vecteurs aléatoires réels Loi de probabilité d u vecteur aléatoire Espérace et matrice de covariace d u vecteur aléatoire Covergeces et applicatios Quelques résultats sur quelques lois de probabilité usuelles Loi biomiale Loi géométrique Loi de Poisso Loi expoetielle Loi gamma et loi du chi Loi ormale Lois de Studet et de Fisher-Sedecor Aexe B : Lois de probabilité usuelles Caractéristiques des lois usuelles Variables aléatoires réelles discrètes Variables aléatoires réelles cotiues Vecteurs aléatoires das IN d et das IR d Tables de lois Table 1 de la loi ormale cetrée réduite Table 2 de la loi ormale cetrée réduite Table de la loi du χ Table de la loi de Studet Tables de la loi de Fisher-Sedecor Exemples de représetatios de probabilités et de desités
6 6 TABLE DES MATIÈRES Lois discrètes Lois cotiues Aexe C : Itroductio à R Les bases de R Commades pour les deux premiers TD e R Quelques commades utiles de R Les lois de probabilité usuelles e R Les pricipaux tests d hypothèses e R Les graphiques das R Graphique simple Autres foctios graphiques Paramétrage de la commade plot Bibliographie 145
7 Chapitre 1 Itroductio 1.1 Défiitio et domaies d applicatio de la statistique La statistique est la sciece dot l objet est de recueillir, de traiter et d aalyser des doées issues de l observatio de phéomèes aléatoires, c est-à-dire das lesquels le hasard iterviet. L aalyse des doées est utilisée pour décrire les phéomèes étudiés, faire des prévisios et predre des décisios à leur sujet. E cela, la statistique est u outil essetiel pour la compréhesio et la gestio des phéomèes complexes. Les doées étudiées peuvet être de toute ature, ce qui red la statistique utile das tous les champs discipliaires et explique pourquoi elle est eseigée das toutes les filières uiversitaires, de l écoomie à la biologie e passat par la psychologie, et bie sûr les scieces de l igéieur. Doos quelques exemples d utilisatio de la statistique das divers domaies. écoomie, assurace, fiace : prévisios écoométriques, aalyse de la cosommatio des méages, fixatio des primes d assurace et frachises, études quatitatives de marchés, gestio de portefeuille, évaluatio d actifs fiaciers,... biologie, médecie : essais thérapeutiques, épidémiologie, dyamique des populatios, aalyse du géôme,... scieces de la terre : prévisios météorologiques, exploratio pétrolière,... scieces humaies : equêtes d opiio, sodages, études de populatios,... scieces de l igéieur : cotrôle de qualité, maîtrise statistique des procédés (méthode six-sigma ), sûreté de foctioemet (fiabilité, dispoibilité, sécurité,...), maîtrise des risques idustriels, évaluatio des performaces des systèmes complexes,... scieces de l iformatio et de la commuicatio : traitemet des images et des sigaux, recoaissace des formes et de la parole, aalyse exploratoire des grades bases de doées, aalyse des réseaux de commuicatio,... physique : mécaique statistique, théorie ciétique des gaz,... etc...
8 8 Chapitre 1 - Itroductio Le poit fodametal est que les doées sot etâchées d icertitudes et présetet des variatios pour plusieurs raisos : le déroulemet des phéomèes observés est pas prévisible à l avace avec certitude (par exemple o e sait pas prévoir avec certitude les cours de la bourse ou les paes des voitures) toute mesure est etâchée d erreur seuls quelques idividus sot observés et o doit extrapoler les coclusios de l étude à toute ue populatio (cotexte des sodages) etc... Il y a doc itervetio du hasard et des probabilités. L objectif essetiel de la statistique est de maîtriser au mieux cette icertitude pour extraire des iformatios utiles des doées, par l itermédiaire de l aalyse des variatios das les observatios. Nous e ous itéresseros pas à la collecte des doées, qui est ue tâche importate et difficile, mais qui e relève pas des mathématiques. Si o omet la collecte des doées, les méthodes statistiques se répartisset e deux classes : La statistique descriptive, statistique exploratoire ou aalyse des doées, a pour but de résumer l iformatio coteue das les doées de faço sythétique et efficace. Elle utilise pour cela des représetatios de doées sous forme de graphiques, de tableaux et d idicateurs umériques (par exemple des moyees). Elle permet de dégager les caractéristiques essetielles du phéomèe étudié et de suggérer des hypothèses pour ue étude ultérieure plus sophistiquée. Les probabilités ot ici qu u rôle mieur. La statistique iféretielle va au delà de la simple descriptio des doées. Elle a pour but de faire des prévisios et de predre des décisios au vu des observatios. E gééral, il faut pour cela proposer des modèles probabilistes du phéomèe aléatoire étudié et savoir gérer les risques d erreurs. Les probabilités jouet ici u rôle fodametal. Pour le grad public, les statistiques désiget les résumés de doées fouris par la statistique descriptive. Par exemple, o parle des statistiques du chômage ou des statistiques de l écoomie américaie. Mais o oublie e gééral les aspects les plus importats liés aux prévisios et à l aide à la décisio apportés par la statistique iféretielle. L iformatique et la statistique sot deux élémets du traitemet de l iformatio : l iformatique acquiert et traite l iformatio tadis que la statistique l aalyse. Les deux disciplies sot doc étroitemet liées. E particulier, l augmetatio cosidérable de la puissace des ordiateurs et la facilité de trasmissio des doées par iteret ot redu possible l aalyse de très grades masses de doées, ce qui écessite l utilisatio de méthodes de plus e plus sophistiquées, coues sous le om de data miig ou fouille de doées. Efi, l iformatique décisioelle ou busiess itelligece regroupe les outils d aide à la décisio deveus essetiels das la gestio des etreprises. Ces outils écessitet u recours importat aux méthodes statistiques. Plus gééralemet, tout igéieur est ameé à predre des décisios au vu de certaies iformatios, das des cotextes où de ombreuses icertitudes demeuret. Il importe doc qu u igéieur soit formé aux techiques de gestio du risque et de traitemet de
9 1.2 La démarche statistique 9 doées expérimetales. 1.2 La démarche statistique La statistique et les probabilités sot les deux aspects complémetaires de l étude des phéomèes aléatoires. Ils sot cepedat de atures bie différetes. Les probabilités peuvet être evisagées comme ue brache des mathématiques pures, basée sur la théorie de la mesure, abstraite et complètemet décoectée de la réalité. Les probabilités appliquées proposet des modèles probabilistes du déroulemet de phéomèes aléatoires cocrets. O peut alors, préalablemet à toute expériece, faire des prévisios sur ce qui va se produire. Par exemple, il est usuel de modéliser la durée de bo foctioemet ou durée de vie d u système, mettos ue ampoule électrique, par ue variable aléatoire X de loi expoetielle de paramètre λ. Ayat adopté ce modèle probabiliste, o peut effectuer tous les calculs que l o veut. Par exemple : la probabilité que l ampoule e soit pas ecore tombée e pae à la date t est P (X > t) = e λt. la durée de vie moyee est E(X) = 1/λ. Si ampoules idetiques sot mises e foctioemet e même temps, et qu elles foctioet idépedammet les ues des autres, le ombre N t d ampoules qui tomberot e pae avat u istat t est ue variable aléatoire de loi biomiale B (, P (X t)) = B (, 1 e λt). Doc o s atted à ce que, e moyee, E(N t ) = ( 1 e λt) ampoules tombet e pae etre 0 et t. Das la pratique, l utilisateur de ces ampoules est très itéressé par ces résultats. Il souhaite évidemmet avoir ue évaluatio de leur durée de vie, de la probabilité qu elles foctioet correctemet pedat plus d u mois, u a, etc... Mais si l o veut utiliser les résultats théoriques éocés plus haut, il faut d ue part pouvoir s assurer qu o a choisi u bo modèle, c est-à-dire que la durée de vie de ces ampoules est bie ue variable aléatoire de loi expoetielle, et, d autre part, pouvoir calculer d ue maière ou d ue autre la valeur du paramètre λ. C est la statistique qui va permettre de résoudre ces problèmes. Pour cela, il faut faire ue expérimetatio, recueillir des doées et les aalyser. O met doc e place ce qu o appelle u essai ou ue expériece. O fait foctioer e parallèle et idépedammet les ues des autres = 10 ampoules idetiques, das les mêmes coditios expérimetales, et o relève leurs durées de vie. Admettos que l o obtiee les durées de vie suivates, exprimées e heures : Notos x 1,..., x ces observatios. Il est bie évidet que la durée de vie des ampoules est pas prévisible avec certitude à l avace. O va doc cosidérer que x 1,..., x sot les réalisatios de variables aléatoires X 1,..., X. Cela sigifie qu avat l expériece, la durée de vie de la ième ampoule est icoue et que l o traduit cette icertitude e
10 10 Chapitre 1 - Itroductio modélisat cette durée par ue variable aléatoire X i. Mais après l expériece, la durée de vie a été observée. Il y a doc plus d icertitude, cette durée est égale au réel x i. O dit que x i est la réalisatio de X i sur l essai effectué. Puisque les ampoules sot idetiques, il est aturel de supposer que les X i sot de même loi. Cela sigifie qu o observe plusieurs fois le même phéomèe aléatoire. Mais le hasard fait que les réalisatios de ces variables aléatoires de même loi sot différetes, d où la variabilité das les doées. Puisque les ampoules ot foctioé idépedammet les ues des autres, o pourra égalemet supposer que les X i sot des variables aléatoires idépedates. O peut alors se poser les questios suivates : 1. Au vu de ces observatios, est-il raisoable de supposer que la durée de vie d ue ampoule est ue variable aléatoire de loi expoetielle? Si o, quelle autre loi serait plus appropriée? C est u problème de choix de modèle ou de test d adéquatio. 2. Si le modèle de loi expoetielle a été reteu, commet proposer ue valeur (ou u esemble de valeurs) vraisemblable pour le paramètre λ? C est u problème d estimatio paramétrique. 3. Das ce cas, peut-o garatir que λ est iférieur à ue valeur fixée λ 0? Cela garatira alors que E(X) = 1/λ 1/λ 0, autremet dit que les ampoules serot suffisammet fiables. C est u problème de test d hypothèses paramétriques. 4. Sur u parc de 100 ampoules, à combie de paes peut-o s attedre e mois de 50 h? C est u problème de prévisio. Le premier problème cetral est celui de l estimatio : commet proposer, au vu des observatios, ue approximatio des gradeurs icoues du problème qui soit la plus proche possible de la réalité? La première questio peut se traiter e estimat la foctio de répartitio ou la desité de la loi de probabilité sous-jacete, la secode reviet à estimer u paramètre de cette loi, la quatrième à estimer u ombre moye de paes sur ue période doée. Le secod problème cetral est celui des tests d hypothèses : il s agit de se proocer sur la validité d ue hypothèse liée au problème : la loi est-elle expoetielle? λ est-il iférieur à λ 0? u objectif de fiabilité est-il atteit? E répodat oui ou o à ces questios, il est possible que l o se trompe. Doc, à toute répose statistique, il faudra associer le degré de cofiace que l o peut accorder à cette répose. C est ue caractéristique importate de la statistique par rapport aux mathématiques classiques, pour lesquelles u résultat est soit juste, soit faux. Pour résumer, la démarche probabiliste suppose que la ature du hasard est coue. Cela sigifie que l o adopte u modèle probabiliste particulier (ici la loi expoetielle), qui permettra d effectuer des prévisios sur les observatios futures. Das la pratique, la ature du hasard est icoue. La statistique va, au vu des observatios, formuler des hypothèses sur la ature du phéomèe aléatoire étudié. Maîtriser au mieux cette icertitude permettra de traiter les doées dispoibles. Probabilités et statistiques agisset doc e aller-retour das le traitemet mathématique des phéomèes aléatoires. L exemple des ampoules est ue illustratio du cas le plus fréquet où les doées se présetet sous la forme d ue suite de ombres. C est ce cas que ous traiteros das ce cours, mais il faut savoir que les doées peuvet être beaucoup plus complexes : des
11 1.3 Objectifs et pla du cours 11 foctios, des images, etc... Les pricipes et méthodes gééraux que ous traiteros das ce cours serot adaptables à tous les types de doées. 1.3 Objectifs et pla du cours Ce cours a pour but de préseter les pricipes de base d ue aalyse statistique de doées (descriptio, estimatio, tests), aisi que les méthodes statistiques les plus usuelles. Ces méthodes serot toujours illustrées par des problèmes cocrets, issus de l iformatique, la médecie, le cotrôle de qualité, la physique, etc... Il e s agit pas de doer u catalogue de recettes. Les méthodes statistiques serot la plupart du temps justifiées mathématiquemet, ce qui permettra d éviter u certai ombre d erreurs d iterprétatio des résultats, fréquetes das la pratique. Néamois, le cours privilégie l applicatio à la théorie. Les approfodissemets théoriques serot étudiés das les cours du 2ème semestre de Statistique Iféretielle Avacée et Aalyse Statistique Multidimesioelle. Les méthodes présetées serot mises e œuvre à l aide du logiciel R. La plupart du temps, o associera à chaque méthode la sytaxe et les sorties (tableaux, graphiques) correspodates de R. Le chapitre 2 présete les techiques de base e statistique descriptive, représetatios graphiques et idicateurs statistiques. Le chapitre 3 est cosacré aux problèmes d estimatio paramétrique poctuelle, le chapitre 4 aux itervalles de cofiace et le chapitre 5 aux tests d hypothèses. Le derier chapitre est cosacré à ue des méthodes statistiques les plus utilisées, la régressio liéaire. Efi, des aexes doet quelques rappels de probabilités utiles e statistique, des tables des lois de probabilité usuelles et ue courte itroductio à R.
12 12 Chapitre 1 - Itroductio
13 Chapitre 2 Statistique descriptive La statistique descriptive a pour but de résumer l iformatio coteue das les doées de faço à e dégager les caractéristiques essetielles sous ue forme simple et itelligible. Les deux pricipaux outils de la statistique descriptive sot les représetatios graphiques et les idicateurs statistiques. 2.1 Termiologie Les doées dot ous disposos sot des mesures faites sur des idividus (ou uités statistiques) issus d ue populatio. O s itéresse à ue ou plusieurs particularités des idividus appelées variables ou caractères. L esemble des idividus costitue l échatillo étudié. Exemple : si l échatillo est u groupe de TD à l ENSIMAG, u idividu est u étudiat la populatio peut être l esemble des étudiats de l ENSIMAG, des élèves igéieur de Frace, des habitats de Greoble, etc... les variables étudiées peuvet être la taille, la filière choisie, la moyee d aée, la couleur des yeux, la catégorie socio-professioelle des parets,... Si l échatillo est costitué de tous les idividus de la populatio, o dit que l o fait u recesemet. Il est extrêmemet rare que l o se trouve das cette situatio, essetiellemet pour des raisos de coût. Quad l échatillo est qu ue partie de la populatio, o parle de sodage. Le pricipe des sodages est d étedre à l esemble de la populatio les eseigemets tirés de l étude de l échatillo. Pour que cela ait u ses, il faut que l échatillo soit représetatif de la populatio. Il existe des méthodes pour y parveir, dot ous e parleros pas ici. Remarque : le mot variable désige à la fois la gradeur que l o veut étudier (variable statistique) et l objet mathématique qui la représete (variable aléatoire). Ue variable statistique peut être discrète ou cotiue, qualitative ou quatitative. Les méthodes de représetatio des doées diffèret suivat la ature des variables étudiées.
14 14 Chapitre 2 - Statistique descriptive Das ce chapitre, o e s itéresse qu au cas où o e mesure qu ue seule variable sur les idividus, comme das l exemple des ampoules. O dit alors que l o fait de la statistique uidimesioelle. Das ce cas, les doées sot sous la forme de la série des valeurs prises par la variable pour les idividus, otées x 1,..., x. O supposera que ces doées sot les réalisatios de variables aléatoires X 1,..., X idépedates et de même loi. O otera X ue variable aléatoire de cette loi. Le terme d échatillo désigera à la fois les séries x 1,..., x et X 1,..., X. Quad o mesure plusieurs variables sur les mêmes idividus, o dit que l o fait de la statistique multidimesioelle. Des doées de ce type serot traitées das le chapitre cosacré à la régressio liéaire et le cours de 2ème semestre d Aalyse Statistique Multidimesioelle leur est etièremet cosacré. L objectif premier de la statistique descriptive est u objectif de représetatio des doées, et pas d estimatio. O peut cepedat utiliser les outils de statistique descriptive das u but d estimatio. Notammet, o s itéressera au choix d u modèle probabiliste pertiet, ce qui reviedra à estimer la foctio de répartitio F ou la desité f de la variable aléatoire X sous-jacete, quad celle-ci est quatitative. 2.2 Représetatios graphiques Variables discrètes Ue variable discrète est ue variable à valeurs das u esemble fii ou déombrable. Mais l esemble des valeurs prises par cette variable das u échatillo de taille est forcémet fii. Les variables qui s exprimet par des ombres réels sot appelées variables quatitatives ou umériques (ex : logueur, durée, coût,...). Les variables qui s exprimet par l apparteace à ue catégorie sot appelées variables qualitatives ou catégorielles (ex : couleur, catégorie socio-professioelle,...) Variables qualitatives Si la variable est qualitative, o appelle modalités les valeurs possibles de cette variable. L esemble des modalités est oté E = {e 1,..., e k }. Par exemple, si la variable est la couleur des yeux d u idividu, l esemble des modalités est E = {bleu, vert, bru, pers, oir}. Si o iterroge = 200 persoes, les doées brutes se préseterot sous la forme d ue suite du type : bru, vert, vert, bleu,..., oir, vert. Cette suite est pas lisible. La meilleure maière de représeter ces doées est d utiliser les fréqueces absolues et relatives. Défiitio 1 O appelle fréquece absolue de la modalité e j le ombre total j d idividus de l échatillo pour lesquels la variable a pris la modalité e j : j = 1 {ej }(x i ). O appelle fréquece relative de la modalité e j le pourcetage j / d idividus de l échatillo pour lesquels la variable a pris la modalité e j. Das l exemple, o obtiet u tableau du type du tableau 2.1.
15 2.2 Représetatios graphiques 15 couleur des yeux bleu vert bru pers oir fréqueces absolues fréqueces relatives 33% 17% 40% 7.5% 2.5% Table 2.1 couleur des yeux d u échatillo de 200 persoes De même, das le cas des résultats d électio e Frace, les idividus sot les = 42 millios d électeurs et la variable est la persoe ou la liste pour laquelle l idividu a voté. La suite des 42 millios de votes a aucu itérêt. Le résultat est exprimé directemet sous forme du tableau des fréqueces relatives. Par exemple, le tableau 2.2 doe le résultat des électios européees de Listes NPA LO FrGauche PS EurEco EcoId Modem DivD UMP Libertas FN Autres % Voix Table 2.2 résultats des électios européees de NPA LO FrGauche PS EurEco EcoId Modem DivD UMP Libertas FN Autres Figure 2.1 électios européees, diagramme e coloes Les représetatios graphiques correspodates sot de deux types : diagrammes e coloes ou e bâtos : à chaque modalité correspod u rectagle vertical dot la hauteur est proportioelle à la fréquece relative de cette modalité diagrammes sectoriels ou camemberts : à chaque modalité correspod u secteur de disque dot l aire (ou l agle au cetre) est proportioelle à la fréquece relative de cette modalité Les commades R pour les diagrammes e coloes et sectoriels sot barplot(x) et pie(x). Das l exemple des électios, les figures 2.1 et 2.2 sot obteues à l aide des commades :
16 16 Chapitre 2 - Statistique descriptive > x<-c(3.3, 5.2, 28.9, 7.4, 5.9, 10.7, 11.9, 16.6, 9.8, 0.3) > partis<-c("npa","lo","frgauche","ps","eureco","ecoidep","modem","divd", "UMP","Libertas","FN","Autres") > barplot(x,ames=partis) > pie(x,labels=partis) PS EurEco FrGauche EcoId LO NPA Modem DivD FN Autres Libertas UMP Figure 2.2 électios européees, diagramme sectoriel Variables quatitatives Quad la variable est quatitative, o utilise les mêmes représetatios à l aide des fréqueces absolues et relatives. La différece fodametale etre les représetatios pour des variables qualitatives et quatitatives tiet au fait qu il existe u ordre aturel sur les modalités (qui sot des ombres réels) pour les variables quatitatives, alors qu aucu ordre est prédéfii pour les variables qualitatives. C est pourquoi les diagrammes e bâtos sot toujours utilisés, mais pas les diagrammes sectoriels. Par exemple, o a effectué ue equête auprès de 1000 couples e leur demadat otammet leur ombre d efats. Le tableau 2.3 doe les fréqueces et la figure 2.3 doe le diagramme e bâtos, obteu à l aide de la commade : > barplot(c(235,183,285,139,88,67,3),ames=c(0,1,2,3,4,5,6)) Nombre d efats > 6 fréquece absolue fréquece relative 23.5% 18.3% 28.5% 13.9% 8.8% 6.7% 0.3% 0 Table 2.3 ombre d efats de 1000 couples Choix d u modèle probabiliste discret Les représetatios graphiques effectuées permettet de guider le statisticie das le choix d u modèle probabiliste adapté aux doées. E effet, la fréquece relative j /, pourcetage d observatio de la modalité e j das l échatillo, est ue estimatio aturelle de la probabilité que la variable pree la modalité e j, P (X = e j ). Ue loi de probabilité vraisemblable pour X est ue loi telle que le diagramme des P (X = e j ) soit proche, e u certai ses, du diagramme e bâtos.
17 2.2 Représetatios graphiques Figure 2.3 ombre d efats de 1000 couples, diagramme e bâtos Par exemple, pour le ombre d efats par famille, ue loi géométrique est impossible car ue variable aléatoire de loi géométrique e peut pas predre la valeur 0. Ue loi biomiale est evisageable, par exemple la loi B (6, p) ou la loi B (7, p). Le problème est de savoir s il existe u paramètre p das [0,1] tel que le diagramme des P (X = j) ait ue allure proche de celle de la figure 2.3. Ue loi de Poisso est aussi possible a priori. Pour pouvoir choisir u modèle par cette méthode, il faudrait doc coaître au mois les formes des diagrammes des probabilités élémetaires des lois biomiale et de Poisso. Ce est pas simple du fait de la complexité des expressios de ces probabilités. De plus, la forme de ces diagrammes peut chager assez sesiblemet suivat la valeur des paramètres. Il est doc difficile de proposer u modèle probabiliste vraisemblable au seul vu d u diagramme e bâtos. O verra que c est beaucoup plus facile quad la variable est cotiue. Fialemet, le diagramme e bâtos sert plus à visualiser l allure géérale de la distributio qu à véritablemet aider à choisir u modèle probabiliste pertiet Variables cotiues Quad la variable étudiée est cotiue, les représetatios du type diagramme e bâtos sot sas itérêt, car les doées sot e gééral toutes distictes, doc les fréqueces absolues sot toutes égales à 1. O cosidèrera ici deux types de représetatios graphiques : l histogramme et le polygoe des fréqueces qui lui est associé. la foctio de répartitio empirique, qui permet otammet de costruire des graphes de probabilités. Ces deux types de représetatios écessitet d ordoer les doées. Si l échatillo iitial est oté x 1,..., x, l échatillo ordoé sera oté x 1,..., x. Das l exemple des ampoules, l échatillo iitial est : et l échatillo ordoé est :
18 18 Chapitre 2 - Statistique descriptive O a doc, par exemple : x 1 = 91.6 = durée de vie de la première ampoule. x 1 = mi(x 1,..., x ) = 5.4 = plus petite des durées de vie des 10 ampoules. E R, l échatillo x est créé par la commade : x<-c(91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1) La ième observatio est doée par x[i]. L échatillo ordoé est obteu par la commade sort(x). > x[1] [1] 91.6 > y<-sort(x) > y[1] [1] Histogramme et polygoe des fréqueces Le pricipe de cette représetatio est de regrouper les observatios proches e classes. Pour cela, o se fixe ue bore iférieure de l échatillo a 0 < x 1 et ue bore supérieure a k > x. O partitioe l itervalle ]a 0, a k ], coteat toutes les observatios, e k itervalles ]a j 1, a j ] appelés classes. La largeur de la classe j est h j = a j a j 1. Si toutes les classes sot de même largeur h = (a k a 0 )/k, o dit que l o fait u histogramme à pas fixe. Si les h j e sot pas tous égaux, o dit que l o fait u histogramme à pas variable. O appelle effectif de la classe j le ombre d observatios apparteat à cette classe : j = 1 ]aj 1,a j ](x i ). La fréquece (ou fréquece relative) de la classe j est j /. Défiitio 2 : L histogramme est la figure costituée des rectagles dot les bases sot les classes et dot les aires sot égales aux fréqueces de ces classes. Autremet dit, la hauteur du jème rectagle est j /h j. Notos ˆf la foctio e escalier costate sur les classes et qui vaut j /h j sur la classe ]a j 1, a j ]. L aire du jème rectagle est la fréquece de la classe j : j / = a j a j 1 ˆf(x)dx. Or cette fréquece est le pourcetage d observatios apparteat à la classe j, doc c est ue estimatio aturelle de la probabilité qu ue observatio appartiee à cette classe. Cette probabilité est P (a j 1 < X a j ) = F (a j ) F (a j 1 ) = a j a j 1 f(x)dx, c est-à-dire l aire délimitée par l axe des abcisses et la desité f sur la classe j. O e déduit que l histogramme fourit ue estimatio de la desité des observatios. L estimatio de la desité e u poit x, f(x), est égale à la hauteur ˆf(x) du rectagle correspodat à la classe à laquelle x appartiet.
19 2.2 Représetatios graphiques 19 L allure de l histogramme permettra doc de proposer des modèles probabilistes vraisemblables pour la loi de X e comparat la forme de ˆf à celle de desités de lois de probabilité usuelles. O voit que l estimatio proposée par l histogramme déped de plusieurs paramètres : les bores iférieure et supérieure a 0 et a k, le ombre et la largeur des classes. Cela fait que plusieurs histogrammes peuvet être dessiés à partir des mêmes doées et avoir des allures assez différetes, pouvat doer lieu à des iterprétatios trompeuses. E pratique, il est coseillé de suivre les règles suivates : Il est recommadé d avoir etre 5 et 20 classes. La règle de Sturges précoise de choisir u ombre de classes égal à k 1 + log 2 = 1 + l / l 2. Cela doe par exemple k = 5 pour 22, k = 6 pour 23 45, etc... Le choix des bores a 0 et a k doit être fait de faço à respecter ue certaie homogééité des largeurs de classes. U choix fréquet est a 0 = x (x x 1) et a k = x (x x 1). Le choix le plus fréquet est celui de l histogramme à pas fixe, où les classes sot de même largeur h = (a k a 0 )/k. Das ce cas, la hauteur d u rectagle est proportioelle à l effectif de sa classe. Preos l exemple des ampoules. O a = 10 doées, doc la règle de Sturges dit de choisir k = 5 classes. Comme x 1 = 5.4 et x = 251.3, la règle éocée doe a 0 = et a 5 = 257.4, qu o peut arrodir à a 0 = 0 et a 5 = 260. Si o veut u histogramme à 5 classes de même largeur, cette largeur sera doc h = 260/5 = 52. O obtiet alors le tableau 2.4 et l histogramme correspodat est doé par la figure 2.4. La commade R permettat de costruire cette figure est : > hist(x, prob=t, breaks=seq(0,260,52)) classes ]a j 1, a j ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260] effectifs j fréqueces j / 40% 30% 10% 10% 10% hauteurs j /h Table 2.4 Ampoules, répartitio e classes de même largeur Das cette commade, prob=t sigifie que l o représete bie e ordoées les hauteurs (avec prob=f, o aurait représeté les effectifs) et breaks=seq(0,260,52) sigifie que les bores des classes sot obteues e partageat l itervalle ]0,260] e itervalles de même largeur 52. Le mode de l histogramme est le milieu de la classe correspodat au rectagle le plus haut, ici 26. C est ue estimatio du poit où la desité est maximum (que l o appelle égalemet le mode de la desité). L histogramme fourit bie ue visualisatio de la répartitio des doées. Ici, le phéomèe marquat est la cocetratio des observatios sur les petites valeurs et le fait que, plus la durée de vie gradit, mois il y a d observatios. Autremet dit, la desité de la variable aléatoire représetat la durée de vie d ue ampoule est ue foctio décroissate.
20 20 Chapitre 2 - Statistique descriptive Histogram of x Desity x Figure 2.4 Ampoules, histogramme à classes de même largeur L histogramme est pas ue approximatio satisfaisate de la desité das la mesure où c est ue foctio e escalier, alors que la desité est e gééral ue foctio cotiue. Ue meilleure approximatio est le polygoe des fréqueces, c est à dire la lige brisée reliat les milieux des sommets des rectagles, et prologée de part et d autre des bores de l histogramme de sorte que l aire sous le polygoe soit égale à 1 (comme ue desité). Le polygoe des fréqueces est représeté e gras das la figure 2.5 et est obteu à l aide des commades : > abs<-c(0,26,78,130,182,234,275) > ord<-c(0.0082,0.0077,0.0058,0.0019,0.0019,0.0019,0) > hist(x, prob=t, breaks=seq(0,260,52), xlim=c(0,300), ylim=c(0,0.009)) > lies(abs,ord,lwd=3) Histogram of x Desity x Figure 2.5 Ampoules, histogramme à classes de même largeur et polygoe des fréqueces L icovéiet d u histogramme à pas fixe est que certaies classes peuvet être très chargées et d autres pratiquemet vides. Par exemple ici, la classe 1 cotiet plus d ob-
21 2.2 Représetatios graphiques 21 servatios à elle seule que les classes 3, 4 et 5 réuies. Pour coaître la répartitio des observatios das les classes chargées, o a evie de scider celles-ci. De même, o peut regrouper des classes trop peu chargées. Ue faço d y parveir est de faire e sorte que toutes les classes aiet le même effectif. Das ce cas, elles e peuvet pas être de même largeur. Les bores des classes sot cette fois aléatoires, puisqu elles sot foctio des observatios. Das l exemple des ampoules, o peut faire e sorte d avoir 2 observatios par classe. O détermie par exemple les limites des classes e preat le milieu de deux observatios ordoées successives. O obtiet alors le tableau 2.5 et l histogramme 2.6. classes ]a j 1, a j ] ]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260] largeurs h j effectifs j fréqueces j / 20% 20% 20% 20% 20% hauteurs j /h j Table 2.5 Ampoules, répartitio e classes de même effectif Histogram of x Desity x Figure 2.6 Ampoules, histogramme à classes de même effectif et polygoe des fréqueces O costate que cet histogramme décrit plus fiemet la distributio que le précédet. C est toujours le cas des histogrammes à classes de même effectif. Mais leur usage est mois répadu que celui des histogrammes à classes de même largeur, car ils sot mois faciles à tracer. O voit que des histogrammes disticts sur les mêmes doées peuvet être sesiblemet différets. Doc il faudra se méfier des histogrammes si o veut estimer la desité des observatios. O se cotetera de dire que l histogramme et, mieux ecore, le polygoe des fréqueces, doet ue allure géérale de cette desité.
22 22 Chapitre 2 - Statistique descriptive Par exemple ici, il est clair que la forme des deux histogrammes et polygoes est pas très éloigée de la desité d ue loi expoetielle (f(x) = λe λx ). E revache, ils e ressemblet pas du tout à la desité d ue loi ormale (e forme de cloche). O e coclura qu il est très peu probable que la durée de vie d ue ampoule soit de loi ormale, et qu il est possible, voire vraisemblable, qu elle soit de loi expoetielle. Ce jugemet est pour l istat puremet visuel. Il faudra l affier par des techiques quatitatives plus précises. Le polygoe des fréqueces est pas ecore ue foctio très lisse puisque c est ue lige brisée. Il est itéressat d obteir des courbes plus lisses, c est-à-dire au mois avec dérivée cotiue. Il existe des méthodes pour cela, les méthodes dites du oyau, qui dépasset le cadre de ce cours. Sigalos simplemet qu e R, o obtiet ue estimatio de desité par cette méthode avec la commade desity. Par exemple pour les ampoules, l estimatio e questio, superposée à l histogramme, est doée sur la figure 2.7, et obteue par la commade : > hist(x, prob=t, breaks=c(0,17,46,79,145,260)) > lies(desity(x)) Histogram of x Desity x Figure 2.7 Ampoules, histogramme à classes de même effectif et estimatio de desité par la méthode du oyau O costate que l estimatio de desité obteue e ressemble pas à la desité d ue loi expoetielle. E fait, cette méthode est efficace que si o a beaucoup de doées, ce qui est loi d être le cas das cet exemple. Remarque : Si au lieu des effectifs j, o cosidère les effectifs cumulés m j = j l=1 l, o costruit u histogramme cumulé et u polygoe des fréqueces cumulées, qui fourisset ue estimatio de la foctio de répartitio de la variable étudiée.
23 2.2 Représetatios graphiques Foctio de répartitio empirique O a vu que le polygoe des fréqueces cumulées était ue estimatio de la foctio de répartitio des observatios. La foctio de répartitio empirique e est ue autre, de meilleure qualité. Défiitio 3 : La foctio de répartitio empirique (FdRE) F échatillo x 1,..., x est la foctio défiie par : 0 si x < x 1 x IR, F (x) = 1 i 1 {xi x} = si x i x < x i+1 1 si x x associée à u F (x) est la probabilité qu ue observatio soit iférieure à x tadis que F (x) est le pourcetage d observatios iférieures à x. O coçoit doc bie que F (x) soit ue estimatio de F (x). O peut motrer que cette estimatio est d excellete qualité, e u ses que l o verra plus tard. F (x) est ue foctio e escalier qui fait des sauts de hauteur 1/ e chaque poit de l échatillo. Par exemple, la figure 2.8 représete la foctio de répartitio empirique de l échatillo des durées de vie d ampoules. La commade R permettat de tracer cette foctio sur cet exemple est plot(ecdf(x)). ecdf(x) F(x) Figure 2.8 Ampoules, foctio de répartitio empirique x Les graphes de probabilités La foctio de répartitio empirique est très utile e statistique. Itéressos-ous ici uiquemet à so utilisatio pour détermier u modèle probabiliste acceptable pour les observatios. A priori, la première idée est de tracer le graphe de la foctio de répartitio empirique et de détermier si ce graphe ressemble à celui de la foctio de répartitio d ue loi
24 24 Chapitre 2 - Statistique descriptive coue. E fait, il est très difficile de procéder aisi car les foctios de répartitio de toutes les lois de probabilité se ressemblet : à vue d oeil, il y a pas de grade différece etre les foctios de répartitio des lois ormale et expoetielle, alors que leurs desités e se ressemblet pas du tout. Ue secode idée est alors d appliquer ue trasformatio à la foctio de répartitio empirique qui permette de recoaître visuellemet ue caractéristique d ue loi de probabilité. U graphe de probabilités (e aglais probability plot ou Q-Q plot) est u uage de poits tracé à partir de la foctio de répartitio empirique, tel que les poits doivet être approximativemet aligés si les observatios provieet d ue loi de probabilité bie précise. Si o souhaite savoir si les observatios sot issues de la loi de probabilité, dépedat d u paramètre θ icou, dot la foctio de répartitio est F, le pricipe est de chercher ue relatio liéaire du type h[f (x)] = α(θ)g(x) + β(θ), où h et g sot des foctios qui e dépedet pas de θ. Aisi, si la vraie foctio de répartitio des observatios est F, h[f (x)] devrait être proche de α(θ)g(x) + β(θ), pour tout x. Pour x = x i, h[f (x i )] = h(i/). Doc, si la vraie foctio de répartitio est F, les poits ( g(x i ), h(i/) ) serot approximativemet aligés. La pete et l ordoée à l origie de cette droite fourirot des estimatios de α(θ) et β(θ), doc la plupart du temps de θ. Défiitio 4 : Soit F la foctio de répartitio d ue loi de probabilité, dépedat d u paramètre icou θ. S il existe des foctios h, g, α et β telles que, alors le uage des poits x IR, h[f (x)] = α(θ)g(x) + β(θ) ( g(x i ), h(i/) ), i {1,..., } est appelé graphe de probabilités pour la loi de foctio de répartitio F. Si les poits du uage sot approximativemet aligés, o admettra que F est ue foctio de répartitio plausible pour les observatios. Exemple 1 : Graphe de probabilités pour la loi expoetielle Si X est de loi exp(λ), F (x) = 1 e λx, d où l(1 F (x)) = λx. Par coséquet, le graphe de probabilités pour la loi expoetielle est le uage des poits ( x i, l(1 i/) ), i {1,..., 1} (le poit correspodat à i = doit être elevé car l(1 /) = ). Si ces poits sot approximativemet aligés sur ue droite de pete égative et passat par l origie, o pourra cosidérer que la loi expoetielle est u modèle probabiliste vraisemblable pour ces observatios. La pete de la droite fourit alors ue estimatio graphique de λ. Iversemet, si ce est pas le cas, il est probable que les observatios e soiet pas issues d ue loi expoetielle. E R, le vecteur des etiers de 1 à 9 est obteu par la commade : > seq(1:9) [1] Le vecteur des l(1 i/) est obteu par :
25 2.2 Représetatios graphiques 25 > log(1-seq(1:9)/10) [1] [7] Sur l exemple des ampoules, le graphe de probabilités pour la loi expoetielle, doé par la figure 2.9, est obteu par : > plot(sort(x)[1:9],log(1-seq(1:9)/10),ylim=c(-2.5,0.1)) > ablie(v=0) > ablie(h=0) sort(x)[1:9] sigifie que l o e pred que les 9 premières composates du vecteur des observatios triées x i. Les commades ablie ot rajouté sur la figure les axes des abscisses et des ordoées, ce qui permet de juger si les poits peuvet être cosidérés comme approximativemet aligés sur ue droite de pete égative et passat par l origie. Apparemmet, c est bie le cas, doc o peut cosidérer qu il est vraisemblable que la durée de vie d ue ampoule soit ue variable aléatoire de loi expoetielle. Cette coclusio est cohérete avec celle des histogrammes. log(1 seq(1:9)/10) sort(x)[1:9] Figure 2.9 Ampoules, graphe de probabilités pour la loi expoetielle La droite e questio a pour équatio y = λx. Sa pete fourit doc ue estimatio du paramètre λ. Pour détermier cette pete, la méthode la plus usuelle est la méthode des moidres carrés, qui sera étudiée das le chapitre cosacré à la régressio liéaire. O obtiet ici ue estimatio de l ordre de Exemple 2 : Graphe de probabilités pour la loi ormale Si X est de loi N (m, σ 2 ), U = X m est de loi N (0, 1). Alors F (x) = P (X x) = σ P ( U x m ) (x m) = φ, où φ est la foctio de répartitio de la loi N (0, 1). Etat σ σ doé que φ est strictemet croissate, elle est iversible, et o a φ 1 (F (x)) = x m = σ 1 σ x m σ.
26 26 Chapitre 2 - Statistique descriptive ( Par coséquet, le graphe de probabilités pour la loi ormale est le uage des poits x i, φ 1 (i/) ), i {1,..., 1} (le poit correspodat à i = doit être elevé car φ 1 (1) = + ). Si ces poits sot approximativemet aligés, o admettra que la loi ormale est u modèle plausible pour les observatios. Si c est le cas, la droite e questio est appelée droite de Hery (du om d u igéieur de l armée fraçaise qui s est itéressé à la dispersio des tirs d obus au dix-euvième siècle). Sa pete et so ordoée à l origie fourisset des estimatios graphiques de m et σ. E R, φ 1 (p) est doé par qorm(p). Doc le vecteur des φ 1 (i/) est obteu par la commade : > qorm(seq(1:9)/10) [1] [8] Par ailleurs, la table 2 de la loi ormale doe pour α [0, 1] la valeur de u α = φ 1 (1 α/2). O a doc : pour p < 1/2, φ 1 (p) = u 2p. φ 1 (1/2) = 0. pour p > 1/2, φ 1 (p) = u 2(1 p). Sur l exemple des ampoules, le graphe de probabilités pour la loi ormale, doé par la figure 2.10, est obteu par : > plot(sort(x)[1:9], qorm(seq(1:9)/10)) > ablie(h=0) qorm(seq(1:9)/10) sort(x)[1:9] Figure 2.10 Ampoules, graphe de probabilités pour la loi ormale Le graphe de probabilités semble plus proche d u logarithme que d ue droite. O e coclura doc que la loi ormale est pas u modèle approprié pour ces doées, ce qui est cohéret avec le résultat précédet.
27 2.3 Idicateurs statistiques 27 O costate ici le pricipal défaut de la méthode : commet juger visuellemet si des poits sot suffisammet aligés? La répose est soumise à la subjectivité de l utilisateur. Il est doc écessaire de compléter cette approche graphique par des techiques objectives : les tests d adéquatio. Néamois, les graphes de probabilités sot ue première étape idispesable das ue étude statistique, car ils sot faciles à mettre e oeuvre et permettet de détecter facilemet des modèles clairemet pas adaptés aux doées. ( ) Remarque 1 : E R, la commade qqorm(x) trace le uage des poits φ 1( i 1/2), x i, qui est quasimet la même chose que le graphe de probabilités pour la loi ormale. Remarque 2 : Le pricipe des graphes de probabilités, appliqué ici à la foctio de répartitio, peut s appliquer aussi à d autres caractéristiques des lois de probabilité, comme par exemple les probabilités élémetaires P (X = x) pour les lois discrètes. 2.3 Idicateurs statistiques Les représetatios graphiques présetées das la sectio précédete e permettet qu ue aalyse visuelle de la répartitio des doées. Pour des variables quatitatives, il est itéressat de doer des idicateurs umériques permettat de caractériser au mieux ces doées. O doe e gééral deux idicateurs : u idicateur de localisatio et u idicateur de dispersio Idicateurs de localisatio ou de tedace cetrale Le but est de doer u ordre de gradeur gééral des observatios, u ombre uique qui résume au mieux les doées. O pese immédiatemet à la moyee des observatios La moyee empirique La moyee empirique de l échatillo est la moyee arithmétique des observatios, otée x = 1 x i. So iterprétatio est évidete. La commade R correspodate est mea(x). Pour l exemple des ampoules, x 10 = 83.15, doc o dira que la durée de vie moyee d ue ampoule est de h. Les représetatios graphiques ous ot ameés à admettre que la durée de vie d ue ampoule était ue variable aléatoire de loi expoetielle. O rappelle que l espérace de la loi exp(λ) est 1/λ. D après la loi des grads ombres, la moyee empirique coverge presque sûremet vers l espérace de la loi. Il est doc logique de cosidérer qu ue estimatio de λ est 1/ x 10 = Cette valeur est cohérete avec la valeur trouvée à l aide du graphe de probabilités, O retrouvera ce pricipe d estimatio plus tard, sous le om de méthode des momets.
28 28 Chapitre 2 - Statistique descriptive Les valeurs extrêmes La plus petite valeur x 1 = mi x i et la plus grade valeur x = max x i d u échatillo sot évidemmet des idicatios itéressates. Leur moyee (x 1+x )/2 est u idicateur de localisatio. E R, les commades correspodates sot mi(x) et max(x). Pour les ampoules, (x 1 + x )/2 = Problème : Les deux idicateurs que l o viet de défiir sot très sesibles aux valeurs extrêmes. E particulier, il arrive parfois qu ue série statistique présete des valeurs aberrates, c est à dire des valeurs exagérémet grades ou petites par rapport aux autres valeurs de l échatillo. Par exemple, ce serait le cas si ue durée de vie était égale à 0.01 ou E gééral, la présece d ue valeur aberrate est due à ue erreur de saisie ou ue erreur das l expériece ayat abouti à cette observatio. Il faut alors l élimier avat d effectuer l aalyse statistique. Il existe des méthodes de détectio des valeurs aberrates, mais il est souvet difficile de décider si ue valeur est aberrate ou pas. Aussi est-il importat de disposer d idicateurs qui e soiet pas trop sesibles aux valeurs aberrates. Or la moyee est très sesible : si ue des observatios est extrêmemet grade, elle va tirer la moyee vers le haut. La médiae empirique est u idicateur de localisatio costruit pour être isesible aux valeurs aberrates La médiae empirique La médiae empirique de l échatillo, otée x ou x 1/2, est u réel qui partage l échatillo ordoé e deux parties de même effectif. La moitié des observatios sot iférieures à x et l autre moitié lui sot supérieures. Il y a doc ue chace sur deux pour qu ue observatio soit iférieure à la médiae, et évidemmet ue chace sur deux pour qu ue observatio soit supérieure à la médiae. Si est impair, la médiae empirique est la valeur située au cetre de l échatillo ordoé : x = x Si est pair, importe quel ombre compris etre x 2 de la médiae. Par covetio, o pred e gééral le milieu de cet itervalle : x = ( x + x ) /2. La commade R pour la médiae empirique est media(x). et x +1 vérifie la défiitio 2 L expressio de la médiae motre bie que c est u idicateur qui est pas sesible aux valeurs aberrates. Pour l illustrer, cosidéros les deux échatillos suivats : La médiae empirique est x 3 = 5 pour les deux échatillos, alors que la moyee empirique vaut 5.4 pour le premier échatillo et pour le deuxième. La moyee est fortemet ifluecée par la valeur aberrate du deuxième échatillo, alors que la médiae e l est pas du tout. Das l exemple des ampoules, x 10 = ( )/2 = O costate que la médiae est ici ettemet iférieure à la moyee : la durée de vie moyee est de 83.1 h, et
29 2.3 Idicateurs statistiques 29 pourtat ue ampoule sur deux tombera e pae avat 62.2 h de foctioemet. Cette propriété est caractéristique des distributios o symétriques dites à queues lourdes : u petit ombre d ampoules aurot ue durée de vie ettemet supérieure à la majeure partie des autres. C est ce qu o avait déjà observé sur l histogramme, et qui peut se remarquer directemet sur les doées. Le même phéomèe se produit si la variable étudiée est le salaire des fraçais. E 2007, pour u travail à temps plei, le salaire et mesuel moye était de 1997 e, alors que le salaire et mesuel média était de 1594 e (source U fraçais sur deux touchait doc mois de 1594 e par mois, mais u petit ombre de persoes avaiet u fort salaire, ce qui fait remoter la moyee. Notos égalemet que le seuil de pauvreté est défii comme la moitié du reveu média, ce qui cocere 3 millios et demi de persoes e Frace. O costate doc que la moyee et la médiae empiriques sot deux résumés de l échatillo dot la coaissace simultaée peut être riche d eseigemets. Quad la distributio est symétrique, moyee et médiae empiriques sot proches (pour ue variable aléatoire de loi symétrique, l espérace et la médiae théoriques sot égales) Caractérisatio des idicateurs de localisatio U idicateur de localisatio c est fait pour résumer au mieux à lui seul l esemble des observatios. L erreur commise e résumat l observatio x i par c peut être quatifiée par ue distace ou u écart etre ces deux valeurs : d(x i, c). L erreur moyee commise sur tout l échatillo est e = 1 d(x i, c). U bo idicateur de localisatio doit miimiser cette erreur globale. L idicateur c optimal est obteu e aulat la dérivée de e par rapport à c. Si o choisit l écart quadratique, e = 1 (x i c) 2. La valeur de c qui miimise cette erreur est obteue e aulat la dérivée de e par rapport à c : e c = 2 (x i c) = 2( x c) qui vaut 0 pour c = x. La moyee empirique est doc la valeur qui résume le mieux l échatillo au ses dit des moidres carrés. Si o choisit e = 1 x i c, o obtiet c = x. Si o choisit e = 1 sup x i c, o obtiet c = (x 1 + x )/2. Il est doc justifié d utiliser ces trois quatités comme idicateurs de localisatio.
30 30 Chapitre 2 - Statistique descriptive Idicateurs de dispersio ou de variabilité Pour exprimer les caractéristiques d u échatillo, il est écessaire de compléter les idicateurs de localisatio par des idicateurs de dispersio, qui mesurerot la variabilité des doées. Par exemple, le tableau 2.6 doe les températures mesuelles moyees, e degrés Celsius, à New-York et à Sa Fracisco, calculées sur ue période de 30 as. J F M A M J J A S O N D New-York Sa Fracisco Table 2.6 températures mesuelles moyees à New-York et à Sa Fracisco La température auelle moyee est de 12.5 à New-York et de 13.7 à Sa Fracisco. E se basat uiquemet sur ces moyees, o pourrait croire que les climats de ces deux villes sot similaires. Or il est clair que la différece de température etre l hiver et l été est beaucoup plus forte à New-York qu à Sa Fracisco. Pour le déceler, il suffit de calculer u idicateur qui exprime la variabilité des observatios. Or, d après la sectio précédete, l erreur moyee commise e résumat l échatillo par u idicateur de localisatio c est e = 1 d(x i, c). e exprime bie la variabilité de l échatillo autour de c. O pourra doc costruire des idicateurs de dispersio à partir de e e cosidérat différetes distaces Variace et écart-type empiriques Si o choisit la distace euclidiee, o a vu que c = x. L idicateur de dispersio correspodat est doc s 2 = 1 (x i x ) 2. Il est appelé variace empirique de l échatillo, et mesure l écart quadratique moye de l échatillo à sa moyee. Il est facile de vérifier que s 2 = 1 x 2 i x 2. L écart-type empirique de l échatillo est la racie carrée de la variace empirique : s = s 2. Il s exprime das la même uité que les doées, ce qui red so iterprétatio plus facile que celle de la variace. Aisi, l écart-type des températures auelles est de 8.8 à New-York et de 3 à Sa Fracisco, ce qui exprime bie la différece de variabilité des températures etre les deux villes. Cepedat, la variabilité doit toujours se comparer à la valeur moyee. E effet, ue variabilité de 10 a pas le même ses si la température moyee de référece est 12 ou Des doées présetet ue forte variabilité si l écart-type est grad par rapport à la moyee. Aussi o défiit le coefficiet de variatio empirique de l échatillo par cv = s x
31 2.3 Idicateurs statistiques 31 L itérêt de cet idicateur est qu il est sas dimesio. Ue pratique empirique courate est de cosidérer que l échatillo possède ue variabilité sigificative si cv > Si cv 0.15, les doées présetet peu de variabilité et o cosidère que la moyee empirique à elle seule est u bo résumé de tout l échatillo. Das os exemples, o obtiet : x s 2 s cv ampoules t New-York t Sa Fracisco O remarque doc ue très forte variabilité des deux premiers échatillos et ue variabilité assez faible du troisième. E R, la commade var(x) doe s 2 = 1 s2 au lieu de s 2. C est aussi ce que l o a sur les calculatrices dotées de foctioalités statistiques. O e verra l explicatio au chapitre suivat. s = s 2 est doé e R par sd(x) (stadard deviatio). Il y a pas de commade prédéfiie pour le coefficiet de variatio empirique. Remarque 1 : s 2 = 1 i x ) (x 2 = 1 x 2 i x 2 évoque V ar(x) = E [ (X E(X)) 2] = E (X 2 ) [E(X)] 2. Les similitudes das les oms et les formules suggèret que la variace empirique est très liée à la variace de la loi de probabilité de la variable aléatoire sousjacete. O reviedra sur ce poit au chapitre suivat. Remarque 2 : E fiace, la variabilité d ue série de doées est appelée volatilité. L étude de la volatilité est fodametale das les aalyses de risque fiacier L étedue L étedue d u échatillo est e = x x 1. Cet idicateur est mois riche que la variace empirique et est évidemmet très sesible aux valeurs aberrates. Il est employé courammet e cotrôle de qualité, otammet pour détecter ces valeurs aberrates Les quatiles empiriques Les quatiles empiriques sot des valeurs qui partaget l échatillo ordoé e u certai ombre de parties de même effectif. s il y a 2 parties, o retrouve la médiae empirique x. s il y a 4 parties, o parle de quartiles, otés q,1/4, q,1/2 et q,3/4. O a q,1/2 = x. s il y a 10 parties, o parle de déciles, otés q,1/10,..., q,9/10. s il y a 100 parties, o parle de cetiles, otés q,1/100,..., q,99/100. etc...
32 32 Chapitre 2 - Statistique descriptive Plus gééralemet, les quatiles empiriques de l échatillo x 1,..., x sot défiis par : { 1 ( ) x p ]0, 1[, q,p = 2 p + x p+1 si p est etier sio où x désige la partie etière de x. x p +1 Pour p = 1/2, o retrouve bie l expressio de la médiae empirique x. Das l exemple des ampoules, o a que 10 doées, doc seuls les quartiles ot u ses. O coaît déjà la médiae empirique q,1/2 = x = O obtiet q,1/4 = x 3 = 24.3 et q,3/4 = x 8 = Les quatiles empiriques sot très utilisés pour décrire des phéomèes cocerat les extrémités des échatillos : E fiace, la value at risk (VaR) est la plus utilisée des mesures de risque de marché. Elle représete la perte potetielle maximale d u ivestisseur sur la valeur d u portefeuille d actifs, compte-teu d u horizo de détetio et d u iveau de cofiace doés. Par exemple, quad o dit qu u portefeuille a ue VaR de -3 Me à 95% pour u horizo mesuel, cela sigifie que l o estime que ce portefeuille a 95% de chaces de e pas se déprécier de plus de 3 Me e u mois. La VaR est doc ici le quatile d ordre 5% de la distributio des redemets de ce portefeuille e u mois. Das l idustrie pétrolière, les réserves sot classées e 3 catégories P10, P50 et P90, selo la probabilité qu elles ot de pouvoir être exploitées das le futur. Cela correspod aux quatiles d ordre 10%, 50% et 90% de la loi du débit de pétrole du puits. Par ailleurs, [ q,1/4, q,3/4 ] est u itervalle qui cotiet la moitié la plus cetrale des observatios. Sa largeur q,3/4 q,1/4 est u idicateur de dispersio, appelé distace iter-quartiles, qui est isesible aux valeurs aberrates. Das l exemple des ampoules, elle vaut 94.1 h. O défiit de la même maière des distaces iter-déciles, iter-cetiles,... E R, la commade quatile(x,p) doe ue versio du quatile empirique d ordre p légèremet différete de celle décrite ici (mais pour p = 1/2, o retrouve bie la médiae empirique) : { où q = ( 1)p ( 1)p. x ( 1)p+1 si ( 1)p est etier (1 q)x ( 1)p +1 + qx ( 1)p +2 sio > quatile(x,1/4) 25% (alors que q,1/4 = 24.3) La commade summary(x) doe e ue seule fois les miimum, premier quartile, médiae, moyee, troisième quartile et maximum de l échatillo.
33 2.3 Idicateurs statistiques 33 > summary(x) Mi. 1st Qu. Media Mea 3rd Qu. Max Remarque : Puisqu o cosidère les observatios x 1,..., x comme des réalisatios de variables aléatoires X 1,..., X, toutes les quatités défiies das ce chapitre sot ellesmêmes des réalisatios de variables aléatoires : IF (x) = 1 1 {Xi x} X = 1 { 1 Q,p = 2 (X p + Xp+1) X p +1 X i S 2 = 1 si p est etier sio (X i X ) 2
34 34 Chapitre 2 - Statistique descriptive
35 Chapitre 3 Estimatio poctuelle 3.1 Itroductio Das ce chapitre, o suppose que les doées x 1,..., x sot réalisatios idépedates d ue même variable aléatoire sous-jacete X. Il est équivalet de supposer que x 1,..., x sot les réalisatios de variables aléatoires X 1,..., X idépedates et de même loi. Nous adopteros ici la secode formulatio, qui est plus pratique à maipuler. Les techiques de statistique descriptive, comme l histogramme ou le graphe de probabilités, permettet de faire des hypothèses sur la ature de la loi de probabilité des X i. Des techiques statistiques plus sophistiquées, les tests d adéquatio, permettet de valider ou pas ces hypothèses. O supposera ici que ces techiques ot permis d adopter ue famille de lois de probabilité bie précise (par exemple, loi ormale, loi de Poisso, etc.) pour la loi des X i, mais que la valeur du ou des paramètres de cette loi est icoue. O otera θ le paramètre icou. Le problème traité das ce chapitre est celui de l estimatio du paramètre θ. Comme o l a déjà dit, il s agit de doer, au vu des observatios x 1,..., x, ue approximatio ou ue évaluatio de θ que l o espère la plus proche possible de la vraie valeur icoue. O pourra proposer ue uique valeur vraisemblable pour θ (estimatio poctuelle, das ce chapitre) ou u esemble de valeurs vraisemblables (estimatio esembliste ou régio de cofiace, das le chapitre suivat). O otera F (x; θ) la foctio de répartitio des X i. Pour les variables aléatoires discrètes o otera P (X = x; θ) les probabilités élémetaires, et pour les variables aléatoires cotiues o otera f(x; θ) la desité. Par exemple, quad X est de loi expoetielle exp(λ), o aura F (x; λ) = 1 e λx et f(x; λ) = λe λx. 3.2 Méthodes d estimatio Il existe de ombreuses méthodes pour estimer u paramètre θ. Par exemple, ous avos déjà vu des estimatios graphiques à partir des graphes de probabilité. Nous avos aussi utilisé le pricipe qu ue probabilité peut s estimer par ue proportio. Das cette sectio, ous e ous itéressos qu aux deux méthodes d estimatio les plus usuelles, la méthode des momets et la méthode du maximum de vraisemblace.
36 36 Chapitre 3 - Estimatio poctuelle Mais il faut d abord défiir précisémet ce que sot ue estimatio et surtout u estimateur Défiitio d u estimateur Pour estimer θ o e dispose que des doées x 1,..., x, doc ue estimatio de θ sera ue foctio de ces observatios. Défiitio 5 Ue statistique t est ue foctio des observatios x 1,..., x : t : IR IR m (x 1,..., x ) t (x 1,..., x ) Par exemple, x = 1 x i, x 1, (x 1, x 3 + x 4, 2 l x 6 ) sot des statistiques. Puisque les observatios x 1,..., x sot des réalisatios des variables aléatoires X 1,..., X, la quatité calculable à partir des observatios t (x 1,..., x ) est ue réalisatio de la variable aléatoire t (X 1,..., X ). Et o retrouve par exemple le fait que x = 1 x i est ue réalisatio de X = 1 X i. Pour simplifier les écritures, o ote souvet t = t (x 1,..., x ) et T = t (X 1,..., X ). Par abus, o doe le même om de statistique aux deux quatités, mais das ue perspective d estimatio, o va ommer différemmet t et T. Défiitio 6 U estimateur d ue gradeur θ est ue statistique T à valeurs das l esemble des valeurs possibles de θ. Ue estimatio de θ est ue réalisatio t de l estimateur T. U estimateur est doc ue variable aléatoire, alors qu ue estimatio est ue valeur détermiiste. Das l exemple des ampoules, l estimateur de λ est 1/ X et l estimatio de λ est La méthode des momets L estimateur des momets (EMM) C est la méthode la plus aturelle, que ous avos déjà utilisée sas la formaliser. L idée de base est d estimer ue espérace mathématique par ue moyee empirique, ue variace par ue variace empirique, etc... Si le paramètre à estimer est l espérace de la loi des X i, alors o peut l estimer par la moyee empirique de l échatillo. Autremet dit, si θ = E(X), alors l estimateur de θ par la méthode des momets (EMM) est θ = X = 1 X i.
37 3.2 Méthodes d estimatio 37 Plus gééralemet, pour θ IR, si E(X) = ϕ(θ), où ϕ est ue foctio iversible, alors l estimateur de θ par la méthode des momets est θ = ϕ 1 ( X ). De la même maière, o estime la variace de la loi des X i par la variace empirique de l échatillo S 2 = 1 ( Xi X ) 2 1 = Xi 2 X. 2 Plus gééralemet, si la loi des X i a deux paramètres θ 1 et θ 2 tels que (E(X), V ar(x)) = ϕ (θ 1, θ 2 ), où ϕ est ue foctio iversible, alors les estimateurs de θ 1 et θ 2 par la méthode des momets sot ( θ1, θ ) 2 = ϕ ( 1 X, S) 2. Ce pricipe peut [ aturellemet se gééraliser aux momets de tous ordres, cetrés ou o cetrés : E (X E(X)) k] et E ( X k), k Exemples Exemple 1 : loi de Beroulli Si X 1,..., X sot idépedates et de même loi de Beroulli B(p), E(X) = p. Doc l estimateur de p par la méthode des momets est p = X. Cet estimateur est autre que la proportio de 1 das l échatillo. O retrouve doc le pricipe d estimatio d ue probabilité par ue proportio. Exemple 2 : loi expoetielle Si X 1,..., X sot idépedates et de même loi expoetielle exp(λ), E(X) = 1/λ. Doc l estimateur de λ par la méthode des momets est λ = 1/ X. Exemple 3 : loi ormale Si X 1,..., X sot idépedates et de même loi ormale N (m, σ 2 ), E(X) = m et V ar(x) = σ 2, doc les estimateurs de m et σ 2 par la méthode des momets sot m = X et σ 2 = S 2. Exemple 4 : loi gamma Si X 1,..., X sot idépedates et de même loi gamma G(a, λ), E(X) = a/λ et V ar(x) = a/λ 2. O e déduit facilemet que : λ = Doc les EMM de a et λ sot : E(X) V ar(x) et a = [E(X)]2 V ar(x) λ = X S 2 et ã = X 2 S 2 Remarque : L usage veut que la même otatio θ désige à la fois l estimateur de θ (variable aléatoire) et l estimatio correspodate (réalisatio de cette variable aléatoire sur l expériece cosidérée). Par exemple, das le cas de la loi expoetielle, λ désige aussi bie 1/ X que 1/ x. Il faudra predre garde à e pas cofodre les deux otios.
38 38 Chapitre 3 - Estimatio poctuelle La méthode du maximum de vraisemblace La foctio de vraisemblace Défiitio 7 Quad les observatios sot toutes discrètes ou toutes cotiues, o appelle foctio de vraisemblace (ou plus simplemet vraisemblace) pour l échatillo x 1,..., x, la foctio du paramètre θ : P (X 1 = x 1,..., X = x ; θ) si les X i sot discrètes L(θ; x 1,..., x ) = f X1,...,X (x 1,..., x ; θ) si les X i sot cotiues Das tous les exemples que ous traiteros ici, les X i sot idépedates et de même loi. Das ce cas, la foctio de vraisemblace s écrit : P (X i = x i ; θ) = P (X = x i ; θ) si les X i sot discrètes L(θ; x 1,..., x ) = f Xi (x i ; θ) = f(x i ; θ) si les X i sot cotiues Remarque : La probabilité et la desité utilisées das cette défiitio sot des foctios des observatios x 1,..., x, dépedat du paramètre θ. A l iverse, la foctio de vraisemblace est cosidérée comme ue foctio de θ dépedat des observatios x 1,..., x, ce qui permet, par exemple, de dériver cette foctio par rapport à θ Exemple itroductif Das cet exemple, = 1. O cosidère que l o sait que X 1 est de loi biomiale B(15, p), avec p icou. O observe x 1 = 5 et o cherche à estimer p. La foctio de vraisemblace est : L(p; 5) = P (X 1 = 5; p) = C 5 15 p 5 (1 p) 15 5 C est la probabilité d avoir observé u 5 quad la valeur du paramètre est p. Calculoslà pour quelques valeurs de p. p L(p; 5) O tire de cette table que quad p = 0.8, c est-à-dire quad X 1 est de loi B(15, 0.8), il y a qu ue chace sur d observer x 1 = 5. E revache, il y a 21% de chaces d observer u 5 quad p = 0.3. Il est doc beaucoup plus vraisemblable que p soit égal à 0.3 plutôt qu à 0.8. E suivat ce raisoemet, o aboutit à dire que la valeur la plus vraisemblable de p est celle pour laquelle la probabilité d observer u 5 est maximale. C est doc la valeur de p qui maximise la foctio de vraisemblace.
39 3.2 Méthodes d estimatio 39 Pour la calculer, o peut auler la dérivée de la vraisemblace. Mais o remarque que la vraisemblace est u produit. Comme il est plus commode de maximiser (ou de dériver) ue somme qu u produit, o utilise le fait que la valeur qui red maximale ue foctio red aussi maximal so logarithme. O va doc plutôt maximiser le logarithme de la foctio de vraisemblace, qu o appelle la log-vraisemblace. Pour otre exemple, la log-vraisemblace vaut : l L(p; x 1 ) = l C x x 1 l p + (15 x 1 ) l(1 p) Sa dérivée est : p l L(p; x 1) = x 1 p 15 x 1 1 p = x 1 15p p(1 p) qui s aule pour p = x 1 15 = 5 15 = 1 3. Doc la valeur la plus vraisemblable de p est 1 3. La vraisemblace maximale est L( 1 ; 5) = 21.4% L estimateur de maximum de vraisemblace (EMV) E suivat le raisoemet précédet, pour quelcoque, il est logique de dire que la valeur la plus vraisemblable de θ est la valeur pour laquelle la probabilité d observer x 1,..., x est la plus forte possible. Cela reviet à faire comme si c était l évetualité la plus probable qui s était produite au cours de l expériece. Défiitio 8 L estimatio de maximum de vraisemblace de θ est la valeur ˆθ de θ qui red maximale la foctio de vraisemblace L(θ; x 1,..., x ). L estimateur de maximum de vraisemblace (EMV) de θ est la variable aléatoire correspodate. Comme das l exemple, das la plupart des cas, la foctio de vraisemblace s exprime comme u produit. Doc ˆθ sera e gééral calculé e maximisat la log-vraisemblace : ˆθ = arg max l L(θ; x 1,..., x ) θ Quad θ = (θ 1,..., θ d ) IR d et que toutes les dérivées partielles ci-dessous existet, ˆθ est solutio du système d équatios appelées équatios de vraisemblace : j {1,..., d}, θ j l L(θ; x 1,..., x ) = 0 A priori, ue solutio de ce système d équatios pourrait être u miimum de la vraisemblace. Mais o peut motrer que la ature d ue foctio de vraisemblace fait que c est bie u maximum que l o obtiet. Il est fréquet que le système des équatios de vraisemblace ait pas de solutio explicite. Das ce cas, o le résoud par des méthodes umériques, comme la méthode de Newto-Raphso. E R, la maximisatio umérique peut se faire à l aide de la commade optim.
40 40 Chapitre 3 - Estimatio poctuelle Exemples Exemple 1 : loi de Beroulli Si les X i sot de loi B(p), o a : { p si xi = 1 P (X i = x i ; p) = 1 p si x i = 0 = px i (1 p) 1 x i 1 Doc la foctio de vraisemblace est : L(p; x 1,..., x ) = P (X i = x i ; p) = ( D où l L(p; x 1,..., x ) = p x i (1 p) 1 x x i i = p (1 p) ) x i l p + ( x i ) l(1 p). (1 x i ) Alors x i x i x i p p l L(p; x 1,..., x ) = =, qui s aule pour p = p 1 p p(1 p) x i = x. Par coséquet, l EMV de p est ˆp = X. Exemple 2 : loi expoetielle Si les X i sot de loi exp(λ), la foctio de vraisemblace est : L(λ; x 1,..., x ) = f Xi (x i ; λ) = λe λx i = λ e λ x i D où l L(λ; x 1,..., x ) = l λ λ x i. Alors λ l L(λ; x 1,..., x ) = λ Par coséquet, l EMV de λ est ˆλ = 1 X. x i, qui s aule pour λ = = 1 x. x i Exemple 3 : loi ormale Si les X i sot de loi N (m, σ 2 ), la foctio de vraisemblace est : L(m, σ 2 ; x 1,..., x ) = = ( f Xi xi ; m, σ 2) = 1 1 ( ) e 2σ 2 σ 2π (x i m) 2 (x i m) 2 1 σ 2π e 2σ 2
41 3.2 Méthodes d estimatio 41 D où l L(m, σ 2 ; x 1,..., x ) = 2 l σ2 2 l 2π 1 2σ 2 (x i m) 2. O doit auler les dérivées partielles de ce logarithme par rapport à m et σ 2. O a : m l L(m, σ2 ; x 1,..., x ) = 1 2(x 2σ 2 i m) = 1 ( ) x σ 2 i m, qui s aule pour m = 1 x i = x. σ l L(m, 2 σ2 ; x 1,..., x ) = 2σ σ 4 1 (x i m) 2. (x i m) 2, qui s aule pour σ 2 = ˆm et ˆσ 2 sot les valeurs de m et σ 2 qui vérifiet les deux coditios e même temps. O a doc ˆm = X et ˆσ 2 = 1 ( Xi X ) 2 = S 2. Exemple 4 : loi gamma Si les X i sot de loi gamma G(a, λ), la foctio de vraisemblace est : L(a, λ; x 1,..., x ) = f Xi (x i ; a, λ) = λ a Γ(a) e λx i x i a 1 = λa [Γ(a)] e λ x i D où l L(a, λ; x 1,..., x ) = a l λ l Γ(a) λ x i + (a 1) l x i. a 1 x i O doit auler les dérivées partielles de ce logarithme par rapport à a et λ. O a : λ l L(a, λ; x 1,..., x ) = a λ a l L(a, λ; x 1,..., x ) = l λ Γ (a) Γ(a) + x i qui s aule pour λ = l x i. a = ā. x x i E remplaçat λ par a/ x, o obtiet que â est solutio de l équatio implicite : l a l X Γ (a) Γ(a) + l X i = 0 Il y a pas d expressio explicite de â. Cette équatio est à résoudre par des méthodes umériques. Ue fois â détermié, o e déduit ˆλ = â / X. Remarque 1 : Das les trois premiers exemples, la méthode des momets et la méthode du maximum de vraisemblace doet les mêmes résultats. Ce est le cas que pour quelques lois de probabilité parmi les plus élémetaires. E fait, das la plupart des cas, les deux méthodes fourisset des estimateurs différets. C est le cas de la loi gamma. O a deux estimateurs différets pour chaque paramètre. O doit doc se demader quel est le meilleur d etre eux. Cela amèe à se poser la
42 42 Chapitre 3 - Estimatio poctuelle questio de la qualité et de l optimalité d u estimateur, ce qui fait l objet de la sectio suivate. Remarque 2 : O pourrait croire au vu de ces exemples que le calcul des estimateurs des momets est beaucoup plus simple que celui des estimateurs de maximum de vraisemblace. Mais ce est pas vrai e gééral. 3.3 Qualité d u estimateur E toute gééralité, θ peut-être u paramètre à plusieurs dimesios, mais o supposera das toute cette sectio et das la suivate que θ est u réel. Cela sigifie par exemple que, quad X est de loi ormale N (m, σ 2 ), o s itéressera séparémet à la qualité des estimateurs de m et de σ 2. Les estimateurs T cosidérés ici serot doc des variables aléatoires réelles. Pour θ IR d, d 2, toutes les otios de ces sectios sot gééralisables, mais la complexité des résultats augmete otablemet. Par exemple, la otio de variace est remplacée par celle de matrice de covariace Estimateur sas biais et de variace miimale (ESBVM) U estimateur T de θ sera u bo estimateur s il est suffisammet proche, e u certai ses, de θ. Il faut doc défiir ue mesure de l écart etre θ et T. O appelle cette mesure le risque de l estimateur. O a itérêt à ce que le risque d u estimateur soit le plus petit possible. Par exemple, les risques T θ, T θ, (T θ) 2 exprimet bie u écart etre T et θ. Mais comme il est plus facile d utiliser des quatités détermiistes que des quatités aléatoires, o s itéresse e priorité aux espéraces des quatités précédetes. E particulier : Défiitio 9 Le biais de T est E(T ) θ. Le risque quadratique ou erreur quadratique moyee est : EQM(T ) = E [ (T θ) 2] Das le cas du biais, le risque peut être ul : Défiitio 10 U estimateur T de θ est sas biais si et seulemet si E(T ) = θ. Il est biaisé si et seulemet si E(T ) θ. Le biais mesure ue erreur systématique d estimatio de θ par T. Par exemple, si E(T ) θ < 0, cela sigifie que T aura tedace à sous-estimer θ. L erreur quadratique moyee s écrit : EQM(T ) = E [ (T θ) 2] = E [ (T E(T ) + E(T ) θ) 2]
43 3.3 Qualité d u estimateur 43 = E [ (T E(T )) 2] + 2E [T E(T )] E [E(T ) θ] + E [ (E(T ) θ) 2] = V ar(t ) + [E(T ) θ] 2 = Variace de l estimateur + carré de so biais Si T est u estimateur sas biais, EQM(T ) = V ar(t ). O a doc itérêt à ce qu u estimateur soit sas biais et de faible variace. Par ailleurs, o e déduit immédiatemet que de deux estimateurs sas biais, le meilleur est celui qui a la plus petite variace. La variace d u estimateur mesure sa variabilité. Si l estimateur est sas biais, cette variabilité est autour de θ. Si o veut estimer correctemet θ, il e faut pas que cette variabilité soit trop forte. E pratique, si o observe plusieurs jeux de doées similaires, o obtiet ue estimatio de θ pour chacu d etre eux. Alors si l estimateur est de faible variace, ces estimatios serot toutes proches les ues des autres, et s il est sas biais leur moyee sera très proche de θ. Das l exemple des iveaux de bruit vu e TD, o a estimé le iveau de bruit moye m par la moyee empirique des = 20 mesures effectuées x = Si o fait 20 autres mesures, o obtiedra ue ouvelle valeur de cette moyee. Ces deux valeurs sot deux estimatios différetes de l espérace m de la loi, deux réalisatios de la même variable aléatoire X. X est l estimateur de m. Si o répète plusieurs fois cette expériece, les différetes moyees obteues doivet être toutes proches les ues des autres si l estimateur est de faible variace. Si l estimateur est sas biais, ces valeurs serot cetrées sur le vraie valeur (icoue) de m. Efi, il est logique de s attedre à ce que, plus la taille des doées augmete, plus o a d iformatio sur le phéomèe aléatoire observé, doc meilleure sera l estimatio. E théorie, avec ue observatio ifiie, o devrait pouvoir estimer θ sas aucue erreur. O peut traduire cette affirmatio par le fait que le risque de l estimateur T doit tedre vers 0 quad la taille de l échatillo ted vers l ifii. Cela reviet à dire que l estimateur T doit coverger, e u certai ses, vers θ. Il s agit e fait d étudier la covergece de la suite de variables aléatoires {T } 1 vers la costate θ. O sait qu il existe plusieurs types de covergece de suites de variables aléatoires. O peut étudier la covergece presque sûre ou la covergece e probabilité, mais o s itéresse e gééral à la covergece e moyee quadratique (ou covergece das L 2 ). Défiitio 11 L estimateur T coverge e moyee quadratique vers θ si et seulemet si so erreur quadratique moyee ted vers 0 quad ted vers l ifii : T MQ θ lim E [ (T θ) 2] = 0 Si T est sas biais, il sera coverget e moyee quadratique si et seulemet si sa variace ted vers 0 quad ted vers l ifii. Fialemet, o cosidèrera que le meilleur estimateur possible de θ est u estimateur sas biais et de variace miimale (ESBVM). U tel estimateur existe pas forcémet.
44 44 Chapitre 3 - Estimatio poctuelle Il existe des méthodes pour détermier directemet u ESBVM das certais cas. Elles sot basées sur des techiques sophistiquées (exhaustivité, complétio), qui serot abordées das le cours de Statistique Iféretielle Avacée. Das le cadre de ce cours, o pourra parfois motrer facilemet qu u estimateur est u ESBVM e utilisat la quatité d iformatio de Fisher, défiie das la sectio suivate. Remarque 1 : U estimateur biaisé peut être itéressat si so erreur quadratique moyee est iférieure à la variace d u estimateur sas biais. Remarque 2 : Ce est pas parce que T est u bo estimateur de θ que ϕ(t ) est u bo estimateur de ϕ(θ). Par exemple, il est fréquet d avoir E(T ) = θ et E [ϕ(t )] ϕ(θ) Quatité d iformatio, efficacité d u estimateur La quatité d iformatio de Fisher est u outil précieux pour évaluer la qualité d u estimateur. Elle est défiie que sous certaies coditios de régularité. Ces coditios sot trop fastidieuses pour être écrites ici, mais sot vérifiées par la plupart des lois de probabilité usuelles. Défiitio 12 Pour θ IR, si la loi des observatios vérifie les coditios de régularité, o appelle quatité d iformatio (de Fisher) sur θ apportée par l échatillo x 1,..., x, la quatité : [ ] I (θ) = V ar θ l L(θ; X 1,..., X ) [ ] O peut motrer que E θ l L(θ; X 1,..., X ) = 0. Par coséquet, la quatité d iformatio peut aussi s écrire sous la forme : [ ( ) ] 2 I (θ) = E θ l L(θ; X 1,..., X ) O motre que l o a égalemet : [ ] 2 I (θ) = E θ l L(θ; X 1,..., X 2 ) Cette écriture peut s avérer pratique pour les calculs. L itérêt de la quatité d iformatio de Fisher est qu elle fourit ue bore iférieure pour la variace de importe quel estimateur sas biais de θ. Ce résultat s exprime sous la forme de la propriété suivate : Propriété 1 Iégalité de Fréchet-Darmois-Cramer-Rao (FDCR) : Si la loi des observatios vérifie les coditios de régularité, alors pour tout estimateur T de θ, o a : [ ] 2 θ E(T ) V ar(t ) I (θ)
45 3.3 Qualité d u estimateur 45 Ce résultat est particulièremet itéressat pour les estimateurs sas biais. E effet, si T est u estimateur sas biais de θ, alors E(T ) = θ, doc V ar(t ) 1 I (θ). 1 La quatité est appelée la bore de Cramer-Rao. L iégalité FDCR dit doc I (θ) que la variace d u estimateur sas biais quelcoque de θ est forcémet supérieure à cette bore. Défiitio 13 O appelle efficacité d u estimateur T la quatité : Eff(T ) = [ ] 2 θ E(T ) I (θ)v ar (T ) O a 0 Eff(T ) 1. T est dit u estimateur efficace si et seulemet si Eff(T ) = 1. T est dit asymptotiquemet efficace si et seulemet si lim Eff(T ) = 1. + Si T est u estimateur sas biais de θ, Eff(T ) = 1 I (θ)v ar(t ). Si u estimateur sas biais est efficace, sa variace est égale à la bore de Cramer- Rao, doc c est forcémet u ESBVM. Il est possible qu il existe pas d estimateur efficace de θ. Alors, s il existe u ESBVM de θ, sa variace est strictemet supérieure à la bore de Cramer-Rao. Si la valeur de la bore de Cramer-Rao est très grade, il est impossible d estimer correctemet θ car tous les estimateurs sas biais possibles aurot ue forte variace. O peut doc juger de la qualité d u estimateur sas biais e calculat so efficacité. La défiitio de la quatité d iformatio ci-dessus est ue défiitio géérale, applicable quelle que soit la ature des variables aléatoires observées. Quad celles-ci sot idépedates et de même loi, il est facile de voir que I (θ) = I 1 (θ). Par exemple, pour des variables aléatoires cotiues de desité f : [ ] [ ] I (θ) = V ar θ l L(θ; X 1,..., X ) = V ar θ l f(x i ; θ) (3.1) [ ] [ ] = V ar l f(x i ; θ) = V ar θ θ l f(x i; θ) (3.2) [ ] = V ar θ l f(x i; θ) = I 1 (θ) (3.3) O peut remarquer que le calcul des dérivées de la foctio de vraisemblace est utile à la fois pour la détermiatio de l estimateur de maximum de vraisemblace et pour le calcul de la quatité d iformatio.
46 46 Chapitre 3 - Estimatio poctuelle 3.4 Propriétés des EMM et des EMV Propriétés des estimateurs des momets Si θ = E(X), alors l EMM de θ est θ = X. La justificatio de cette méthode est la loi des grads ombres, qui dit que X coverge presque sûremet vers E(X). Doc, si θ = E(X), X est u estimateur de θ coverget presque sûremet. Autremet dit, si o a beaucoup d observatios, o peut estimer ue espérace par ue moyee empirique. O peut e fait motrer facilemet que X est u bo estimateur de θ = E(X), sas utiliser la loi des grads ombres : E( X ) = E [ 1 ] 1 X i = E(X i ) = 1 θ = θ Doc X est u estimateur sas biais de θ = E(X). La variace de X est : V ar( X ) = V ar [ 1 X i ] = 1 2 V ar(x i ) = V ar(x) car les X i sot idépedates, doc la variace de leur somme est égale à la somme de leurs variaces, qui sot toutes égales à V ar(x). V ar( X ) ted vers 0 quad ted vers l ifii. Par coséquet : Propriété 2 La moyee empirique X est u estimateur sas biais et coverget e moyee quadratique de E(X). O cosidère maiteat l estimatio de la variace de la loi des X i par la variace empirique de l échatillo S 2 = 1 ( Xi X ) 2 1 = Xi 2 X. 2 Détermios le biais de cet estimateur. E(S) 2 = E [ 1 Xi 2 X ] 2 1 = E(Xi 2 ) E( X ) 2 = E(X 2 ) E( X ) 2 = V ar(x) + E(X) 2 V ar( X ) E( X ) 2 = V ar(x) + E(X) 2 V ar(x) = 1 V ar(x) V ar(x) E(X) 2 = ( 1 1 ) V ar(x) Doc, cotrairemet à ce qu o pourrait croire, la variace empirique S 2 est pas u estimateur sas biais de V ar(x). ( Cet estimateur ) est qu asymptotiquemet sas biais. E revache, o voit que E 1 S2 = 1 E(S2 ) = V ar(x). O pose doc S 2 = 1 S2 = 1 (X i 1 X ) 2. S 2 est appelée variace estimée de l échatillo. Le résultat précédet motre que c est u estimateur sas biais de V ar(x).
47 3.4 Propriétés des EMM et des EMV 47 Par ailleurs, o motre que V ar(s 2 ) = 1 ( 1) [ ( 1)E [ (X E(X)) 4 ] ( 3)V ar(x) 2] qui ted vers 0 quad ted vers l ifii. Par coséquet : Propriété 3 La variace estimée S 2 = 1 (X i 1 X ) 2 est u estimateur sas biais et coverget e moyee quadratique de V ar(x). C est pour cela que la commade var(x) e R doe la variace estimée, et o pas la variace empirique de l échatillo x. O peut motrer égalemet que S 2 et S 2 coverget toutes les deux presque sûremet vers V ar(x). Remarque 1 : O a pas de résultat gééral sur la qualité de S comme estimateur de l écart-type de la loi, σ(x) = V ar(x). A priori, i S i S e sot des estimateurs sas biais de σ(x). Remarque 2 : Cov ( ) X, S 2 1 = E [ (X E(X)) 3], doc X et S 2 sot corrélées mais asymptotiquemet o corrélées. O sait que l idépedace etraie la o-corrélatio, mais que la réciproque est fausse. O motre e fait que la moyee et la variace empiriques e sot idépedates que si les observatios sot de loi ormale. Remarque 3 : Le simple exemple de la variace motre qu u estimateur des momets est pas forcémet sas biais. O peut motrer qu u EMM est asymptotiquemet sas biais et coverget presque sûremet Propriétés des estimateurs de maximum de vraisemblace U estimateur de maximum de vraisemblace est pas forcémet uique (la vraisemblace peut avoir plusieurs maxima), i sas biais, i de variace miimale, i efficace. Mais il possède d excelletes propriétés asymptotiques, pour peu que la loi des observatios vérifie les coditios de régularité déjà évoquées pour la quatité d iformatio. Propriété 4 Si les X i sot idépedats et de même loi dépedat d u paramètre réel θ, cette loi vérifiat les coditios de régularité, o a : ˆθ coverge presque sûremet vers θ. L I (θ)(ˆθ θ) ( N (0, 1), ) ce qui sigifie que, quad est grad, ˆθ est approximativemet de loi N θ,. O e déduit que 1 I (θ) ˆθ est asymptotiquemet gaussie, sas biais et efficace. Cette propriété peut aussi s écrire : ( ) L 1 (ˆθ θ) N 0, I 1 (θ)
48 48 Chapitre 3 - Estimatio poctuelle Si ˆθ est l EMV de θ, alors ϕ(ˆθ ) est l EMV de ϕ(θ). De plus, si ϕ est dérivable, o a : [ ] ) L ϕ(ˆθ ) ϕ(θ) N (0, ϕ (θ) 2 I 1 (θ) Ce résultat est cou sous le om de méthode ) delta. Quad est grad, ϕ(ˆθ ) est doc approximativemet de loi N (ϕ(θ), ϕ (θ) 2. I (θ) E gééral, l EMV est meilleur que l EMM au ses où V ar(ˆθ ) V ar( θ ). C est au mois vrai asymptotiquemet. Le fait que l EMV soit asymptotiquemet sas biais et efficace fait que, si o a beaucoup de doées, o est pratiquemet certais que la méthode du maximum de vraisemblace est la meilleure méthode d estimatio possible. C est pourquoi cette méthode est cosidérée comme globalemet la meilleure et est utilisée de préférece à toute autre méthode, y compris celle des momets Exemples Exemple 1 : loi de Beroulli L EMM et EMV de p est ˆp = X. O sait que X est u estimateur sas biais de E(X). Or l espérace de la loi B(p) est p, doc ˆp est u estimateur sas biais de p. O sait aussi que V ar( X ) = V ar(x) p(1 p) =, doc ˆp est coverget e moyee quadratique. La quatité d iformatio est : ( ) [ ] I (p) = V ar p l L(p; X X i p V ar X i 1,..., X ) = V ar p(1 p) = p 2 (1 p) 2 = = p(1 p) p 2 (1 p) car X 2 i est de loi biomiale B(, p) p(1 p) O a doc V ar(ˆp ) = 1 I (p), ce qui prouve que ˆp est u estimateur efficace. Par coséquet, ˆp est u ESBVM de p. Exemple 2 : loi ormale Les EMM et EMV de m et σ 2 sot m = X et σ 2 = S. 2 O sait qu il vaut mieux estimer σ 2 par S 2. Il est facile de motrer que X est u ESBVM de m. S 2 est égalemet u ESBVM de σ 2, mais la démostratio est mois immédiate.
49 3.4 Propriétés des EMM et des EMV 49 L EMV de σ = σ 2 est S = S. 2 S 2 est u ESBVM de σ 2, mais i S i S e sot des ESBVM de σ (ce e sot même pas des estimateurs sas biais). O motre qu e 1 Γ ( ) 1 fait, u ESBVM de σ est 2 2 Γ ( 2 ) S.
50 50 Chapitre 3 - Estimatio poctuelle
51 Chapitre 4 Itervalles de cofiace 4.1 Problématique et défiitio Jusqu à préset, o a estimé u paramètre θ par ue uique valeur ˆθ (estimatio poctuelle). Si l estimateur ˆθ possède de boes propriétés (sas biais, variace miimale, efficacité), o peut s attedre à ce que ˆθ soit proche de la vraie valeur de θ. Cepedat, il est très peu probable que ˆθ soit exactemet égal à θ. E particulier, si la loi de ˆθ est cotiue, o est certais que P (ˆθ = θ) = 0. Das l exemple des particules vu e TD, o a estimé b par ˆb = 453. Mais il est bie évidemmet possible que b ( le vrai ) soit égal à 450 ou 455. Par coséquet, plutôt que d estimer θ par la seule valeur ˆθ, il semble raisoable de proposer u esemble de valeurs vraisemblables pour θ, qu il est logique de predre proches de ˆθ. Cet esemble de valeurs est appelé estimatio esembliste ou régio de cofiace. Dire que toutes les valeurs de cet esemble sot vraisemblables pour θ, c est dire qu il y a ue forte probabilité que θ appartiee à cet esemble. O supposera das ce chapitre que θ IR, doc la régio de cofiace sera u itervalle (o parle parfois de fourchette ). Quad θ IR d, avec d 2, la régio de cofiace est e gééral u ellipsoïde. Défiitio 14 U itervalle de cofiace de seuil (ou iveau de sigificatio) α [0, 1] pour u paramètre θ, est u itervalle aléatoire I tel que P (θ I) = 1 α. α est la probabilité que le paramètre θ appartiee pas à l itervalle I, c est à dire la probabilité que l o se trompe e affirmat que θ I. C est doc ue probabilité d erreur, qui doit être assez petite. Les valeurs usuelles de α sot 10%, 5%, 1%, etc. Remarque fodametale : Les itervalles de cofiace suscitet souvet des erreurs d iterprétatio et des abus de lagage. La raiso essetielle de ce problème est la suivate. Das l écriture P (θ I), θ est ue gradeur icoue mais o aléatoire. Ce sot les bores de l itervalle I qui sot aléatoires. Posos I = [Z 1, Z 2 ]. Z 1 et Z 2 sot des variables aléatoires. Soiet z 1 et z 2 les réalisatios de Z 1 et Z 2 pour ue expériece doée. À titre idicatif, preos l exemple des particules, pour lequel θ = b. Admettos que z 1 =440 et z 2 = 460. Il est correct de dire ue phrase du type : b a 95% de chaces d être
52 52 Chapitre 4 - Itervalles de cofiace compris etre Z 1 et Z 2, mais il est icorrect de dire : b a 95% de chaces d être compris etre 440 et 460. E effet, das cette derière écriture, il y a rie d aléatoire. b est ou est pas das l itervalle [440, 460]. La probabilité que b soit compris etre 440 et 460 est doc 0 ou 1, mais pas 95%. E fait, si o recommece 100 fois l expériece, o aura 100 réalisatios du couple (Z 1, Z 2 ), et doc 100 itervalles de cofiace différets. E moyee, b sera das 95 de ces itervalles. Par coséquet, il vaut mieux dire : o a ue cofiace de 95% das le fait que b soit compris etre 440 et 460. Le problème à régler est de trouver u procédé pour détermier u itervalle de cofiace pour u paramètre θ. Il semble logique de proposer u itervalle de cofiace cetré sur u estimateur performat ˆθ, c est-à-dire de la forme I = [ˆθ ε, ˆθ + ε]. Il reste alors à détermier ε de sorte que : P (θ I) = P (ˆθ ε θ ˆθ + ε) = P ( ˆθ θ ε) = 1 α Mais cette démarche e va pas toujours aboutir. E effet, α est u réel fixé à l avace qui e doit pas dépedre de θ. ε e doit pas o plus dépedre de θ pour que l itervalle soit utilisable. Par coséquet, o e peut détermier u ε vérifiat l égalité ci-dessus que si la loi de probabilité de ˆθ θ e déped pas de θ, ce qui est pas toujours le cas. Si cet itervalle de cofiace est petit, l esemble des valeurs vraisemblables pour θ est resserré autour de ˆθ. Si l itervalle de cofiace est grad, des valeurs vraisemblables pour θ peuvet être éloigées de ˆθ. Doc u itervalle de cofiace costruit à partir d u estimateur permet de mesurer la précisio de cet estimateur. Pour trouver u itervalle de cofiace, il existe plusieurs méthodes. La plus efficace cosiste à chercher ue foctio pivotale, c est à dire ue variable aléatoire foctio à la fois du paramètre θ et des observatios X 1,..., X, dot la loi de probabilité e dépede pas de θ. Das la suite de ce chapitre, ous allos illustrer cette méthodologie par des exemples, e détermiat des itervalles de cofiace pour : la moyee et la variace das u échatillo de loi ormale ; ue proportio, c est-à-dire le paramètre d u échatillo de loi de Beroulli. 4.2 Itervalles de cofiace pour les paramètres de la loi ormale Itervalle de cofiace pour la moyee Si X 1,..., X sot idépedates et de même loi ormale N (m, σ 2 ), o sait que l ESBVM de m est X. La première idée est doc de chercher u itervalle de cofiace pour m de la forme [ X ε, X + ε ]. Coformémet à ce qui précède, le problème reviet, pour α fixé, à chercher ε tel que P ( X m ε ) = 1 α. Les propriétés élémetaires de la loi ormale permettet d établir que X i est de
53 4.2 Itervalles de cofiace pour les paramètres de la loi ormale 53 ) loi N (m, σ 2 ) et que X est de loi N (m, σ2. Par coséquet, U = X m σ2 / = X m est de loi N (0, 1). σ ( ) ( ) Alors P ( X ε ε m ε) = P U = 1 P U > = 1 α. Or la σ σ table 2 de la loi ormale doe la valeur u α telle que P ( U > u α ) = α. Par coséquet, ε = u α, doc ε = σ u α. D où le résultat : σ Propriété 5 U itervalle de cofiace de seuil α pour le paramètre m de la loi N (m, σ 2 ) est : [ X σ u α, X + σ u α ] Le problème est que cet itervalle est utilisable que si o coaît la valeur de σ. Or, das la pratique, o e coaît jamais les vraies valeurs des paramètres. Ue idée aturelle est alors de remplacer σ par u estimateur, par exemple S. Mais si o fait cela, P 1 α car X m S ( m [ ]) X S u α, X + S u α = P [ est pas de loi N (0, 1). Doc pas u itervalle de cofiace de seuil α pour m. ( ) X m S u α ] X S u α, X + S u α est O peut cepedat résoudre le problème e utilisat u résultat issu du théorème de Fisher (voir aexe de probabilités) : X m = 1 X m est de loi de Studet S S St( 1). O peut alors écrire P ( X m ε ) ( = P Y ε ) ( = 1 P Y > ε ), où Y est ue variable aléatoire de loi St( 1). Or la table de la loi de Studet doe la valeur t 1,α telle que P ( Y > t 1,α ) = α. Par coséquet, ε = t S 1,α, doc ε = S t 1,α. D où le résultat : S S Propriété 6 U itervalle de cofiace de seuil α pour le paramètre m de la loi N (m, σ 2 ) est : [ ] [ X S t 1,α, X + S t 1,α = X S t 1,α, X + S ] t 1,α 1 1 Das l exemple des iveaux de bruit, o a = 20, x = 64.2 et s = Pour α = 5%, la table de la loi de Studet doe t 19,0.05 = O e déduit qu u itervalle de cofiace de seuil 5% pour le iveau de bruit moye est [61.8, 66.7].
54 54 Chapitre 4 - Itervalles de cofiace Iterprétatio : La meilleure estimatio possible du iveau de bruit moye est 64.2 db. De plus, o a ue cofiace de 95% das le fait que ce iveau de bruit moye est compris etre 61.8 db et 66.7 db. E R, u α est obteu par la commade qorm(1-alpha/2) et t,α par la commade qt(1-alpha/2,). Pour obteir l itervalle de cofiace, o procède doc de la faço suivate. > bruit <- c(54.8, 55.4, 57.7, 59.6, 60.1, 61.2, 62.0, 63.1, 63.5, 64.2, 65.2, 65.4, 65.9, 66.0, 67.6, 68.1, 69.5, 70.6, 71.5, 73.4) > <- legth(bruit) > alpha < > mea(bruit)-sd(bruit)*qt(1-alpha/2,-1)/sqrt() [1] > mea(bruit)+sd(bruit)*qt(1-alpha/2,-1)/sqrt() [1] Pour ue raiso qui apparaitra qu au chapitre suivat, o peut aussi avoir directemet l itervalle de cofiace à l aide de la commade t.test. Das la répose à cette commade, l itervalle est doé sous le om de 95 percet cofidece iterval. > t.test(bruit, cof.level=0.95) Oe Sample t-test data: bruit t = , df = 19, p-value < 2.2e-16 alterative hypothesis: true mea is ot equal to 0 95 percet cofidece iterval: sample estimates: mea of x Remarque 1 : Rie oblige à predre u itervalle de cofiace du type [ X ε, X + ε ] (itervalle de cofiace bilatéral). Tout itervalle I[ tel que P (m I) = 1 α [ coviet. Par exemple, les itervalles de cofiace uilatéraux X S t 1,2α, + et ], X + ] S t 1,2α sot aussi des itervalles de cofiace de seuil α pour m, qui fourisset des bores iférieure et supérieure pour l estimatio de m. Pour l exemple : > mea(bruit)+sd(bruit)*qt(1-alpha,-1)/sqrt() [1] sigifie qu o a ue cofiace de 95 % das le fait que le iveau de bruit moye est iférieur à 66.2 db. Remarque 2 : La largeur de l itervalle de cofiace est 2 S t 1,α. La table de la loi
55 4.2 Itervalles de cofiace pour les paramètres de la loi ormale 55 de Studet permet de costater que c est ue foctio décroissate e comme e α, ce qui est logique. E effet, plus o a d observatios, plus o a d iformatios, doc plus l icertitude sur le paramètre dimiue et plus l itervalle de cofiace est étroit. O retrouve le fait qu u itervalle de cofiace petit sigifie qu o estime le paramètre avec précisio. D autre part, plus α est petit, mois o veut predre de risques de se tromper e disat que m est das l itervalle, doc plus o aura tedace à predre des itervalles larges. À la limite, o e pred aucu risque (α = 0) e proposat comme itervalle de cofiace IR tout etier! E pratique, u itervalle de cofiace trop large a aucu itérêt (ça apporte pas grad chose d avoir ue forte cofiace das le fait que m est compris etre 1 et 10000), doc il faut parfois accepter u risque d erreur relativemet fort pour obteir u itervalle de cofiace utilisable. Remarque 3 : La variable aléatoire X m S est ue foctio des observatios X 1,..., X et du paramètre m pour lequel o recherche u itervalle de cofiace, dot la loi de probabilité e déped pas des paramètres du modèle m et σ 2. C est ce qu o a appelé ue foctio pivotale et c est ce que ous utiliseros à partir de maiteat pour costruire des itervalles de cofiace Itervalle de cofiace pour la variace Coformémet à ce qui précède, o recherche ue foctio pivotale, c est à dire ue foctio des observatios X 1,..., X et de σ 2, dot la loi de probabilité e déped i de m i de σ 2. Ue telle foctio est doée par le théorème de Fisher : S2 σ 2 O a doc, quels que soiet les réels a et b, 0 < a < b : est de loi χ 2 1. P ( a S2 σ 2 ) b ( ) S 2 = P σ 2 S2 d ue part b a = F χ 2 1 (b) F χ 2 1 (a) d autre part. Il y a ue ifiité de faços possibles de choisir a et b de sorte que cette probabilité soit égale à 1 α. La faço la plus usuelle de procéder est d équilibrer les risques, c est-à-dire de predre a et b tels que F χ 2 1 (b) = 1 α 2 et F χ 2 1 (a) = α 2. La table de la loi du χ 2 doe la valeur z,α telle que, quad Z est ue variable aléatoire de loi χ 2, alors P (Z > z,α ) = 1 F χ 2 (z,α ) = α. ( ) S 2 Alors, pour b = z 1,α/2 et a = z 1,1 α/2, o a bie P σ 2 S2 = 1 α. b a D où le résultat : Propriété 7 U itervalle de cofiace de seuil α pour le paramètre σ 2 de la loi N (m, σ 2 ) est : [ ] [ ] S 2 S 2 ( 1)S 2 ( 1)S 2, =, z 1,α/2 z 1,1 α/2 z 1,α/2 z 1,1 α/2
56 56 Chapitre 4 - Itervalles de cofiace Das l exemple des iveaux de bruit, o a = 20 et s 2 = Pour α = 5%, o obtiet z 19,0.025 = et z 19,0.975 = O e déduit qu u itervalle de cofiace de seuil 5% pour la variace du iveau de bruit est [15.3, 56.6]. O costate que cet itervalle de cofiace est très large : l estimatio de la variace est mois précise que celle de la moyee. E R, z,α est obteu par la commade qchisq(1-alpha,). > (-1)*var(bruit)/qchisq(1-alpha/2,-1) [1] > (-1)*var(bruit)/qchisq(alpha/2,-1) [1] ( a ) Remarque 1 : P (a σ 2 b) = P σ b, doc u itervalle de cofiace de seuil α pour l écart-type σ est : [ ] S, S z 1,α/2 z 1,1 α/2 Remarque 2 : L itervalle de cofiace est de la forme [ε 1 S 2, ε 2 S 2 ] avec ε 1 < 1 et ε 2 > 1 et o pas de la forme [S 2 ε, S 2 + ε]. E fait, si o cherche u itervalle de cofiace pour σ 2 de la forme [S 2 ε, S 2 + ε], la démarche e va pas aboutir, et o e peut pas le savoir à l avace. C est l itérêt des foctios pivotales, qui imposet d elles-mêmes la forme de l itervalle de cofiace. 4.3 Itervalle de cofiace pour ue proportio Le problème cou sous le om d itervalle de cofiace pour ue proportio est e fait le problème de la détermiatio d u itervalle de cofiace pour le paramètre p de la loi de Beroulli, au vu d u échatillo X 1,..., X de cette loi. Il s agit doc de l exemple 1 du chapitre précédet. O a motré que l ESBVM de p est ˆp = X. Nous allos illustrer le problème traité à l aide d u exemple issu du cotexte des sodages. Ue électio oppose deux cadidats A et B. U istitut de sodage iterroge 800 persoes sur leurs itetios de vote. 420 déclaret voter pour A et 380 pour B. Estimer le résultat de l électio, c est estimer le pourcetage p de voix qu obtiedra le cadidat A le jour de l électio. Pour être das le cadre de modélisatio aocé, il faut supposer que les persoes iterrogées ot des votes idépedats et que la probabilité qu ue persoe choisie au hasard vote pour A est p. Notos que cela e sigifie pas qu u électeur vote au hasard, c est le choix d ue persoe das la populatio qui est aléatoire. O pose : { 1 si la i x i = ème persoe iterrogée déclare voter pour A 0 sio Alors X i est bie de loi B(p) et les X i sot idépedates. O remarque qu o e coait pas (heureusemet!) le détail des votes des 800 persoes iterrogées, mais cela
57 4.3 Itervalle de cofiace pour ue proportio 57 est pas écessaire puisque seul le ombre de persoes ayat voté pour A suffit pour estimer p : l ESBVM de p est ˆp = x = 420/800 = 52.5%. L istitut de sodage estime doc que le cadidat A va gager l électio. Pour évaluer l icertitude portat sur cette estimatio, A demade u itervalle de cofiace de seuil 5% pour p. Pour détermier directemet u itervalle de cofiace pour p, il faudrait trouver ue foctio pivotale, c est à dire ue foctio des X i et de p dot la loi e dépede pas de p. O sait que si X 1,..., X sot idépedates et de même loi de Beroulli B(p), alors T = X i = ˆp est de loi biomiale B(, p). Mais la loi biomiale est pas facile à maipuler, doc ce résultat e permet pas d e déduire ue foctio pivotale simple. O motre le résultat suivat : Propriété 8 U itervalle de cofiace exact de seuil α pour p est : T + 1, f 2( T +1),2T,α/2 T T T + 1 f 2( T ),2(T +1),1 α/2 où les f ν1,ν 2,α sot des quatiles de la loi de Fisher-Sedecor. E R, f ν1,ν 2,α est obteu par la commade qf(1-alpha,u1,u2). Quelques us de ces quatiles sot aussi doés das les tables de la loi de Fisher-Sedecor. Si o e dispose pas de logiciel, cet itervalle est pas facile à utiliser car il écessite l emploi de ombreuses tables. C est pourquoi o utilise souvet u itervalle de cofiace approché, basé sur l approximatio de la loi biomiale par la loi ormale. E effet, comme est très grad, o peut appliquer le théorème cetral-limite sur la loi des X i et dire que X E(X) V ar(x) = ˆp p p(1 p) = T p p(1 p) est approximativemet de loi N (0, 1), ce qui fourit la foctio pivotale cherchée. ( ) T p O écrit alors P u α 1 α. Pour e déduire u itervalle de p(1 p) T p cofiace, il suffit d écrire u α sous la forme Z 1 p Z 2. O a : p(1 p) T p (T p)2 u α p(1 p) p(1 p) u2 α p ( ) ( ) 2 + u 2 α p 2T + u 2 T 2 α + 0 Ce triôme e p est toujours positif sauf etre ses racies. Doc ses deux racies sot les bores de l itervalle de cofiace cherché : T + u2 α u 2 u 2 α α 4 + T ( T ) T u2 α u 2 + u 2 α α 4 + T ( T ) u2 α, 1 + u2 α
58 58 Chapitre 4 - Itervalles de cofiace Pour les valeurs usuelles de α et pour grad, o peut égliger u 2 α par rapport à. E écrivat ˆp = T/, o obtiet u résultat fial très simple. Puisque ce résultat utilise le théorème cetral-limite, doc est valable que quad est suffisammet grad, l itervalle obteu porte le om d itervalle de cofiace asymptotique : Propriété 9 U itervalle de cofiace asymptotique de seuil α pour p est : [ ] ˆp (1 ˆp ) ˆp (1 ˆp ) ˆp u α, ˆp + u α Das l exemple du sodage, = 800, t = 420 et ˆp = 52.5%. Avec R, o trouve f 762,840,0.025 = et f 760,842,0.975 = O obtiet alors comme itervalle de cofiace exact [0.4897, ] : > 1/(1+(-t+1)*qf(1-alpha/2,2*(-t+1), 2*t)/t) [1] > 1/(1+(-t)*qf(alpha/2,2*(-t),2*(t+1))/(t+1)) [1] O retrouve ce résultat avec la commade biom.test : > biom.test(t,,cof.level=1-alpha) Exact biomial test data: t ad umber of successes = 420, umber of trials = 800, p-value = alterative hypothesis: true probability of success is ot equal to percet cofidece iterval: sample estimates: probability of success Pour α = 5%, u 0.05 = L itervalle de cofiace asymptotique de seuil 5% est alors [0.4904, ] : > pchap<-t/ > pchap-qorm(1-alpha/2)*sqrt(pchap*(1-pchap)/) [1] > pchap+qorm(1-alpha/2)*sqrt(pchap*(1-pchap)/) [1] O costate que les deux itervalles sot extrêmemet proches. C est souvet le cas, ce qui fait que l itervalle asymptotique est très largemet utilisé. E arrodissat, o coclut que l o a ue cofiace de 95% das le fait que le pourcetage de voix qu obtiedra le cadidat A sera compris etre 49% et 56%.
59 4.3 Itervalle de cofiace pour ue proportio 59 Le problème est que cet itervalle de cofiace est pas etièremet situé au-dessus de 50%. Il semble doc possible que, malgré l estimatio de 52.5%, le cadidat A soit battu. O voit doc que ce qui importe das cette situatio, ce est pas vraimet d estimer p, mais de détermier si o peut admettre avec ue cofiace raisoable que p est supérieur à 50%. C est, etre autres, l objet de la théorie des tests d hypothèses, qui sera présetée au chapitre suivat. Ue autre possibilité pour résoudre le problème est de détermier à quelle coditio l itervalle de cofiace pour p sera etièremet au-dessus des 50%. Il s agit doc de réduire la taille de l itervalle de cofiace. Si o pred l itervalle asymptotique, sa largeur est 2u α. Doc, pour dimiuer cette largeur, o peut, au choix, ˆp (1 ˆp ) dimiuer u α ou augmeter (e supposat qu e augmetat, o e modifiera pas beaucoup la valeur de ˆp ). Dimiuer u α, c est augmeter α, doc augmeter la probabilité de se tromper e affirmat que le cadidat est élu. O retrouve ce qui a déjà été dit : pour obteir des itervalles de cofiace exploitables, il faut parfois accepter u risque d erreur assez élevé. Augmeter, c est augmeter le ombre de persoes iterrogées. O peut même, à α fixé, détermier de faço à e pas dépasser ue certaie largeur pour l itervalle de cofiace. O sait que p [0, 1], p(1 p) 1/4. Doc 2u α ˆp (1 ˆp ) u α. Par coséquet, si o détermie tel que u α < l, c est à dire > u2 α, o est sûr que la largeur de l2 l itervalle de cofiace sera iférieure à l. Pour α = 5% et = 800, u α = %. La précisio sur l estimatio de p est doc, avec ue cofiace de 95%, de plus ou mois 3.5%. C est bie ce qu o a costaté sur l itervalle de cofiace : [49%, 56%]. Si o veut, avec le même iveau de cofiace, avoir ue précisio iférieure à 1%, il faudra iterroger au mois u2 α l = = persoes. C est raremet le cas das les sodages, pour lesquels le ombre de persoes iterrogées est e gééral de l ordre de E coclusio, il faut toujours teir compte du ombre de persoes iterrogées pour iterpréter les résultats d u sodage. C est pour cela qu il est obligatoire de préciser ce ombre quad les résultats du sodage sot publiés. Et il faut se méfier des coclusios péremptoires doées à partir d u échatillo de 1000 persoes.
60 60 Chapitre 4 - Itervalles de cofiace
61 Chapitre 5 Tests d hypothèses 5.1 Itroductio : le problème de décisio Das tous les domaies, de l expérimetatio scietifique à la vie quotidiee, o est ameé à predre des décisios sur ue activité risquée au vu de résultats d expérieces ou d observatio de phéomèes das u cotexte icertai. Par exemple : iformatique : au vu des résultats des tests d u ouveau système iformatique, o doit décider si ce système est suffisammet fiable et performat pour être mis e vete. essais thérapeutiques : décider si u ouveau traitemet médical est meilleur qu u acie au vu du résultat de so expérimetatio sur des malades. fiace : au vu du marché, décider si o doit ou pas se lacer das ue opératio fiacière doée. saté : tracher sur la ocivité ou o des OGM ou des atees de téléphoie mobile, décider s il faut vaccier toute ue populatio cotre la grippe A. justice : décider si l accusé est iocet ou coupable à partir des iformatios acquises pedat le procès. Das chaque cas, le problème de décisio cosiste à tracher, au vu d observatios, etre ue hypothèse appelée hypothèse ulle, otée H 0, et ue autre hypothèse dite hypothèse alterative, otée H 1. E gééral, o suppose qu ue et ue seule de ces deux hypothèses est vraie. U test d hypothèses est ue procédure qui permet de choisir etre ces deux hypothèses. Das u problème de décisio, deux types d erreurs sot possibles : erreur de première espèce : décider que H 1 est vraie alors que H 0 est vraie. erreur de secode espèce : décider que H 0 est vraie alors que H 1 est vraie. Les coséqueces de ces deux erreurs peuvet être d importaces diverses. E gééral, ue des erreurs est plus grave que l autre : iformatique : si o coclut à tort que le système est pas assez fiable et performat, o egagera des dépeses iutiles pour le tester et l aalyser et o risque de se faire souffler le marché par la cocurrece ; si o décide à tort qu il est suffisammet fiable et performat, o va mettre e vete u produit qui e satisfera pas la clietèle, ce
62 62 Chapitre 5 - Tests d hypothèses qui peut coûter cher e image de marque comme e coût de maiteace. essais thérapeutiques : o peut adopter u ouveau traitemet mois efficace, voire pire que l acie, ou se priver d u ouveau traitemet plus efficace que l acie. fiace : si o décide à tort que l o peut lacer l opératio, o risque de perdre beaucoup d arget ; si o décide à tort de e pas lacer l opératio, o peut se priver d u bééfice importat. saté : o peut dépeser des milliards d euros e vaccis iutiles ou subir ue padémie grave à large échelle. justice : o peut codamer u iocet ou acquitter u coupable. A toute décisio correspod ue probabilité de décider juste et ue probabilité de se tromper : la probabilité de l erreur de première espèce, qui est la probabilité de rejeter à tort H 0, est otée α et est appelée seuil ou iveau de sigificatio du test. C est la même termiologie que pour les itervalles de cofiace, ce qui est pas u hasard, comme ous le verros plus loi. Das certais cotextes, cette probabilité est appelée risque fourisseur. la probabilité de l erreur de deuxième espèce est otée 1 β et est parfois appelée risque cliet. β est la probabilité de décider H 1 ou de rejeter H 0 à raiso. Elle est appelée puissace du test. 1 α est parfois appelée iveau de cofiace du test. Le tableau 5.1 résume simplemet le rôle de ces probabilités. Vérité H 0 H 1 Décisio H 0 1 α 1 β H 1 α β Table 5.1 probabilités de boe et mauvaise décisio das u test d hypothèses L idéal serait évidemmet de trouver ue procédure qui miimise les deux risques d erreur e même temps. Malheureusemet, o motre qu ils variet e ses iverse, c està-dire que toute procédure dimiuat α va e gééral augmeter 1 β et réciproquemet. Das la pratique, o va doc cosidérer que l ue des deux erreurs est plus importate que l autre, et tâcher d éviter que cette erreur se produise. Il est alors possible que l autre erreur surviee. Par exemple, das le cas du procès, o fait e gééral tout pour éviter de codamer u iocet, quitte à predre le risque d acquitter u coupable. O va choisir H 0 et H 1 de sorte que l erreur que l o cherche à éviter soit l erreur de première espèce. Mathématiquemet cela reviet à se fixer la valeur du seuil du test α. Plus la coséquece de l erreur est grave, plus α sera choisi petit. Les valeurs usuelles de α sot 10%, 5%, 1%, ou beaucoup mois. Le pricipe de précautio cosiste à limiter au maximum la probabilité de se tromper, doc à predre α très petit. O appelle règle de décisio ue règle qui permette de choisir etre H 0 et H 1 au vu des observatios x 1,..., x, sous la cotraite que la probabilité de rejeter à tort H 0
63 5.1 Itroductio : le problème de décisio 63 est égale à α fixé. Ue idée aturelle est de coclure que H 0 est fausse si il est très peu probable d observer x 1,..., x quad H 0 est vraie. Par exemple, admettos que l o doive décider si ue pièce est truquée ou pas au vu de 100 lacers de cette pièce. Si o observe 90 piles, il est logique de coclure que la pièce est truquée et o pese avoir ue faible probabilité de se tromper e cocluat cela. Mais si o observe 65 piles, que coclure? O appelle régio critique du test, et o ote W, l esemble des valeurs des observatios x 1,..., x pour lesquelles o rejettera H 0. La régio critique est souvet détermiée à l aide du bo ses. Sio, o utilisera ue foctio pivotale ou des théorèmes d optimalité. W déped du seuil α et est détermiée a priori, idépedammet de la valeur des observatios. Esuite, si les observatios appartieet à W, o rejette H 0, sio o e la rejette pas. Remarque : il vaut mieux dire e pas rejeter H 0 que accepter H 0. E effet, si o rejette H 0, c est que les observatios sot telles qu il est très improbable que H 0 soit vraie. Si o e rejette pas H 0, c est qu o e dispose pas de critères suffisats pour pouvoir dire que H 0 est fausse. Mais cela e veut pas dire que H 0 est vraie. U test permet de dire qu ue hypothèse est très probablemet fausse ou seulemet peut-être vraie. Par exemple, si o a pas de preuve qu u accusé est coupable, cela e veut pas forcémet dire qu il est iocet (et réciproquemet). Par coséquet, das u problème de test, il faut choisir les hypothèses H 0 et H 1 de faço à ce que ce qui soit vraimet itéressat, c est de rejeter H 0. Récapitulos l esemble de la démarche à suivre pour effectuer u test d hypothèses : 1. Choisir H 0 et H 1 de sorte que ce qui importe, c est le rejet de H Se fixer α selo la gravité des coséqueces de l erreur de première espèce. 3. Détermier la régio critique W. 4. Regarder si les observatios se trouvet ou pas das W. 5. Coclure au rejet ou au o-rejet de H 0. Pour le même problème de décisio, plusieurs tests (c est-à-dire plusieurs régios critiques) de même seuil sot souvet possibles. Das ce cas, le meilleur de ces tests est celui qui miimisera la probabilité de l erreur de secode espèce, c est à dire celui qui maximisera la puissace β. Le meilleur des tests possibles de seuil fixé est le test le plus puissat. Il arrive que l o puisse le détermier, mais pas toujours. Das de ombreux cas, les hypothèses d u test peuvet se traduire sur la valeur d u paramètre d ue loi de probabilité. Les tests de ce type sot appelés tests paramétriques. Das l exemple de l électio, le problème est de tracher etre les deux hypothèses p 1/2 et p > 1/2. Les tests qui e portet pas sur la valeur d u paramètre sot appelés tests o paramétriques. Il e existe de tous les types. O s itéressera d abord das ce chapitre à des tests d hypothèses paramétriques quad l observatio est u échatillo d ue loi de probabilité. Puis o étudiera des tests de comparaiso de deux échatillos, et o termiera ce chapitre e présetat le plus célèbre des tests d hypothèses, le test du χ 2.
64 64 Chapitre 5 - Tests d hypothèses 5.2 Formalisatio du problème de test paramétrique sur u échatillo Comme précédemmet, les observatios x 1,..., x sot les réalisatios de variables aléatoires X 1,..., X idépedates et de même loi, dépedat d u paramètre icou θ. O supposera que θ est u réel. Si θ est u paramètre vectoriel, o fera des tests sur chacue de ses composates. Par exemple, o fera des tests sur la moyee de la loi ormale, puis des tests sur la variace, mais pas sur les deux e même temps. Ue hypothèse est simple si elle est du type θ = θ 0, où θ 0 est u réel fixé. Ue hypothèse est composite ou multiple si elle est du type θ A où A est ue partie de IR o réduite à u élémet Tests d hypothèses simples U test d hypothèses simples est u test das lequel les hypothèses ulle et alterative sot simples toutes les deux. C est doc u test du type H 0 : θ = θ 0 cotre H 1 : θ = θ 1. U tel test est u cas d école : il permet de dire laquelle des deux valeurs θ 0 et θ 1 est la plus vraisemblable au vu des observatios. Mais il e pred pas e compte la possibilité que θ e soit égal i à θ 0 i à θ 1. Pour cela, il faudra faire u test d hypothèses composites. Le seuil du test est la probabilité de rejeter à tort H 0, c est à dire la probabilité que les observatios soiet das la régio critique quad la vraie valeur de θ est θ 0 : α = P ((X 1,..., X ) W ; θ 0 ) La puissace du test est la probabilité de rejeter à raiso H 0, c est à dire la probabilité que les observatios soiet das la régio critique quad la vraie valeur de θ est θ 1 : β = P ((X 1,..., X ) W ; θ 1 ) Tests d hypothèses composites U test d hypothèses composites est u test das lequel l ue au mois des deux hypothèses est composite. Les tests les plus usuels sot du type : test bilatéral : H 0 : θ = θ 0 cotre H 1 : θ θ 0 (seule H 1 est composite). tests uilatéraux : H 0 : θ θ 0 cotre H 1 : θ > θ 0 ou H 0 : θ θ 0 cotre H 1 : θ < θ 0 (H 0 et H 1 sot composites). O pourrait aussi imagier des tests du type H 0 : θ [θ 1, θ 2 ] cotre H 1 : θ < θ 1 ou θ > θ 2. Toutes les variates sot evisageables. Das tous ces exemples, H 0 et H 1 sot complémetaires : des deux hypothèses, l ue est forcémet vraie. C est ce cas qui est importat e pratique. Quad ue hypothèse est composite, la otio de puissace est à repréciser. E effet, β a été défiie comme la probabilité de rejeter H 0 à raiso, c est à dire de rejeter H 0
65 5.3 Tests sur la moyee d ue loi ormale 65 quad H 1 est vraie. Or, das les exemples ci-dessus, il y a ue ifiité de valeurs de θ pour lesquelles H 1 est vraie. Doc la puissace du test doit dépedre de la vraie valeur (icoue) de θ, ce qui ous amèe à redéfiir la puissace et le seuil d u test : Défiitio 15 La puissace d u test portat sur la valeur d u paramètre réel θ est la foctio de θ défiie par : Sup H 0 Le seuil du test est α = Sup β(θ). H 0 β : IR [0, 1] θ β(θ) = P ((X 1,..., X ) W ; θ) β(θ) est la probabilité de rejeter H 0 quad la vraie valeur du paramètre est θ. α = β(θ) est la probabilité maximale de rejeter H 0 alors que H 0 est vraie, c est à dire la plus forte probabilité de rejeter à tort H 0. Par exemple, pour u test bilatéral, α = β(θ 0 ), et pour le premier test uilatéral préseté, α = Sup θ θ 0 β(θ). Ue fois H 0 et H 1 détermiées et α fixé, il faut costruire la régio critique W. Pour compredre commet détermier ue régio critique, ous allos détailler das la sectio suivate la costructio d u test sur la moyee d ue loi ormale, à partir d u exemple itroductif. 5.3 Tests sur la moyee d ue loi ormale Exemple itroductif : essais thérapeutiques Pour apaiser u certai type de maux de tête, o a l habitude de traiter les malades avec u médicamet A. Ue étude statistique a motré que la durée de disparitio de la douleur chez les malades traités avec A était ue variable aléatoire de loi ormale N (m 0, σ 2 0), avec m 0 = 30 m et σ 0 = 5 m. U laboratoire pharmaceutique a coçu u ouveau médicamet B et désire tester so efficacité. Pour cela, le ouveau médicamet a été admiistré à malades cobayes, et o a mesuré la durée de disparitio de la douleur pour chacu d etre eux : x 1,..., x. Ue étude de statistique descriptive sur ces doées a ameé les pharmacologues à cosidérer que cette durée était ue variable aléatoire de loi ormale N (m, σ 2 ). Remarque : E toute rigueur, o e devrait pas modéliser ue durée (positive) par ue variable aléatoire qui, comme pour la loi ormale, peut predre des valeurs égatives. E pratique, o peut le faire quad, pour les lois cosidérées, la probabilité que la variable soit égative est égligeable. L effet du ouveau médicamet se traduit facilemet sur la valeur de la durée moyee de disparitio de la douleur : m = m 0 : le médicamet B a e moyee le même effet que le médicamet A. m < m 0 : le médicamet B est e moyee plus efficace que le médicamet A. m > m 0 : le médicamet B est e moyee mois efficace que le médicamet A.
66 66 Chapitre 5 - Tests d hypothèses Nous reviedros ultérieuremet sur l iterprétatio de la valeur de l écart-type σ e termes d efficacité du médicamet. Pour savoir s il faut commercialiser B, il faut tracher etre ces 3 hypothèses. L importat est de e pas se tromper si o décide de chager de médicamet : il est préférable de coserver u médicamet mois performat que le ouveau que d adopter u médicamet mois performat que l acie. Il faut doc que l hypothèse m < m 0 correspode au rejet de H 0. Par coséquet, ous allos tester H 0 : m m 0 cotre H 1 : m < m 0 au vu de réalisatios idépedates x 1,..., x de la loi N (m, σ 2 ) Première idée Puisque X est l ESBVM de m, ue première idée est de coclure que m < m 0 si et seulemet si x < m 0 : la durée moyee de disparitio de la douleur sur les malades traités avec B est plus petite que ce qu elle est sur les malades traités avec A. Cela reviet à proposer comme régio critique du test : W = {(x 1,..., x ); x < m 0 } Si x est beaucoup plus petit que m 0, il est e effet très probable que B soit plus efficace que A. Mais si x est proche de m 0 tout e état plus petit, o risque de se tromper si o affirme que m < m 0. La probabilité de cette erreur, qui est autre que le risque de première espèce α, est très facile à calculer : α = Sup β(m) = Sup P ( X < m 0 ; m ) H 0 m m 0 = Sup m m 0 P ( X m σ < m 0 m ; m σ ) = Sup m m 0 φ ( ) m 0 m où φ est la foctio de répartitio de la loi ormale cetrée-réduite. E effet, comme o l a déjà vu, si ) X 1,..., X sot idépedates et de même loi N (m, σ 2 ), alors X est de loi N (m, σ2 et X m est de loi N (0, 1). σ ( ) m 0 m φ(u) est ue foctio croissate de u, doc β(m) = φ est ue foctio σ décroissate de m. Par coséquet, α = Sup β(m) = β(m 0 ) = φ(0) = 1/2. m m 0 Il y a doc ue chace sur deux de se tromper si o décide que B est plus efficace que A quad x < m 0. C est évidemmet beaucoup trop Deuxième idée O voit qu il faut e fait rejeter H 0 quad x est sigificativemet plus petit que m 0. Cela reviet à predre ue régio critique de la forme : W = {(x 1,..., x ); x < l α }, où l α < m 0 La bore l α déped du seuil α que l o s est fixé. Mois o veut risquer de rejeter à tort H 0, plus α sera petit, et plus l α sera petit. Le ses de l expressio sigificativemet plus petit est lié à la valeur de α. σ
67 5.3 Tests sur la moyee d ue loi ormale 67 U calcul aalogue au précédet motre que : α = Sup β(m) = Sup P ( X < l α ; m ) ( ) ( ) l α m l α m 0 = Sup φ = φ H 0 m m 0 m m 0 σ σ O obtiet doc l α m 0 = φ 1 (α), d où l α = m 0 + σ φ 1 (α) = m 0 σ u 2α, σ avec les otatios habituelles pour les quatiles de la loi ormale. E coclusio, o a : Propriété 10 U test de seuil α de H 0 : m m 0 cotre H 1 : m < m 0 est détermié par la régio critique : W = {(x 1,..., x ); x < m 0 σ } u 2α Troisième idée La régio critique proposée ci-dessus pose u problème déjà recotré à propos des itervalles de cofiace : ce test est iutilisable si o e coaît pas la vraie valeur de σ, ce qui est toujours le cas e pratique. Pour pallier cet icovéiet, o utilise la même procédure que pour les itervalles de cofiace : o remplace σ par so estimateur S, ce qui écessite de remplacer la loi ormale par la loi de Studet. Rappelos e effet que si X 1,..., X sot idépedates et de même loi N (m, σ 2 ), alors X m est de loi St( 1). Alors, à partir d ue régio critique de la forme S W = {(x 1,..., x ); x < l α }, o obtiet : α = Sup H 0 β(m) = Sup P ( X < l α ; m ) = Sup m m ( 0 ) l α m = Sup m m 0 F St( 1) S m m 0 P ( X m = F St( 1) ( l α m 0 S S ) < l ) α m ; m S D où l α m 0 S = F 1 St( 1) (α) = t 1,2α, avec les otatios habituelles pour les quatiles de la loi de Studet. Fialemet, l α = m 0 S t 1,2α. E coclusio, o a : Propriété 11 U test de seuil α de H 0 : m m 0 cotre H 1 : m < m 0 est détermié par la régio critique : { } W = (x 1,..., x ); x < m 0 s t 1,2α Remarque : La régio critique peut aussi s écrire : { W = (x 1,..., x ); x } m 0 < t s 1,2α
68 68 Chapitre 5 - Tests d hypothèses Cette forme met e évidece l utilisatio de la variable aléatoire X m 0 S qui est autre que la foctio pivotale déjà vue à l occasio des itervalles de cofiace. C est cette forme que l o coservera das la suite Exemple Avec le médicamet A, la durée moyee de disparitio de la douleur était 30 m. O a admiistré le médicamet B à 12 malades et relevé les durées de disparitio de la douleur suivats : La moyee empirique de ces doées est x = et l écart-type estimé est s = O décide de e commercialiser B que si o est sûr à 95% qu il est plus efficace que A. Cela reviet doc à faire u test de H 0 : m 30 cotre H 1 : m < 30 au seuil α = 5%. O voit qu il s agit fialemet de détermier si est suffisammet iférieur à 30 pour que l o puisse coclure que le médicamet B réduit vraimet la durée de disparitio de la douleur. D après ce qui précède, o rejettera H 0 si x m 0 < t 1,2α. Or x m 0 = = et t s 1,2α = t 11,0.1 = < 1.796, doc les observatios sot das la régio critique. O rejette doc H 0, ce qui sigifie que l o coclut que B est plus efficace que A, avec mois de 5% de chaces de se tromper. Par coséquet, o peut lacer la commercialisatio du médicamet B. s La p-valeur O voit ici le rôle fodametal du seuil α. Si o avait pris α = 1%, o aurait eu t 11,0.02 = Comme > 2.718, o aurait pas rejeté H 0, doc o aurait pas adopté le médicamet B. Ce phéomèe est ormal : se fixer u seuil α petit reviet à éviter au maximum d adopter à tort le médicamet B. Or u bo moye de e pas predre ce risque, c est de coserver le médicamet A. Le test de seuil α = 0 cosiste à coserver le médicamet A quelles que soiet les observatios : la probabilité de rejeter à tort H 0 est ulle quad o e rejette jamais H 0! E pratique, plus α est petit, mois o aura tedace à rejeter H 0. D ue certaie faço, cela sigifie que le pricipe de précautio coduit au coservatisme... Il est doc fodametal de bie savoir évaluer les risques et de choisir α e coaissace de cause. Cet exemple avec α = 1% permet égalemet de compredre la uace etre e pas rejeter H 0 et accepter H 0 : o va coclure que rie e prouve que B est plus efficace que A, mais o e va évidemmet pas coclure que A est plus efficace que B. La remarque précédete met e évidece l existece d u seuil critique α c tel que pour tout seuil α supérieur à α c, o rejettera H 0, et pour tout seuil α iférieur à α c, o e rejettera pas H 0. Cette valeur α c est appelée la p-valeur.
69 5.3 Tests sur la moyee d ue loi ormale 69 α c vérifie x m 0 s = t 1,2αc. Sur l exemple, la table de la loi de Studet permet de costater que t 11,0.05 = < < = t 11,0.1. O e déduit que 5% < 2α c < 10%, d où 2.5% < α c < 5%. Pour calculer exactemet la p-valeur, o écrit : ( ) ( ) t 1,2αc = F 1 2αc St( 1) = F 1 St( 1) 2 (α x m 0 c) = α c = F St( 1) s et o obtiet ici α c = La répose à u test de seuil fixé est biaire : o rejette ou o e rejette pas H 0. Fourir ue p-valeur est ue répose plus riche puisqu elle permet de coaître le résultat du test pour importe quel choix du seuil. C est pourquoi le traitemet des tests d hypothèses par les logiciels de statistique cosiste à fourir des p-valeurs. E R, la commade permettat d effectuer u test sur la moyee d ue loi ormale est t.test. L optio alterative permet de préciser lequel du test bilatéral et des deux tests uilatéraux o choisit. Sur l exemple, o obtiet : > medic<-c(25,28,20,32,17,24,41,28,25,30,27,24) > t.test(medic,alterative="less",mu=30) Oe Sample t-test data: medic t = , df = 11, p-value = alterative hypothesis: true mea is less tha percet cofidece iterval: -If sample estimates: mea of x La p-valeur est ici α c = 4.5%. Cela sigifie que, pour tout seuil supérieur à 4.5% (c est le cas de 5%), o rejettera H 0, doc o coclura que B est plus efficace que A, et pour tout seuil iférieur à 4.5% (c est le cas de 1%), o e rejettera pas H 0, doc o coclura que B est pas plus efficace que A. De maière géérale, plus la p-valeur est petite, mois o pred de risque e rejettat H Remarques Remarque 1 : Pour des raisos de symétrie, u test de m m 0 cotre m > m 0 aura pour régio critique { W = (x 1,..., x ); x } m 0 > t s 1,2α Remarque 2 : Pour le test bilatéral de H 0 : m = m 0 cotre H 1 : m m 0, le bo ses veut que l o rejette H 0 si x est sigificativemet éloigé de m 0. O predra doc ue
70 70 Chapitre 5 - Tests d hypothèses régio critique du type W = {(x 1,..., x ); x m 0 > l α }. Alors, comme précédemmet o obtiet : α = Sup P ( X m 0 > lα ; m ) = P ( ) X m 0 > lα ; m 0 m=m 0 ( X m 0 = P > l ) α ; m 0 S S O e déduit que l α critique : S = t 1,α, d où l α = S t 1,α. O obtiet doc comme régio { } { } W = (x 1,..., x ); x m 0 > s t 1,α = (x 1,..., x ); x m 0 > t 1,α s Remarque 3 : Pour alléger les écritures, o écrit souvet ue { régio critique e omettat x m 0 l expressio (x 1,..., x );, ce qui doe par exemple W = < t 1,2α }. Mais il faut toujours garder à l esprit que la régio critique est l esemble des valeurs des observatios pour lesquelles o rejettera H 0. s Les tests de Studet Fialemet, o dispose d ue procédure permettat d effectuer le test bilatéral et les deux tests uilatéraux portat sur la moyee de la loi ormale. Ces trois tests sot cous sous le om de tests de Studet. Propriété 12 : Tests de Studet sur la moyee d ue loi ormale. { x m 0 Test de m m 0 cotre m > m 0 : W = s > t 1,2α }. { x m 0 Test de m m 0 cotre m < m 0 : W = < t s 1,2α }. { } x m 0 Test de m = m 0 cotre m m 0 : W = > t 1,α. s Remarque : Les tests ci-dessus ot été présetés comme des tests portat sur la valeur de la moyee d ue loi ormale. E fait, grâce au théorème cetral-limite, o sait que, quad est assez grad, X est approximativemet de loi ormale, quelle que soit la loi de probabilité des observatios. Cette propriété permet de motrer qu e pratique, pour 30, o pourra utiliser le test de Studet pour faire u test sur la valeur de la moyee de importe quelle loi de probabilité. O dit que le test de Studet est robuste à la o-ormalité.
71 5.4 Lie etre tests d hypothèses et itervalles de cofiace Lie etre tests d hypothèses et itervalles de cofiace Das le test bilatéral, o rejette l hypothèse m = m 0 à coditio que x m 0 s > t 1,α. Or : x m 0 > t 1,α x m 0 < s t 1,α ou x m 0 > + s t 1,α s m 0 < x s t 1,α ou m 0 > x + s t 1,α [ ] m 0 / x s t 1,α, x + s t 1,α Cet itervalle est autre que l itervalle de cofiace usuel pour la moyee de la loi ormale, vu au chapitre 4. O rejette doc m = m 0 si m 0 appartiet pas à cet itervalle. Il y a doc u lie étroit etre les tests d hypothèses et les itervalles de cofiace. C est logique : o a ue cofiace 1 α das le fait que m appartiet à l itervalle de cofiace. Si m 0 appartiet pas à cet itervalle, il est vraimet douteux que m = m 0. O a même ue cofiace 1 α das le fait que m m 0. O peut doc costruire u test d hypothèses sur la valeur d u paramètre à partir d u itervalle de cofiace pour ce paramètre. Or, pour costruire u tel itervalle, o a eu besoi d ue foctio pivotale. Par coséquet, pour costruire u test paramétrique, il suffit de coaître ue foctio pivotale. Das le cas de la moyee de la loi ormale, la foctio pivotale est X m. La dualité etre itervalles de cofiace et tests d hypothèses fait que, e R, la commade t.test permet à la fois d effectuer u test et d obteir u itervalle de cofiace sur la moyee de la loi ormale. Aisi, la commade t.test(x,cof.level=0.95) effectue par défaut le test de m = 0 cotre m 0, et doe u itervalle de cofiace pour m au seuil 5%. Das l exemple des iveaux de bruit, o obtiet le résultat déjà vu au chapitre précédet : > t.test(bruit, cof.level=0.95) Oe Sample t-test data: bruit t = , df = 19, p-value < 2.2e-16 alterative hypothesis: true mea is ot equal to 0 95 percet cofidece iterval: sample estimates: mea of x S
72 72 Chapitre 5 - Tests d hypothèses O retrouve bie que l itervalle de cofiace de seuil 5% pour m est [ , ]. Etat doé que 0 est pas, et de loi, das cet itervalle, l hypothèse m = 0 est très largemet rejetée ce qui se traduit par ue p-valeur extrêmemet faible : Procédure pour costruire u test d hypothèses Fialemet, le plus simple pour costruire u test d hypothèses portat sur la valeur d u paramètre θ est de se fier à so bo ses. Si o coaît u estimateur ˆθ de θ, o procèdera de la faço suivate : Test de θ θ 0 cotre θ > θ 0 : o rejette H 0 si ˆθ est trop grad. La régio critique est doc de la forme : } W = {ˆθ > l α Test de θ θ 0 cotre θ < θ 0 : o rejette H 0 si ˆθ est trop petit. La régio critique est doc de la forme : } W = {ˆθ < l α Test de θ = θ 0 cotre θ θ 0 : o rejette H 0 si ˆθ θ 0 est trop grad ou bie si ˆθ est soit trop grad, soit trop petit. La régio critique est doc de la forme : W = {ˆθ < l 1,α ou ˆθ } > l 2,α, avec l 1,α < l 2,α Pour détermier l α, l 1,α, l 2,α, il faut écrire α = Sup P ((X 1,..., X ) W ; θ). Par exemple, das le premier cas, α = Sup ) H 0 ) (ˆθ > l α. Pour pouvoir calculer P (ˆθ > l α, il faut utiliser ue foctio pivotale. θ θ 0 P Malheureusemet, cette procédure de bo ses e permet pas toujours de résoudre le problème. C est le cas par exemple quad la loi de probabilité de ˆθ sous H 0 est complexe et qu o e peut pas trouver de foctio pivotale. D autre part, le test obteu par cette approche est pas forcémet optimal, au ses où il peut e exister de plus puissats. Il existe e fait des méthodes statistiques sophistiquées permettat de répodre à ces deux problèmes. Le résultat le plus importat est le théorème de Neyma-Pearso. Mais ces procédures débordet du cadre de ce cours et e serot pas évoquées ici. Le pricipe o-rejet acceptatio est à compredre différemmet pour les tests uilatéraux et bilatéraux. Pour les tests uilatéraux, la différece est frache : B est pas plus efficace que A est différet de B est mois efficace que A. Pour les tests bilatéraux, H 0 est ue hypothèse simple, doc accepter H 0 reviet à choisir le modèle correspodat (θ = θ 0 ) pour le phéomèe étudié. Or tous les modèles sot faux, car ce e sot que des approximatios de la réalité. Ne pas rejeter H 0 cosiste à cosidérer que le modèle correspodat est pas absurde. Doc o peut l adopter, ce qui reviet e quelque sorte à accepter H 0, au ses où le modèle sous-jacet est pas trop mauvais.
73 5.6 Tests sur la variace d ue loi ormale Tests sur la variace d ue loi ormale O suppose ici que les observatios x 1,..., x sot les réalisatios de variables aléatoires X 1,..., X idépedates et de même loi ormale N (m, σ 2 ). O souhaite tester par exemple H 0 : σ 2 σ0 2 cotre H 1 : σ 2 > σ0. 2 E suivat la démarche présetée ci-dessus, puisque l ESBVM de σ 2 est S 2, il est aturel de rejeter H 0 si S 2 est trop grad, doc de cosidérer ue régio critique de la forme W = { } s 2 > l α. Pour calculer α = Sup P ( ) S 2 > l α, o utilise la foctio pivotale ( 1)S 2, qui est de loi χ 2 σ 1. O obtiet : 2 H 0 α = Sup P (S 2 > l α ) = Sup σ 2 σ0 2 σ 2 σ0 2 = Sup σ 2 σ 2 0 [ 1 F χ 2 1 ( ( 1)lα σ 2 ( ( 1)S 2 P )] σ 2 > ( 1)l ) α σ 2 = 1 F χ 2 1 ( ( 1)lα σ 2 0 D où l α = σ2 0 1 F 1 (1 α) = σ2 0 χ z 1,α, et la régio critique du test est : { } { W = s 2 > σ2 0 ( 1)s 2 } 1 z 1,α = > z 1,α O aboutirait au même résultat e partat d u itervalle de cofiace de seuil α pour σ 2 du type [a, + [. Fialemet, o obtiet : Propriété 13 Tests sur la variace d ue loi ormale : { ( 1)s 2 Test de σ 2 σ0 2 cotre σ 2 > σ0 2 : W = > z σ0 2 1,α }. { ( 1)s 2 Test de σ 2 σ0 2 cotre σ 2 < σ0 2 : W = < z 1,1 α }. Test de σ 2 = σ0 2 cotre σ 2 σ0 2 : { ( 1)s 2 W = < z σ0 2 1,1 α/2 ou ( 1)s 2 } > z σ0 2 1,α/2 Remarque : Cotrairemet à ce qui se passait pour la moyee, ces tests e sot pas gééralisables à des tests sur la variace d ue loi o ormale, car o a pas l équivalet du théorème cetral-limite pour S 2. Das l exemple de l essai thérapeutique, la variace mesure la variabilité de l effet du médicamet. La variabilité est faible si l effet du médicamet est à peu près le même pour tout le mode, et elle est forte si les effets peuvet être très différets d u idividu à u autre. O a évidemmet itérêt à avoir ue variabilité assez faible pour bie cotrôler les effets d u traitemet. Cette variabilité se traduit sur la variace de la loi ormale qui modélise la durée de disparitio de la douleur chez les malades traités. σ 2 0 σ 2 0 )
74 74 Chapitre 5 - Tests d hypothèses Avec le médicamet A, l écart-type était σ 0 = 5 m, ce qui sigifie que, pour 95% des malades, la douleur disparaît etre m 0 2σ 0 = 20 m et m 0 + 2σ 0 = 40 m. Avec le médicamet B, o estime σ par s = 6.08 m. La variabilité du secod médicamet est-elle sigificativemet supérieure à celle du premier? C est u test de σ 5 cotre σ > 5, évidemmet { idetique au test de σ 2 25 ( 1)s 2 cotre σ 2 > 25. La régio critique est W = > z 1,α }. Au seuil α = 5%, o a z 11,5% = Et ( 1)s = = σ Comme < 19.68, o est pas das la régio critique, doc o e rejette pas H 0 : o a pas de preuves suffisates pour coclure que la variabilité de l effet de B est supérieure à celle de A. La différece etre 6.08 et 5 est pas sigificative au seuil choisi. La p-valeur est obteue e écrivat : σ0 2 2 z 1,αc = F 1 χ 2 1(1 α c ) = = α c = 1 F χ 2 11 (16.25) = 13.2%. Doc même au seuil 10%, o e rejettera pas H Tests sur ue proportio O suppose ici que les observatios x 1,..., x sot les réalisatios de variables aléatoires X 1,..., X idépedates et de même loi de Beroulli B(p). O sait que T = X i est de loi biomiale B(, p). O souhaite faire des tests sur la valeur de p. Pour costruire ces tests, o peut partir de l itervalle de cofiace exact pour p vu au chapitre 4. Mais compte-teu de sa complexité, o se cotetera de l itervalle de T p cofiace asymptotique : est approximativemet de loi N (0, 1), ce qui fourit p(1 p) la foctio pivotale (asymptotique) cherchée et permet de doer directemet les tests sur ue proportio : Propriété 14 Tests asymptotiques sur ue proportio : { } t p 0 Test de p p 0 cotre p > p 0 : W = p0 (1 p 0 ) > u 2α. { } t p 0 Test de p p 0 cotre p < p 0 : W = p0 (1 p 0 ) < u 2α. { } t p 0 Test de p = p 0 cotre p p 0 : W = p0 (1 p 0 ) > u α. Das l exemple du sodage du chapitre 4, o a iterrogé = 800 persoes et t = 420 d etre elles ot déclaré vouloir voter pour A. O a doc estimé le pourcetage p de voix qu obtiedra le cadidat A par ˆp = 420/800 = 52.5%. Mais o a vu qu u itervalle de cofiace de seuil 5% pour ce pourcetage est [49%, 56%], dot ue partie est située sous les 50%.
75 5.8 Test de comparaiso de deux échatillos 75 E fait, la seule chose qui itéresse le cadidat A, c est de savoir s il va être élu ou pas. Il s agit doc de faire u test das lequel le rejet de H 0 correspod à l électio de A. Par coséquet, o va tester p 1/2 cotre p > 1/2. t p 0 p0 (1 p 0 ) = /2 800/4 = Au seuil 5%, u 0.1 = < 1.645, doc o est pas das la régio critique, doc o e rejette pas H 0 : o e peut pas affirmer que A sera élu avec mois de 5% de chaces de se tromper. La p-valeur du test asymptotique est la valeur α c de α telle que u 2αc = φ 1 (1 α c ) = t p 0 p0 (1 p 0 ) = O a doc α c = 1 φ(1.414) = 7.86%. E R, o peut effectuer le test exact grâce à la commade biom.test. O obtiet sur l exemple du sodage : > biom.test(420, 800, p=0.5, alterative="greater") Exact biomial test data: 420 ad 800 umber of successes = 420, umber of trials = 800, p-value = alterative hypothesis: true probability of success is greater tha percet cofidece iterval: sample estimates: probability of success La p-valeur du test exact est 8.39 %, ce qui est bie cohéret avec la valeur doée par le test asymptotique. E coclusio, si o décide de coclure, au vu du sodage, que le cadidat A sera élu, o a au pire 8.39% de chaces de se tromper. Tout ce qui viet d être dit est évidemmet valable que si les résultats du sodage sot bie représetatifs de ce qui se passera le jour de l électio, ce qui est loi d être certai. 5.8 Test de comparaiso de deux échatillos Itroductio Il est très fréquet que l o ait à comparer deux populatios selo u critère quatitatif particulier. Par exemple : Comparer deux traitemets médicaux au vu de leurs effets sur les patiets. Comparer différets groupes d étudiats au vu de leurs résultats scolaires. Comparer les fréqueces d occurreces de maladies chez les fumeurs et les ofumeurs ou bie selo que l o habite ou pas à proximité d ue cetrale ucléaire ou d ue atee de téléphoie mobile. Evaluer l efficacité d u traitemet e comparat des mesures effectuées avat trai-
76 76 Chapitre 5 - Tests d hypothèses temet à des mesures effectuées après traitemet. Statistiquemet, cela sigifie que l o dispose d observatios de variables aléatoires X 1,..., X 1 idépedates et de même loi costituat le premier échatillo, et de variables aléatoires Y 1,..., Y 2 idépedates et de même loi costituat le deuxième échatillo. Comparer les deux échatillos reviet à comparer les paramètres des lois de probabilité des X i et des Y j. U test de comparaiso de deux échatillos gaussies idépedats cosiste à supposer que les 2 échatillos sot idépedats et de lois ormales, et à comparer les moyees et les variaces de ces lois. U test de comparaiso de deux proportios cosiste à supposer que les deux échatillos sot idépedats et de lois de Beroulli, et à comparer les paramètres de ces lois. U test de comparaiso de deux échatillos gaussies appariés cosiste à supposer que les échatillos sot de lois ormales, mais pas idépedats (e u certai ses) et à comparer les moyees de ces lois. Il faut das ce cas que les échatillos soiet de même taille. Das l exemple de l essai thérapeutique, ous avos supposé que la durée de disparitio de la douleur avec le médicamet A était de loi ormale N (m 0, σ0), 2 où m 0 et σ 0 étaiet cous. E réalité, m 0 et σ 0 e sot pas cous mais estimés à partir d observatios faites sur des malades traités avec le médicamet A. Les doées sot doc e fait costituées de deux échatillos correspodat aux deux médicamets. Si les traitemets ot été appliqués sur deux groupes de persoes différetes, o peut raisoablemet cosidérer que les échatillos sot idépedats. Mais il est possible que l o doe successivemet les deux médicamets aux mêmes malades, pour détermier lequel est le plus efficace. La premier cas correspod à u test sur deux échatillos idépedats et le secod à u test sur deux échatillos appariés Comparaiso de deux échatillos gaussies idépedats Das cette sectio, o supposera que les deux échatillos sot idépedats et de lois ormales et o comparera leurs moyees et leurs variaces. X 1,..., X 1 sot supposées idépedates et de même loi N (m 1, σ1) 2 et Y 1,..., Y 2 idépedates et de même loi N (m 2, σ2). 2 Les X i et les Y j sot idépedates. Les moyees empiriques, variaces empiriques et variaces estimées des deux échatillos sot otées respectivemet X 1, SX 2, S 2 X, Ȳ 2, SY 2 et S 2 Y. Exemple : deux groupes d étudiats de tailles respectives 1 = 25 et 2 = 31 ot suivi le même cours de statistique et passé le même exame. Les moyees et écarts-types empiriques des otes obteues das les deux groupes sot respectivemet : Premier groupe : x 1 = 12.8, s x = 3.4. Deuxième groupe : ȳ 2 = 11.3, s y = 2.9. O suppose que les otes sot réparties das les deux groupes selo des lois ormales et qu elles sot toutes idépedates. Peut-o cosidérer que le premier groupe est meilleur que le deuxième, c est-à-dire qu u poit et demi d écart etre les moyees est sigificatif d ue différece de iveau? La procédure à suivre cosiste à tester d abord l égalité des variaces, puis l égalité des moyees.
77 5.8 Test de comparaiso de deux échatillos Test de Fisher de comparaiso des variaces Comparer les variaces des deux échatillos, c est tester : H 0 : σ 2 1 = σ 2 2 cotre H 1 : σ 2 1 σ 2 2 Il est aturel de rejeter l hypothèse d égalité des variaces si les variaces empiriques ou estimées des deux échatillos sot sigificativemet différetes. O peut peser à ue régio critique de la forme W = { } s 2 x s 2 y > lα, mais la loi de probabilité de S 2 X S 2 Y s avère complexe. E revache, celle de S 2 X S 2 est simple. O utilisera doc plutôt ue régio { Y } s 2 x critique de la forme W = s 2 < l 1,α ou s 2 x y s 2 > l 2,α, avec l 1,α < 1 < l 2,α : o rejettera y l égalité des variaces si le rapport des deux variaces estimées est soit trop grad soit trop petit. Le théorème de Fisher permet d établir que 1S 2 X σ 2 1 = ( 1 1)S 2 X σ 2 1 est de loi χ et 2 SY 2 = ( 2 1)S 2 Y est de loi χ 2 σ2 2 σ Ces deux variables aléatoires sot idépedates. Or si X est de loi χ 2, Y est de loi χ 2 m, et X et Y sot idépedates, alors mx loi de Fisher-Sedecor F (, m). ( 2 1) ( 1 1)S 2 X σ1 Par coséquet, 2 ( 1 1) ( 2 1)S 2 = S 2 Xσ2 2 Y S 2 est de loi F ( Y σ , 2 1). σ2 2 Sous l hypothèse H 0, σ1 2 = σ2, 2 doc S 2 X S 2 est de loi F ( 1 1, 2 1). Y Le seuil du test est doc : ) ( X S 2 X S 2 > l 2,α = P H0 Y S 2 < l 1,α Y = F F (1 1, 2 1) (l 1,α ) + 1 F F (1 1, 2 1) (l 2,α ) ( S 2 X α = P H0 S 2 < l 1,α ou S 2 Y Y ) ( ) S 2 X + P H0 S 2 > l 2,α Y est de E équilibrat les risques, o choisira l 1,α et l 2,α de sorte que F F (1 1, 2 1) (l 1,α ) = α 2 et F F (1 1, 2 1) (l 2,α ) = 1 α 2, c est à dire l 1,α = f 1 1, 2 1,1 α/2 et l 2,α = f 1 1, 2 1,α/2, avec les otatios de la table de la loi de Fisher-Sedecor. La régio critique du test s écrit doc : { } s 2 x W = s 2 < f 1 1, 2 1,1 α/2 ou s 2 x y s 2 > f 1 1, 2 1,α/2 y O peut simplifier les choses e remarquat que :
78 78 Chapitre 5 - Tests d hypothèses 1. Si X est de loi F ( 1, 2 ), 1/X est de loi F ( 2, 1 ). O e déduit que f 1 1, 2 1,1 α/2 = 1. Alors la régio critique peut s écrire : f 2 1, 1 1,α/2 { } s 2 y W = s 2 > f 2 1, 1 1,α/2 ou s 2 x x s 2 > f 1 1, 2 1,α/2 y 2. Des deux rapports s 2 x s 2 et s 2 y y s 2, u seul est plus grad que 1. Or o peut motrer que x pour α < 1/2, f,m,α > 1. Doc, das la régio critique, il suffit de reteir celui des deux rapports qui est supérieur à 1. Par coséquet, la régio critique du test peut s écrire simplemet sous la forme cidessous. Ce test est appelé test de Fisher. Propriété 15 : Test de Fisher d égalité des variaces de deux échatillos gaussies idépedats, c est-à-dire test de σ1 2 = σ2 2 cotre σ1 2 σ2 2 : { } si s 2 x > s 2 s 2 x y, W = s 2 > f 1 1, 2 1,α/2. y si s 2 x s 2 y, W = { s 2 y s 2 x > f 2 1, 1 1,α/2 }. Remarque : Le fait que S 2 Xσ 2 2 S 2 Y σ 2 1 u itervalle de cofiace pour le rapport σ2 1 σ 2 2 soit de loi F ( 1 1, 2 1) permet d obteir facilemet [ ] S 2 X : S 2 f 2 1, 1 1,1 α/2, S 2 X Y S 2 f 2 1, 1 1,α/2. Y Das l exemple, s 2 x > s 2 x s 2 = La table de la loi de Fisher e fourit que des y quatiles d ordre 5% ou 1%. O choisit doc de faire le test de Fisher au seuil α = 10%. Alors f 24,30,0.05 = < 1.89, doc o est pas das la régio critique. O e peut doc pas coclure que les variaces des deux échatillos sot différetes. y et s 2 E R, la commade permettat d effectuer u test de Fisher est var.test. L optio cof.level précise le seuil de l itervalle de cofiace pour le rapport des variaces. > var.test(groupe1, groupe2, alterative="two.sided", cof.level=.95) F test for variace equality data: groupe1 ad groupe2 F = , um df = 24, deom df = 30, p-value = alterative hypothesis: true ratio of variaces is ot equal to 1 95 percet cofidece iterval:
79 5.8 Test de comparaiso de deux échatillos 79 sample estimates: variace of groupe1 variace of groupe La p-valeur vaut %. Cela sigifie que, même e preat u risque d erreur très grad comme 40%, o e rejettera pas l hypothèse d égalité des variaces. Par coséquet, o est très loi de rejeter cette hypothèse. O costate par ailleurs que l itervalle de cofiace de seuil 5% pour le rapport des deux variaces est [0.644, 3.036], qui cotiet bie la valeur Test de Studet de comparaiso des moyees Comparer les moyees des deux échatillos, c est tester : H 0 : m 1 = m 2 cotre H 1 : m 1 m 2 L idée aturelle est de rejeter m 1 = m 2 quad la différece etre les moyees empiriques des deux échatillos est trop grade, d où ue régio critique de la forme W = { x 1 ȳ 2 > l α }. Pour détermier l( α, o a besoi ) de la loi de probabilité ( de ) X 1 Ȳ 2 sous H 0. Or o sait que X 1 est de loi N m 1, σ2 1 et Ȳ 2 est de loi N m 2, σ2 2. Ces deux variables aléatoires 1 2 ( ) état idépedates, o e déduit que X 1 Ȳ 2 est de loi N m 1 m 2, σ2 1 + σ Doc fialemet, la variable aléatoire U = ( X 1 Ȳ 2 ) (m 1 m 2 ) σ 2 1 et, sous H 0, X 1 Ȳ 2 σ σ2 2 2 est de loi N (0, 1). 1 + σ2 2 2 est de loi N (0, 1) σ 2 1 et σ 2 2 état icoues, o e peut pas utiliser directemet cette variable aléatoire pour costruire le test. O va alors costruire l équivalet d u test de Studet. Pour cela, o pose Z = ( 1 1)S 2 X ( 2 1)S 2 Y σ 2 2 σ ( 2 1)S 2 Y σ 2 2. Etat doé que ( 1 1)S 2 X σ 2 1 est de loi χ 2 1 1, est de loi χ et que ces deux variables aléatoires sot idépedates, Z est de loi χ Le théorème de Fisher permet d établir que U et Z sot idépedats. Par coséquet, par défiitio de la loi de Studet, la variable aléatoire U Z = σ σ2 2 2 ( X 1 Ȳ 2 ) (m 1 m 2 ) ( 1 1)S 2 X σ1 2 + ( 2 1)S 2 Y σ 2 2
80 80 Chapitre 5 - Tests d hypothèses est de loi de St( ). Das cette expressio, les paramètres icous σ 2 1 et σ 2 2 subsistet. Mais o remarque que, sous l hypothèse σ 2 1 = σ 2 2, ils disparaisset. Pour savoir si cette hypothèse est valide, il suffit d appliquer le test de Fisher vu précédemmet. Par coséquet, la démarche à suivre cosiste à tester d abord l égalité des variaces. Si le test de Fisher e rejette pas l égalité des variaces, o cosidèrera que σ1 2 = σ2. 2 Alors, la variable aléatoire ( X 1 Ȳ 2 ) (m 1 m 2 ) est de ( 1 1)S 2 X + ( 2 1)S 2 Y 1 2 loi St( ), et, sous l hypothèse m 1 = m 2, T = ( X 1 2 ( ) 1 Ȳ 2 ) ( ) [ ] ( 1 1)S 2 X + ( 2 1)S 2 Y est de loi St( ), ce qui fourit la foctio pivotale cherchée. Il e reste plus qu à e déduire, comme pour les tests de Studet sur u échatillo, que la régio critique est W = { t > t ,α}. De maière aalogue, o peut costruire les tests de m 1 m 2 cotre m 1 > m 2 et de m 1 m 2 cotre m 1 < m 2. Propriété 16 : Tests de Studet de comparaiso des moyees de deux échatillos gaussies idépedats de même variace. test de m 1 = m 2 cotre m 1 m 2 : W = { t > t ,α}. test de m 1 m 2 cotre m 1 > m 2 : W = {t > t ,2α}. test de m 1 m 2 cotre m 1 < m 2 : W = {t < t ,2α}. Remarque 1 : Das cette approche, o commet ue faute de raisoemet. E effet, si le test de Fisher e rejette pas l égalité des variaces, o peut e coclure qu o a pas de preuves suffisates pour cosidérer que les variaces sot différetes, mais o e peut pas pour autat cosidérer qu elles sot égales : c est u exemple de la différece etre e pas rejeter H 0 et accepter H 0. Pour bie faire, il faudrait pouvoir tester σ 2 1 σ 2 2 cotre σ 2 1 = σ 2 2. Mais c est impossible car l hypothèse ulle est trop vaste pour que l o puisse calculer le seuil d u tel test. O est doc cotraits d adopter la démarche présetée ici. Comme o l a dit précédemmet, pour u test bilatéral, e pas rejeter l hypothèse ulle reviet à cosidérer que le modèle correspodat est pas absurde, ce dot o se cotetera ici. Remarque 2 : A partir du test de m 1 = m 2 cotre m 1 m 2, o peut facilemet costruire u itervalle de cofiace pour la différece des moyees m 1 m 2 : X1 Ȳ 2 t ,α ( ) [ ( 1 1)S 2X + ( 2 1)S 2Y ] 1 2 ( ),
81 5.8 Test de comparaiso de deux échatillos 81 ( ) [ ] ( 1 1)S X 2X + ( 2 1)S 2Y 1 Ȳ 2 + t ,α 1 2 ( ) Remarque 3 : A priori, si le test de Fisher rejette l égalité des variaces, o e peut pas appliquer le test sur les moyees. E fait, le théorème cetral-limite permet de motrer que, si 1 et 2 sot suffisammet grads (supérieurs à 30), alors la loi de T est approximativemet la loi N (0, 1) même si les deux variaces sot différetes et e fait même si les deux échatillos e sot pas de loi ormale. Par coséquet, si o a beaucoup d observatios, le test de Studet permet de comparer les moyees d échatillos issus de importe quelle loi de probabilité. E revache, si o a peu d observatios, ce test e foctioe pas. O utilise alors d autres tests comme le test de Smith-Satterthwaite ou le test d Aspi-Welch. Remarque 4 : La gééralisatio de ce problème à la comparaiso des moyees de k échatillos gaussies idépedats fait l objet d u domaie importat de la statistique appelé l aalyse de variace, qui sera vue das le cours d Aalyse Statistique Multidimesioelle. Das l exemple, o a pas rejeté l égalité des variaces, doc o peut appliquer le test de Studet. Comme il s agit de détermier si le premier groupe est meilleur que le deuxième et que cette hypothèse doit correspodre au rejet de H 0, o voit qu il s agit ici de tester m 1 m 2 cotre m 1 > m 2. La régio critique est doc W = {t > t ,2α}. Ici, t = Pour u seuil de 5%, o a t ,0.1 = t 54, > 1.68, doc o est das la régio critique, doc o rejette H 0. O coclut que la différece de moyee etre les deux groupes d étudiats est sigificative au seuil 5%. E R, la commade t.test déjà vue pour effectuer des tests sur la moyee d u échatillo gaussie, permet égalemet de comparer les moyees de deux échatillos gaussies idépedats. Elle doe égalemet u itervalle de cofiace pour la différece des moyees : > t.test(groupe1,groupe2,alterative="greater") Stadard Two-Sample t-test data: groupe1 ad groupe2 t = , df = 54, p-value = alterative hypothesis: true differece i meas is greater tha 0 95 percet cofidece iterval: If sample estimates: mea of groupe1 mea of groupe O retrouve que t = La p-valeur du test est 4.02%. Doc au seuil 5%, o rejettera bie H 0, par cotre o e la rejettera pas au seuil 1%.
82 82 Chapitre 5 - Tests d hypothèses Comparaiso de deux proportios Das cette sectio, o supposera que les deux échatillos sot idépedats et de loi de Beroulli et o comparera leurs paramètres. X 1,..., X 1 sot idépedates et de même loi B(p 1 ) et Y 1,..., Y 2 idépedates et de même loi B(p 2 ). Les X i et les Y j sot idépedates. O souhaite comparer p 1 et p 2, c est-à-dire effectuer des tests du type p 1 p 2 cotre p 1 > p 2 ou p 1 = p 2 cotre p 1 p 2. Comme pour les tests sur ue proportio vus das le chapitre précédet, il est pas écessaire de coaître l esemble des observatios, mais seulemet T 1 = 1 X i et T 2 = 2 j=1 Y j, qui sot idépedates et respectivemet de lois biomiales B( 1, p 1 ) et B( 2, p 2 ). O se cotetera ici de supposer que les tailles d échatillos sot suffisammet grades pour que l o puisse appliquer le théorème cetral-limite et faire l approximatio de la loi biomiale par la loi ormale. Alors o peut cosidérer que T 1 et T 2 sot des variables aléatoires idépedates et approximativemet de lois ormales, respectivemet N ( 1 p 1, 1 p 1 (1 p 1 )) et N ( 2 p 2, 2 p 2 (1 p 2 )). Cocrètemet, cela sigifie que l o a ue première populatio de taille 1 et ue secode de taille 2. O s itéresse pour chaque idividu das ces deux populatios à ue caractéristique doée (électeur votat pour le cadidat A, pièce défectueuse, habitat malade,...). Pour la première populatio, X i vaut 1 si le ième idividu présete la caractéristique et 0 sio, et T 1 est le ombre total d idividus présetat cette caractéristique. p 1 est la probabilité qu u idividu de cette populatio présete cette caractéristique. Elle est estimée par la proportio T 1 1 d idividus de la populatio présetat la caractéristique. Exemple : La machie 1 a produit 96 pièces dot 12 défectueuses. La machie 2 a produit 55 pièces dot 10 défectueuses. Les pourcetages de pièces défectueuses produites par ces machies sot respectivemet = 12.5% et = 18.2%. Peut-o e coclure que la machie 1 est sigificativemet plus performate que la machie 2? Les ESBVM de p 1 et p 2 sot T 1 et T 2. Si o veut tester H 0 : p 1 = p 2 cotre H 1 : 1 2 p 1 p 2, il est logique de rejeter H 0 si T 1 T est trop grad, doc de choisir ue { t 1 régio critique de la forme W = t } 2 1 > l α. T 1 et T 2 sot idépedates et (asymptotiquemet) de lois ormales N 1 ( 2 p 2, p ) 2(1 p 2 ), doc T 1 T 2 est de loi N et N 2 ( p 1, p 1(1 p 1 ) ( 1 p 1 p 2, p 1(1 p 1 ) + p ) 2(1 p 2 ). 1 2 Sous H 0, p 1 = p 2. O peut doc poser p = p 1 = p 2. Alors T 1 1 T 2 2 est de loi )
83 5.8 Test de comparaiso de deux échatillos 83 N ( ( 1 0, p(1 p) + 1 )) et 1 2 T 1 T ( 1 p(1 p) ) est de loi N (0, 1). Comme p est icou, cette variable aléatoire e peut pas servir de foctio pivotale. Mais o peut motrer que le résultat reste vrai quad o remplace p par so estimateur ˆp = T 1 + T E effet, sous H 0 o a u seul échatillo de taille et ˆp est bie l ESBVM de p. Doc fialemet, sous H 0, la variable aléatoire U = T 1 T ( T 1 + T 2 1 T ) ( 1 + T ) est asymptotiquemet de loi N (0, 1), ce qui permet de costruire le test. Propriété 17 : Tests asymptotiques de comparaiso de deux proportios. test de p 1 = p 2 cotre p 1 p 2 : W = { u > u α }. test de p 1 p 2 cotre p 1 > p 2 : W = {u > u 2α }. test de p 1 p 2 cotre p 1 < p 2 : W = {u < u 2α }. Das l exemple, il s agit de tester p 1 p 2 cotre p 1 < p 2. O a 1 = 96, t 1 = 12, 2 = 55 et t 2 = 10. Par coséquet, = 12.5% et t 2 = 18.2%. O trouve 1 2 t 1 + t = 14.6%, d où u = ( ( ) ) = Au seuil 5% o a 55 u 2α = > 1.645, doc o e rejette pas H 0 : la différece etre les deux proportios de pièces défectueuses est pas sigificative au seuil 5%. E R, le test s effectue à l aide de la commade prop.test et fourit e même temps u itervalle de cofiace pour p 1 p 2. Le terme correct=f est préset car o peut évetuellemet predre e compte ue correctio de cotiuité qui reflète le fait qu o approche ue loi discrète (biomiale) par ue loi cotiue (ormale). > prop.test(c(12,10),c(96,55),alterative="less", correct=f) 2-sample test for equality of proportios without cotiuity correctio data: c(12, 10) out of c(96, 55) X-squared = , df = 1, p-value = t 1
84 84 Chapitre 5 - Tests d hypothèses alterative hypothesis: less 95 percet cofidece iterval: sample estimates: prop 1 prop La statistique de test calculée (X-squared) est e fait U 2 qui, sous H 0, est de loi χ 2 1. La p-valeur vaut 17%, doc pour rejeter H 0, il faudrait predre u risque d erreur assez grad (supérieur à 17%). O est doc assez cofiat das le fait que la différece des deux proportios est pas sigificative Comparaiso d échatillos gaussies appariés Deux échatillos sot dits appariés si et seulemet si ils sot costitués de deux mesures successives de la même variable sur les mêmes idividus. Exemple : Afi de mesurer les effets d u ouveau régime amaigrissat, celui-ci a été testé sur 15 idividus pris au hasard das ue populatio. Le tableau 5.2 doe leur poids e kg avat et après le régime. Le régime est-il efficace? avat après Table 5.2 poids avat et après u régime amaigrissat de 15 idividus Mathématiquemet, les observatios sot deux échatillos de même taille, que l o otera X 1,..., X et Y 1,..., Y. Les X i sot idépedats etre eux, les Y j aussi, mais X i et Y i e sot pas idépedats, puisqu ils correspodet à des mesures faites sur le même idividu. O se cotetera ici de supposer que les deux échatillos sot gaussies, les X i de loi N (m 1, σ 2 1), les Y j de loi N (m 2, σ 2 2), et que les vecteurs (X i, Y i ) sot gaussies. Alors les Z i = X i Y i sot idépedats et de même loi ormale d espérace E(X i ) E(Y i ) = m 1 m 2 = m. La procédure s appliquera égalemet à des échatillos de lois quelcoques mais de grade taille, e vertu du théorème cetral-limite. Alors, tester m 1 = m 2 sur les deux échatillos, c est tester m = 0 sur l échatillo des Z i. Comme c est u échatillo gaussie, o peut le faire grâce au test de Studet usuel. Das l exemple, le régime est efficace si le poids moye après régime est iférieur au poids moye avat régime. O doit doc faire u test de m 1 m 2 cotre m 1 > m 2, ce qui reviet à faire u test de m 0 cotre m > 0 sur l échatillo des différeces de poids avat et après le régime : { z 0 La régio critique est W = > t 1,2α }, z et s z état les moyee et s z écart-type estimés du troisième échatillo.
85 5.9 Le test du χ 2 85 Ici, = 15, z = 1.73 et s z = 3.08, doc z s z = Pour α = 5%, t 14,0.1 = > 1.76, doc o rejette H 0 et o coclut que le régime est bie efficace, avec mois de 5% de chaces de se tromper. E R, o peut soit créer le troisième échatillo et faire u test de Studet usuel, soit partir des deux échatillos et préciser das l appel du test qu ils sot appariés. O obtiet égalemet u itervalle de cofiace pour m 1 m 2. > t.test(avat,apres,alterative="greater",paired=t) Paired t-test data: avat ad apres t = , df = 14, p-value = alterative hypothesis: true differece i meas is greater tha 0 95 percet cofidece iterval: If sample estimates: mea of the differeces La p-valeur vaut 2.35%, doc o rejette bie H 0 au seuil 5%, mais o e la rejetterait pas au seuil 1%. 5.9 Le test du χ 2 Nous termios ce chapitre par ue présetatio du plus célèbre des tests d hypothèses, le test du χ 2. Il y a e fait plusieurs variates de ce test. Le poit de départ est le test portat sur les probabilités d évèemets Le test du χ 2 sur les probabilités d évèemets Exemple itroductif. O jette u dé 300 fois. O obtiet les résultats suivats : face obteue ombre de lacers Peut-o e coclure que le dé est équilibré? Ue idée aturelle est de dire que, si le dé est équilibré, o devrait avoir à peu près 300/6 = 50 fois chaque face. Si le résultat s éloige trop de 50 sur quelques ues des faces, o peut douter du fait que le dé est équilibré. Or o observe 61 fois la face 6 et 42 fois la face 1 : est-ce trop ou trop peu pour u dé équilibré? O peut doc peser à rejeter l hypothèse que le dé est équilibré si la distace etre les vecteurs (42, 43, 56, 55, 43, 61) et (50, 50, 50, 50, 50, 50) est trop grade. Il reste à choisir ue distace appropriée. Plus gééralemet, o s itéresse à ue expériece qui a k issues possibles. O sait que, sous ue certaie hypothèse H 0, les probabilités d apparitio de ces k issues sot respec-
86 86 Chapitre 5 - Tests d hypothèses tivemet p 1,..., p k (avec k j=1 p j = 1). O fait expérieces idetiques et idépedates et o compte les ombres j de fois où l issue j s est produite. O a forcémet k j =. Le problème est de décider si l observatio de 1,..., k est compatible avec l hypothèse H 0 que les probabilités des issues sot p 1,..., p k. Das l exemple, k = 6, j {1,..., 6}, p j = 1 6 et = 300. Sous H 0, o s atted à observer e moyee p j fois l issue j (50 fois chaque face das l exemple). Il s agit doc de détermier si les j sot sigificativemet proches ou éloigés des p j. O peut alors peser à ue régio critique de la forme : { k } W = ( j p j ) 2 > l α j=1 j=1 Pour détermier l α, il faut coaitre la loi de probabilité sous H 0 de ou d ue variable aléatoire aalogue. k j=1 (N j p j ) 2, Il est clair que, pour tout j, N j est de loi biomiale B(, p j ), mais les N j e sot pas idépedates. E effet, puisque avec certitude. k j=1 N j =, si o coait N 1,..., N k 1, o coait N k Pour tout k-uplet d etiers ( 1,..., k ) tels que k j =, o a : P (N 1 = 1,..., N k = k ) = P ( sur les expérieces, o a eu 1 fois l issue 1,..., k fois l issue k) j=1 = C 1 p 1 1 C 2 1 p C k 1... k 1 p k k! = 1!... k! p p k k O dit que le vecteur (N 1,..., N k ) est de loi multiomiale M(; p 1,..., p k ). Le test du χ 2 est basé sur le théorème suivat : Propriété 18. Théorème de Pearso : Si (N 1,..., N k ) est de loi M(; p 1,..., p k ), alors : k 2 (N j p j ) 2 L = χ 2 k 1 p j j=1 Par coséquet, o peut costruire u test cosistat à rejeter l hypothèse que les vraies probabilités des issues sot p 1,..., p k si 2 est trop grad.
87 5.9 Le test du χ 2 87 Défiitio 16 : O appelle test du khi-deux le test de H 0 : les probabilités des k issues sot p 1,..., p k cotre H 1 = H 0 défii par la régio critique : { k } ( j p j ) 2 W = > z k 1,α p j j=1 O costate que la régio critique a pas tout à fait la forme proposée, mais elle s e rapproche. Das l exemple du dé, l hypothèse que le dé est équilibré s écrit H 0 : j, p j = 1 6. Alors, la statistique de test vaut δ 2 = (42 50) (61 50)2 50 = Au seuil α = 5%, z 5,0.05 = est ettemet iférieur à 11.07, doc o e rejette pas H 0 : rie idique que le dé est pas équilibré. E R, la commade pour le test du χ 2 est chisq.test : > de<-c(42,43,56,55,43,61) > chisq.test(de,p=rep(1/6,6)) Chi-squared test for give probabilities data: de X-squared = 6.88, df = 5, p-value = La p-valeur est de 23%, ce qui est assez élevé : même e s autorisat 20% de chaces de se tromper, o e rejetterait pas H 0. Par coséquet, pour u dé équilibré, il est pas du tout improbable d observer 61 fois la face 6, même si o s atted à e l observer e moyee que 50 fois. Remarque : Le résultat du théorème de Pearso est qu asymptotique, doc il est valable que pour suffisammet grad. E pratique, o cosidère que l o peut effectuer le test si pour tout j, j 5, ce qui est le cas das l exemple. Le théorème de Pearso permet e fait de tester l adéquatio d u échatillo à ue loi de probabilité. Il faut distiguer les cas d u test d adéquatio à ue loi etièremet spécifiée ou à ue famille de lois Test d adéquatio du χ 2 à ue loi etièremet spécifiée Les doées sot u échatillo x 1,..., x. Le problème est de détermier si ces observatios peuvet être cosidérées comme des réalisatios de variables aléatoires X 1,..., X idépedates et de même loi doée (ormale, expoetielle, biomiale, etc...). Nous avos déjà vu que l histogramme et le graphe de probabilités permettet de doer ue première répose à cette questio. Mais cette répose est que qualitative et est basée sur u jugemet visuel : deux persoes peuvet avoir des coclusios différetes au vu du même histogramme. De plus, o e sait pas quatifier l erreur que l o fait si o refuse telle ou telle loi de probabilité au vu de l échatillo.
88 88 Chapitre 5 - Tests d hypothèses Or il est parfaitemet possible de costruire u test statistique pour répodre à ce problème. U tel test est appelé test d adéquatio ou test d ajustemet. E théorie, o devrait toujours appliquer u test d adéquatio avat d utiliser importe quel modèle probabiliste sur des doées. E pratique, o e le fait pas toujours, ce qui etraie parfois l utilisatio de modèles complètemet erroés. O distiguera deux cas, suivat que l o veut tester l adéquatio de l échatillo à ue loi de probabilité etièremet spécifiée ou à ue famille de lois de probabilité. O s itéresse pour l istat au premier cas. Soit F la foctio de répartitio icoue des X i. Il s agit de tester : H 0 : F = F 0 cotre H 1 : F F 0. où F 0 est la foctio de répartitio de la loi dot o souhaite tester que les observatios sot issues. C est le cas quad o se demade si les observatios sot issues d ue loi ormale de moyee 10 et de variace 4. Ou bie, pour tester l efficacité d u géérateur de ombres aléatoires, o testera l adéquatio à la loi uiforme sur [0, 1] d u échatillo de ombres simulés. Quad les variables aléatoires observées sot discrètes, c est à dire à valeurs das u esemble fii ou déombrable, les observatios x 1,..., x ot pris k valeurs différetes e 1,..., e k. Soit j = 1 {ej }(x i ) le ombre d observatios égales à e j. Sous l hypothèse H 0 que les X i sot idépedates et de loi doée, o peut calculer les p j = P (X = e j ). (N 1,..., N k ) est bie de loi M(; p 1,..., p k ), doc o peut appliquer le théorème de Pearso et utiliser le test du χ 2 pour tester l adéquatio de l échatillo à cette loi. Quad les variables aléatoires observées sot cotiues, il faut regrouper les observatios e classes, comme pour u histogramme. O partitioe le support de la loi à tester e k itervalles ]a j 1, a j ] et o compte les ombres d observatios apparteat à chaque classe : j = 1 ]aj 1,a j ](x i ). Sous H 0 : F = F 0, la probabilité qu ue observatio appartiee à la classe j est p j = P (a j 1 < X a j ) = F 0 (a j ) F 0 (a j 1 ). O se retrouve alors bie das le cadre du théorème de Pearso et o peut appliquer le test du χ 2. Remarque : Le ombre de classes coseillé pour effectuer u test du χ 2 est pas le même que le ombre de classes coseillé pour dessier u histogramme. E pratique, o predra k 2 2/5. D autre part, o a vu plus haut qu il est coseillé de effectuer le test que si o a au mois 5 observatios par classe. La cojoctio de ces deux règles fait qu il faut au mois ue ciquataie d observatios pour effectuer u test du χ 2 das de boes coditios Test d adéquatio du χ 2 à ue famille de lois Il s agit de tester : H 0 : F F cotre H 1 : F / F,
89 5.9 Le test du χ 2 89 où F est ue famille de lois de probabilité, dépedat e gééral d u paramètre θ : F = {F (., θ); θ Θ}. C est le cas quad o se demade simplemet si les observatios sot issues d ue loi ormale, sas doer de valeur a priori aux paramètres. Si le modèle de loi ormale est adopté, o pourra toujours estimer les paramètres ultérieuremet. O repred la démarche effectuée précédemmet qui cosiste à regrouper les observatios e classes. Sous l hypothèse H 0, la probabilité d apparteir à la classe j est p j = F (a j ; θ) F (a j 1 ; θ), qui est icoue car elle déped de θ. L idée aturelle est de remplacer θ par u estimateur ˆθ et doc p j par ˆp j = F (a j ; ˆθ ) F (a j 1 ; ˆθ ). La statistique de test deviet doc ˆ 2 = k (N j ˆp j ) 2. Mais le théorème de Pearso j=1 ˆp j e s applique plus : ˆ 2 e coverge pas e loi vers la loi χ 2 k 1. O dispose alors du résultat suivat : Pour k et suffisammet grads, si ˆθ est l estimateur de maximum de vraisemblace de θ, alors ˆ 2 = k (N j ˆp j ) 2 est approximativemet de loi χ 2 k 1 d, où d est la dimesio du paramètre θ. Autremet dit, estimer u paramètre de dimesio d reviet à j=1 ˆp j elever d degrés de liberté à la loi du χ 2. Par coséquet, le test deviet : Propriété 19 Test d adéquatio du χ 2 à ue famille de lois : test de H 0 : F F cotre H 1 : F / F, où F = {F (., θ); θ Θ}. { k } ( j ˆp j ) 2 W = > z k 1 d,α ˆp j où d est la dimesio de θ. j=1 Exemple : Repreos l exemple des doées sur les iveaux de bruit. U histogramme et u graphe de probabilités ous ot ameés à admettre que la loi du iveau de bruit était ue loi ormale. Nous allos le vérifier à l aide d u test du χ 2. O souhaite tester H 0 : Les observatios provieet d ue loi ormale cotre H 1 : Les observatios e provieet pas d ue loi ormale. La loi ormale a d = 2 paramètres. Les estimatios de maximum de vraisemblace de m et σ 2 sot respectivemet x = 64.2 et s 2 = Notos qu il faut bie utiliser l estimateur de maximum de vraisemblace de σ 2, même s il est pas optimal. Nous avos costruit u histogramme à k= 5 classes de même effectif. Nous e sommes pas tout à fait das les coditios d applicatio du test puisqu il faudrait e théorie au mois 5 observatios par classe et que ous e avos que 4. Appliquos éamois le test pour compredre so foctioemet. O a : ( aj 1 m p j = P (a j 1 < X a j ) = P σ ( ) ( ) aj m aj 1 m = φ φ σ σ < X m σ a ) j m σ
90 90 Chapitre 5 - Tests d hypothèses ( ) ( ) aj x aj 1 x d où ˆp j = φ φ. s s Avec comme bores des classes (54.3, 60.0, 63.3, 65.6, 68.3, 73.9), o obtiet que le vecteur des ˆp j est (0.170, 0.232, 0.181, 0.211, 0.155), d où ˆδ 2 = 5 (4 20ˆp j ) 2 = j=1 20ˆp j Au seuil 5%, z 2,0.05 = << 5.99, doc o e rejette pas H 0, et de loi. La p-valeur est 1 F χ 2 2 (0.514) = 77.33%, qui est très élevée. O est doc bie loi de rejeter H 0 et o peut avoir ue très boe cofiace das la ormalité des observatios. Das les aciees versios de R, la commade chisq.gof permettait d effectuer directemet le test du χ 2 d adéquatio à ue famille de lois. Cette commade a étragemet disparu des versios récetes. Il faut doc effectuer toutes les opératios décrites ci-dessus pour mettre e oeuvre le test. Remarque : Le test du χ 2 est le plus cou des tests d adéquatio. Il est pourtat bie loi d être le meilleur. Par exemple, o pourra utiliser e R deux tests plus performats, le test de Kolmogorov-Smirov (ks.test) et le test de Shapiro-Wilk (shapiro.test).
91 Chapitre 6 La régressio liéaire 6.1 Itroductio Das la quasi-totalité de ce cours, o a cosidéré que les observatios étaiet uidimesioelles, c est-à-dire que les variables aléatoires étudiées étaiet à valeurs das IR ou u sous-esemble de IR. O a commecé à aborder le cas de doées bidimesioelles quad il a été questio de comparaiso d échatillos appariés X 1,..., X et Y 1,..., Y, où X i et Y i e sot pas idépedats. E effet, o peut cosidérer que l o dispose e fait de l observatio d u seul échatillo de couples aléatoires (X 1, Y 1 ),... (X, Y ). Le problème est alors l étude de la loi du couple (X i, Y i ), ce qui écessite de se poser la questio de la dépedace etre X i et Y i. U problème de régressio cosiste à chercher ue foctio f telle que pour tout i, Y i soit approximativemet égale à f(x i ). Le cas le plus simple est celui de la régressio liéaire simple, où o cherche f de la forme f(x) = β 1 x + β 0. Pour estimer β 1 et β 0, o utilise la fameuse méthode des moidres carrés. Exemple : Pour tester la performace du système de freiage d ue voiture, o la fait rouler jusqu à atteidre ue vitesse x (e mètres par secode), à laquelle o freie. O mesure alors la distace de freiage y (e mètres). O fait l expériece pour vitesses différetes x 1,..., x et o mesure les distaces de freiage correspodates y 1,..., y. Toutes les mesures sot faites avec le même véhicule et le même pilote, et sot supposées idépedates. O obtiet le tableau 6.1 : uméro de mesure i vitesse x i distace de freiage y i Table 6.1 Vitesse et distace de freiage d ue voiture Quel modèle de dépedace etre la distace de freiage et la vitesse peut-o proposer? Ue dépedace affie est-elle raisoable? Peut-o estimer la distace de freiage d ue voiture lacée à 50 m/s? Avec quelle précisio?
92 92 Chapitre 6 - La régressio liéaire 6.2 Le modèle de régressio liéaire simple O dispose de doées bidimesioelles qui sot couples (x i, y i ). y i est supposée être la réalisatio d ue variable aléatoire Y i. A priori, x i pourrait être aussi la réalisatio d ue variable aléatoire X i. E fait, o peut motrer que les méthodes développées pour le cas où les x i sot supposés costats suffiset à traiter le cas où les x i sot des réalisatios de variables aléatoires. Aussi, das tout ce chapitre, ous supposeros que les x i sot des costates coues. Faire ue régressio de y sur x, c est étudier le type de dépedace etre y et x. y peut dépedre de x, mais aussi de quatité d autres facteurs qu o e coaît pas forcémet. L hypothèse du modèle de régressio est que les effets de x et des autres facteurs s ajoutet. Défiitio 17 : Le modèle de régressio de Y sur x est défii par : Y = f(x) + ε où Y est la variable à expliquer ou variable expliquée. x est la variable explicative ou prédicteur ou régresseur. ε est l erreur de prévisio de Y par f(x) ou résidu. Das l exemple, il est clair que la distace de freiage y déped de la vitesse x, mais pas seulemet : l état de la route, la météo, la ervosité du coducteur, peuvet ifluer sur la distace de freiage. La vitesse à laquelle o freie peut être cotrôlée par le coducteur, doc o peut supposer que les x i sot des costates coues. E revache, même quad o coait x, la distace de freiage est pas prévisible avec certitude à l avace. Doc il est logique de supposer que les y i sot des réalisatios de variables aléatoires Y i. Il faut doc exprimer le fait que les variables aléatoires Y i dépedet des x i et d u certai ombre d autres facteurs imprévisibles et o mesurés, dot o suppose que l effet s ajoute à celui des x i. Comme les doées cosistet e plusieurs observatios de Y, obteues pour différetes valeurs de x, le modèle s écrit : i {1,..., }, Y i = f(x i ) + ε i Il faut alors préciser la forme de f et la loi de probabilité du vecteur des résidus ε i. Le modèle de régressio liéaire simple est obteu e supposat que f est ue foctio affie de x et que les résidus ε i sot idépedats, de même loi, cetrés et de variace σ 2. Cela reviet à supposer que les mesures sot idépedates, effectuées das les mêmes coditios (même loi) et que les effets des facteurs autres que le prédicteur s équilibret (E(ε i ) = 0). Défiitio 18 : Le modèle de régressio liéaire simple ou modèle liéaire simple est défii par : i {1,..., }, Y i = β 1 x i + β 0 + ε i où β 0 et β 1 sot des paramètres réels icous, et les résidus ε i sot idépedats, de même loi, cetrés et de variace σ 2.
93 6.3 Estimatio par la méthode des moidres carrés 93 Das u premier temps, o e doe pas plus de précisios sur la loi des résidus. O verra que l o peut estimer β 0, β 1 et σ 2 sas coaître cette loi. Usuellemet, o suppose que les résidus sot de loi ormale. Le modèle est alors u modèle liéaire gaussie. L espérace et la variace de Y i sot : E(Y i ) = E ( β 1 x i + β 0 + ε i ) = β1 x i + β 0 V ar(y i ) = V ar ( β 1 x i + β 0 + ε i ) = V ar(εi ) = σ 2 σ 2 mesure le bruit ou le poids des facteurs autres que x. Plus σ 2 est élevé, plus Y i fluctue autour de β 1 x i +β 0. Iversemet, pour σ 2 = 0, les poits (x i, Y i ) sot parfaitemet aligés : Y i est plus aléatoire. Les problèmes statistiques qui se poset sot : L estimatio de β 1, β 0 et σ 2, poctuelle et par itervalle de cofiace. La costructio de tests d hypothèses portat sur β 1, β 0 et σ 2. La prévisio de y coaissat x. La validatio du modèle : la liaiso etre la vitesse et la distace de freiage est-elle bie affie? Remarque fodametale : Das u modèle de régressio liéaire simple, la liaiso etre x et y est pas liéaire, mais affie. Par abus de lagage, o dit souvet que y déped liéairemet de x. Mais e fait, ce qui est importat, c est que y dépede liéairemet du couple (β 1, β 0 ). Aisi, cotrairemet aux appareces, les modèles suivats sot bie des modèles liéaires : 1. Y i = β 1 l x i + β 0 + ε i 2. Y i = β 2 x 2 i + β 1 x i + β 0 + ε i 3. Modèle de Cobb-Douglas : Y i = β 0 x β 1 i ε i (car l Y i = β 1 l x i + l β 0 + l ε i ) 4. Modèle logistique : Y i = e(β 1x i +β 0 +ε i ) 1 + e (β 1x i +β 0 +ε i ) (car l Y i 1 Y i = β 1 x i + β 0 + ε i ) E revache, le modèle Y i = β 1 + e β 0x i + ε i est pas liéaire. 6.3 Estimatio par la méthode des moidres carrés La première chose à faire est de dessier le uage des poits (x i, y i ), i {1,..., }, pour détermier le type de liaiso pouvat exister etre x et y. A priori, importe quel type de liaiso est possible, par exemple celles présetées das la figure 6.1. E R, la foctio plot permet de dessier ce uage. Sur l exemple, o obtiet la figure 6.2 : > vitesse<-c(5,10,15,20,25,30,35,40) > freiage<-c(3.42,5.96,31.14,41.76,74.54,94.92,133.78,169.16) > plot(vitesse,freiage)
94 94 Chapitre 6 - La régressio liéaire liaiso affie liaiso o affie e x pas de liaiso apparete Figure 6.1 Exemple de différetes liaisos possibles etre x et y freiage vitesse Figure 6.2 Vitesse et distace de freiage : uage de poits y ι ^ y x ι = β + β 1 ι 0 Figure 6.3 La droite des moidres carrés
95 6.3 Estimatio par la méthode des moidres carrés 95 A première vue, l hypothèse de liaiso affie peut être reteue pour ces doées. E fait, o verra plus tard qu il existe des méthodes statistiques permettat de juger de la pertiece de cette hypothèse plus précisémet que par ue simple impressio visuelle. Le problème est maiteat de trouver la droite la plus proche de ce uage, e u certai ses. La méthode la plus courammet utilisée est la méthode des moidres carrés, qui cosiste à predre la droite pour laquelle la somme des carrés des distaces verticales des poits à la droite est miimale (voir figure 6.3). Remarquos que ce est pas la distace euclidiee usuelle qui est utilisée. La somme des carrés des distaces verticales des poits du uage à la droite d équatio y = β 1 x+β 0 est (y i β 1 x i β 0 ) 2. Il faut trouver les valeurs de β 1 et β 0 qui miimiset cette quatité. Il reviet au même de miimiser la quatité δ 2 = 1 (y i β 1 x i β 0 ) 2, appelée erreur quadratique moyee. C est e effet ue mesure de l erreur moyee que l o commet e estimat y i par ŷ i = β 1 x i + β 0 : δ 2 = 1 (y i ŷ i ) 2. C est ce qui justifie le om de moidres carrés pour cette méthode. Pour miimiser δ 2, il suffit d auler les dérivées partielles de δ 2 par rapport à β 1 et β 0 : δ 2 = 2 [ 1 1 x i (y i β 1 x i β 0 ) = 2 x i y i β 1 x 2 1 ] i β 0 x i β 1 δ 2 = 2 [ 1 1 ] (y i β 1 x i β 0 ) = 2 y i β 1 x i β 0 β 0 O pose : x = 1 x i moyee empirique des x i ȳ = 1 y i moyee empirique des y i s 2 x = 1 (x i x ) 2 = 1 x 2 i x 2 variace empirique des x i s 2 y = 1 (y i ȳ ) 2 = 1 yi 2 ȳ 2 variace empirique des y i c xy = 1 (x i x )(y i ȳ ) covariace empirique etre les x i et les y i = 1 x i y i x ȳ r xy = c xy s x s y coefficiet de corrélatio liéaire empirique etre les x i et les y i x et s 2 x sot des costates. ȳ, s 2 y, c xy et r xy sot des réalisatios de variables aléatoires, que l o ote respectivemet Ȳ, S 2 Y, C xy et R xy.
96 96 Chapitre 6 - La régressio liéaire r xy est la versio empirique du coefficiet de corrélatio liéaire ρ(x, Y ) et possède des propriétés équivaletes : r xy [ 1, 1] r xy = +1 les poits (x i, y i ) sot aligés sur ue droite de pete positive. r xy = 1 les poits (x i, y i ) sot aligés sur ue droite de pete égative. si y e déped pas de x, r xy doit être proche de 0. Réciproquemet, si r xy est proche de 0, alors il y a pas de dépedace affie etre x et y, mais il est possible qu il existe ue dépedace o affie. E R, r xy est doé par cor(x,y). La commade cov(x,y) e doe pas c xy mais 1 c xy, pour les mêmes raisos qui fot que var(x) doe s 2 x au lieu de s 2 x. Reveat à la miimisatio de δ 2, o obtiet : δ 2 β 0 = 0 = ȳ β 1 x β 0 = 0 Par coséquet, la droite des moidres carrés passe par le barycetre du uage, c est à dire le poit de coordoées ( x, ȳ ). E preat e compte β 0 = ȳ β 1 x, o obtiet : δ 2 β 1 = 0 = c xy + x ȳ β 1 (s 2 x + x 2 ) (ȳ β 1 x ) x = 0 D où c xy β 1 s 2 x = 0, et doc fialemet : Propriété 20 Les estimateurs des moidres carrés de β 1 et β 0 sot : β 1 = C xy s 2 x et β0 = Ȳ C xy s 2 x x L équatio de la droite des moidres carrés est alors : y = β 1 x + β 0 = ȳ + c xy (x x s 2 ) x C est ce résultat qu o utilise pour estimer graphiquemet des paramètres à partir d u graphe de probabilités. L erreur quadratique moyee miimale est : δ 2 mi = 1 = 1 (y i β 1 x i β 0 ) 2 = 1 ( y i ȳ c xy s 2 x (y i ȳ ) 2 2 c xy 1 (y s 2 i ȳ )(x i x ) + c xy 2 x s 4 x = s 2 y 2 c xy c s 2 xy + c xy 2 s 2 x s 4 x = s 2 y c xy 2 x s 2 x = s 2 y(1 rxy) 2 = s 2 y r2 xys 2 xs 2 y s 2 x ) 2 (x i x ) 1 (x i x ) 2
97 6.3 Estimatio par la méthode des moidres carrés 97 O e déduit e particulier que r xy [ 1, +1] et que δ 2 mi = 0 si et seulemet si r xy = ±1, c est-à-dire si et seulemet si les poits du uage sot aligés. C est logique. Il reste à motrer maiteat que la droite des moidres carrés fourit ue répose à otre problème, c est à dire que β 1 et β 0 sot des estimateurs de β 1 et β 0 de boe qualité das le modèle liéaire simple. E fait, il s avère que ce sot les meilleurs estimateurs liéaires possibles. Propriété 21 β 1 et β 0 sot des estimateurs sas biais de β 1 et β 0. Démostratio β 1 = C xy s 2 x = 1 s 2 x = 1 1 (x s 2 i x )(Y i x Ȳ) [ ] (x i x )Y i Ȳ (x i x ) } {{ } 0 = 1 s 2 x (x i x )Y i D où E( β 1 ) = 1 s 2 x = β 1 s 2 x = β [ 1 1 s 2 x (x i x )E(Y i ) = 1 (x i x )x i + β 0 s 2 x ] x 2 i x 2 = β 1 Doc β 1 est u estimateur sas biais de β 1. s 2 x (x i x )(β 1 x i + β 0 ) (x i x ) } {{ } 0 E( β 0 ) = E(Ȳ β 1 x ) = 1 E(Y i ) β 1 x = 1 (β 1 x i + β 0 ) β 1 x = β 1 x + β 0 β 1 x = β 0 Doc β 0 est u estimateur sas biais de β 0. De même, o motre que : Propriété 22 V ar( β 1 ) = σ2 s 2 x (, V ar( β 0 ) = σ2 Cov( β 1, β 0 ) = σ2 x, Cov( β s 2 1, Ȳ) = 0 x 1 + x2 s 2 x )
98 98 Chapitre 6 - La régressio liéaire O e déduit e particulier que β 1 et β 0 sot des estimateurs covergets e moyee quadratique et asymptotiquemet o corrélés. La pricipale propriété des estimateurs des moidres carrés est que, o seulemet ils sot sas biais, mais, de plus, ils sot optimaux au ses suivat : Propriété 23 : Théorème de Gauss-Markov. β 1 et β 0 sot les estimateurs de β 1 et β 0 sas biais et de variace miimale (ESBVM) parmi tous les estimateurs sas biais liéaires (qui s écrivet comme des combiaisos liéaires des Y i ). Nous avos estimé β 1 et β 0, il reste maiteat à estimer la variace des résidus σ 2. Puisque, pour tout i, σ 2 = V ar(ε i ) = V ar(y i β 1 x i β 0 ), il est aturel d estimer σ 2 par la variace empirique des Y i β 1 x i β 0. Défiitio 19 Les variables aléatoires E i = Y i Ŷi = Y i β 1 x i β 0 sot appelées les résidus empiriques. La variace empirique des résidus empiriques est otée SY 2 x et est appelée variace résiduelle. O a : S 2 Y x = 1 Ei 2 Ē2 = 1 (Y i β 1 x i β 0 ) 2 [ 1 (Y i β 1 x i β 0 ) = δmi 2 [Ȳ β 1 x β } {{ } 0 ] 2 (les résidus empiriques sot cetrés) 0 = δmi 2 = SY 2 (1 RxY 2 ) Doc la variace résiduelle est rie d autre que l erreur quadratique moyee miimale. Das le cas d u échatillo, la variace empirique est u estimateur biaisé de la variace de l échatillo. Pour la débiaiser, o la multiplie par. Ici, o a deux 1 échatillos. O peut motrer qu alors la variace résiduelle est u estimateur biaisé de σ 2, et que, pour la débiaiser, il faut la multiplier par. D où fialemet : 2 Propriété 24 σ 2 = 2 S2 Y x = estimateur sas biais de σ 2. 2 S2 Y (1 R2 xy ) = 1 2 ]2 (Y i β 1 x i β 0 ) 2 est u O a pas de résultat particulier sur la variace de cet estimateur das le cas gééral. Remarque : Il est importat de oter que toutes les propriétés éocées das cette sectio sot valables quelle que soit la loi des résidus ε i. Quad o rajoute ue hypothèse sur
99 6.3 Estimatio par la méthode des moidres carrés 99 cette loi, o peut doer des précisios sur la loi des estimateurs, leur qualité, costruire des itervalles de cofiace et des tests d hypothèses sur les paramètres du modèle. C est ce qu o fera das la sectio suivate e supposat les résidus de loi ormale. Reveos maiteat à l exemple sur la liaiso etre vitesse et distace de freiage. Les idicateurs statistiques sot : x = 22.5, ȳ = 69.33, s 2 x = , s 2 y = , c xy = , r xy = Le fait que r xy soit très proche de 1 idique ue forte corrélatio liéaire positive, ce qui se voit clairemet sur le uage de poits. Les estimatios des paramètres du modèle de régressio liéaire simple sot doées par : β 1 = c xy s 2 x = 4.82, β0 = ȳ c xy x s 2 = 39.06, σ 2 = x 2 s2 y(1 rxy) 2 = La droite des moidres carrés a doc pour équatio y = 4.82x O peut la superposer au uage des poits grâce à la commade R ablie et o obtiet la figure 6.4. > beta1chapeau<-cov(vitesse,freiage)/var(vitesse) > beta1chapeau [1] > beta0chapeau<-mea(freiage)-beta1chapeau*mea(vitesse) > beta0chapeau [1] > sigma2chapeau<-7/6*var(freiage)*(1-cor(vitesse,freiage)^2) > sigma2chapeau [1] > plot(vitesse,freiage) > ablie(beta0chapeau,beta1chapeau) freiage vitesse Figure 6.4 Vitesse et distace de freiage : droite des moidres carrés O peut alors facilemet prévoir la distace de freiage d ue voiture lacée à 50 m/s : = m.
100 100 Chapitre 6 - La régressio liéaire 6.4 Le modèle liéaire simple gaussie Défiitio du modèle et estimatio des paramètres O suppose maiteat que la loi des résidus est ue loi ormale. Cette hypothèse est souvet aturelle, par exemple quad les résidus représetet du bruit ou ue erreur de mesure. Défiitio 20 Le modèle de régressio liéaire simple gaussie est défii par : i {1,..., }, Y i = β 1 x i + β 0 + ε i où les ε i sot des variables aléatoires idépedates et de même loi ormale cetrée de variace σ 2, N (0, σ 2 ). Alors les Y i sot idépedates et de lois de probabilité respectives N (β 1 x i + β 0, σ 2 ). Cela permet d e déduire les lois de probabilité des estimateurs des paramètres : Propriété 25 β 1 est de loi N (β 1, σ2 s 2 x β 0 est de loi N (β 0, σ2 ). (1 + x2 s 2 x ) ). ( 2) σ2 = 1 (Y σ 2 σ 2 i β 1 x i β 0 ) 2 est de loi X 2. 2 σ 2 est idépedat de Ȳ, β 1 et β 0. β 1, β 0 et σ 2 sot les ESBVM de β 1, β 0 et σ 2. Les résultats sur β 1 et β 0 se démotret facilemet e utilisat le fait que toute combiaiso liéaire de variables aléatoires idépedates et de lois ormales (les Y i ) est ue variable aléatoire de loi ormale. Les résultats sur σ 2 sot plus complexes à démotrer et peuvet se compredre comme ue gééralisatio du théorème de Fisher. Efi, o savait déjà que β 1, β 0 et σ 2 étaiet des estimateurs sas biais et covergets de β 1, β 0 et σ 2. Le derier résultat de cette propriété dit que, das le cas gaussie, ces estimateurs sot e plus optimaux. Ituitivemet, cela sigifie que, das le modèle liéaire gaussie, les meilleurs estimateurs liéaires sot les meilleurs estimateurs tout court Maximum de vraisemblace Propriété 26 Les estimateurs de maximum de vraisemblace de β 1, β 0 et σ 2 sot β 1, β 0 et 2 σ2. Démostratio : La foctio de vraisemblace associée à l observatio y 1... y est : L(β 1, β 0, σ 2 ; y 1... y ) = f (Y1,...,Y )(y 1... y ) = f Yi (y i )
101 6.4 Le modèle liéaire simple gaussie 101 = (y i β 1 x i β 0 ) 2 1 σ 2π e 2σ 2 = 1 1 σ ( 2σ 2π) e 2 (y i β 1 x i β 0 ) 2 D où l L(β 1, β 0, σ 2 ; y 1,..., y ) = 2 l σ2 l 2π 1 2σ 2 (y i β 1 x i β 0 ) 2. Les valeurs de β 1 et β 0 qui maximiset la log-vraisemblace miimiset (y i β 1 x i β 0 ) 2 = δ 2 Par coséquet, les estimateurs de maximum de vraisemblace de β 1 et β 0 sot les estimateurs des moidres carrés β 1 et β 0. Quat à σ 2, o écrit : σ 2 l L(β 1, β 0, σ 2 ; y 1,..., y ) = 2σ σ 4 qui s aule pour σ 2 = 1 (y i β 1 x i β 0 ) 2. Doc l estimateur de maximum de vraisemblace de σ 2 est 1 (y i β 1 x i β 0 ) 2 (Y i β 1 x i β 0 ) 2 = δ 2 mi = S 2 Y x = 2 σ Itervalles de cofiace et tests d hypothèses O sait estimer poctuellemet β 1, β 0 et σ 2. O souhaite maiteat e doer des itervalles de cofiace et effectuer des tests d hypothèses sur la valeur de ces paramètres. O sait que β 1 β 1 ( 2) σ 2 s x est de loi N (0, 1), que est de loi X σ σ 2, 2 et que 2 ces deux variables aléatoires sot idépedates. Alors la défiitio de la loi de Studet permet d e déduire que : β 1 β 1 s x σ β1 β 1 2 = s x est de loi St( 2). ( 2) σ 2 σ σ 2 De la même faço, o obtiet : β 0 β 0 σ s x s 2 x + x 2 est de loi St( 2). O e déduit les itervalles de cofiace suivats :
102 102 Chapitre 6 - La régressio liéaire Propriété 27 U itervalle de cofiace de seuil α pour β 1 est : [ β 1 σt 2,α, s β 1 + σt ] 2,α x s x U itervalle de cofiace de seuil α pour β 0 est : [ β 0 t 2,α σ s 2 x + x 2, s β 0 + t ] 2,α σ s 2 x + x 2 x s x U itervalle de cofiace de seuil α pour σ 2 est : [ ] ( 2) σ 2 ( 2) σ2, z 2, α z 2 2,1 α 2 Das l exemple, choisissos pour seuil α = 10%. O a t 6,0.1 = 1.943, z 6,0.05 = et z 6,0.95 = O obtiet doc : IC(β 1 ) = [4.04, 5.60], IC(β 0 ) = [ 58.71, 19.41], IC(σ 2 ) = [80.2, 617.8] Les itervalles de cofiace pour β 0 et σ 2 sot larges, ce qui traduit le fait que ces paramètres sot plutôt mal estimés, essetiellemet à cause du faible ombre de doées. E revache, β 1 semble assez bie estimé. La dualité etre itervalles de cofiace et tests d hypothèses fait que l o peut très facilemet costruire des tests bilatéraux sur les paramètres à partir des itervalles précédets. Par exemple, pour tester H 0 : β 1 = b cotre β 1 b, o rejettera H 0 au seuil α si et seulemet si b est pas das l itervalle de cofiace de même seuil pour β 1. O obtiet : b / [ β 1 σt 2,α, s β 1 + σt ] 2,α x s x b < β 1 σt 2,α s x β 1 b < σt 2,α s x β 1 b > σt 2,α s x ou b > β 1 + σt 2,α s x ou β 1 b > σt 2,α s x O rejette β 1 = b ssi β 1 est trop éloigé de b. O e déduit la régio critique du test. De la même maière, o obtiet les régios critiques des tests similaires sur β 0 et σ 2 : Propriété 28 Tests d hypothèses bilatéraux sur β 1, β 0 et σ 2. Test de seuil α de β 1 = b cotre β 1 b : { β1 b } W = s x > t 2,α σ
103 6.4 Le modèle liéaire simple gaussie 103 Test de seuil α de β 0 = b cotre β 0 b : { β0 b s x W = σ s 2 x + x 2 > t 2,α } Test de seuil α de σ = σ 0 cotre σ σ 0 : { ( 2) σ 2 W = < z 2,1 α ou 2 σ 2 0 ( 2) σ 2 σ 2 0 > z 2, α 2 } De la même faço, o peut costruire des tests uilatéraux. Par exemple, o rejettera H 0 : β 1 b au profit de β 1 > b ssi β 1 b est sigificativemet grad, ce qui doe { β1 b pour régio critique W = s x > t 2,2α }. De même, u test de β 1 b cotre σ { β1 b β 1 < b aura pour régio critique W = s x < t 2,2α }. σ Parmi les autres hypothèses itéressates à tester figure évidemmet celle qui fode le modèle : y a-t-il vraimet ue dépedace affie etre x et y? Jusqu à maiteat, o a jugé de la pertiece du modèle de régressio liéaire que sur u critère graphique subjectif, e appréciat le degré d aligemet des poits du uage des (x i, y i ). Il est importat de proposer u critère statistique objectif. Pour cela, o remarque que, si les poits (x i, y i ) sot parfaitemet aligés, alors r xy est égal à ±1. Iversemet, si r xy est proche de 0, o peut rejeter l hypothèse de liaiso affie. Il est doc aturel de costruire u test de pertiece de la régressio liéaire qui cosiste à accepter la liaiso affie si r xy est suffisammet proche de ±1, ou si r xy est suffisammet éloigé de 0. E pratique, la questio que l o se pose est : à partir de quelle valeur de r xy peut-o admettre l hypothèse de liaiso affie etre les variables? 90 %? 95 %? 99 %? E fait, cette bore va dépedre de la taille de l échatillo et du risque d erreur que l o accepte de predre. L équatio de la droite de régressio est : y = ȳ + c xy (x x s 2 ) = ȳ + r xys y (x x ) x s x Doc, si r xy 0 alors y ȳ = costate. Or, das le modèle, y est costat que si β 1 = 0. Par coséquet, o peut tester l absece de corrélatio etre les x i et les y i e testat β 1 = 0 cotre β 1 0. La régio critique d u tel test est : W = { } β1 σ s x > t 2,α O peut l écrire de maière plus parlate e faisat iterveir le coefficiet de corrélatio liéaire empirique. E effet, β 1 = C xy S Y = R s 2 xy et σ 2 = x s x ( 2) S2 Y (1 R2 xy ).
104 104 Chapitre 6 - La régressio liéaire Par coséquet : β 1 σ s x = R xy S Y S Y 1 R 2 xy 2 = R xy 1 R 2 xy 2 Par ailleurs, si T est de loi St( 2), alors T 2 est de loi de Fisher-Sedecor F (1, 2). Doc P ( T > t 1,2α ) = 1 α = P (T 2 > t 2 1,2α) = P (T 2 > f 1, 2,α ), ce qui implique que t 2 2,α = f 1, 2,α. O e déduit que : Propriété 29 Sous H 0 : β 1 = 0, est de loi F (1, 2). R xy 1 R 2 xy 2 est de loi St( 2), et ( 2)R 2 xy 1 R 2 xy O peut alors réécrire la régio critique e remarquat que : β 1 σ s x > t 2,α r xy 1 r 2 xy 2 > t 2,α ( 2)r2 xy 1 r 2 xy ( 2)r 2 xy > f 1, 2,α (1 r 2 xy) > f 1, 2,α r 2 xy( 2 + f 1, 2,α ) > f 1, 2,α r 2 xy > f 1, 2,α 2 + f 1, 2,α D où : Propriété 30 Test de pertiece de la régressio = test de seuil α de H 0 : β 1 = 0 cotre H 1 : β 1 0 : { ( 2)r 2 } { } xy W = > f 1 rxy 2 1, 2,α = rxy 2 f 1, 2,α > 2 + f 1, 2,α Cette régio critique est bie de la forme attedue : o accepte l hypothèse de liaiso affie ssi r xy est sigificativemet proche de ±1. ( 2)rxy 2 Das l exemple, = La table de la loi de Fisher-Sedecor doe 1 rxy 2 f 1,6,0.05 = 5.99 et f 1,6,0.01 = Même au seuil 1%, o est très largemet das la régio critique, doc o coclut que la régressio liéaire est ici très pertiete. Le om de test de pertiece de la régressio est abusif : o teste e fait si, parmi toutes les droites y = β 1 x + β 0, la droite costate y = β 0 est plausible ou pas. 6.5 Etude complète de l exemple e R E R, la commade permettat d effectuer ue régressio liéaire de y sur x est lm(y~x). Le résultat d ue régressio est doé grâce à la commade summary. Sur l exemple, o obtiet :
105 6.5 Etude complète de l exemple e R 105 > regvf<-lm(freiage~vitesse) > summary(regvf) Call: lm(formula = freiage ~ vitesse) Residuals: Mi 1Q Media 3Q Max Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) ** vitesse e-05 *** --- Sigif. codes: 0 *** ** 0.01 * Residual stadard error: o 6 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: o 1 ad 6 DF, p-value: 2.002e-05 La coloe Estimate doe les estimatios des moidres carrés de β 0 et β 1, ˆβ 0 = et ˆβ 1 = La coloe Std.error doe les valeurs de ˆσ s 2 x + x 2 ˆσ et, ce qui permet de s x s x détermier des itervalles de cofiace pour β 0 et β 1. La coloe t value doe les valeurs de ˆβ 0 s x et ˆβ 1 ˆσ s 2 x + x 2 ˆσ s x, ce qui permet d effectuer les tests de β 0 = 0 cotre β 0 0 et β 1 = 0 cotre β 1 0. La coloe Pr(> t ) doe les p-valeurs de ces tests. Das l exemple, ces p-valeurs sot très faibles, doc les hypothèses β 0 = 0 et β 1 = 0 sot largemet rejetées. C est logique puisque 0 appartiet pas aux itervalles de cofiace détermiés pour β 0 et β 1. Das les liges correspodates, plus il y a d étoiles plus le rejet est fort. La Residual stadard error est ˆσ, ce qui permet de retrouver ˆσ 2 = = Le Multiple R-Squared est r 2 xy, ce qui permet de faire le test de pertiece de la régressio. La F-statistic est la statistique de ce test, ( 2)r2 xy. O retrouve qu elle 1 rxy 2 vaut La p-value fourie est la p-valeur de ce test. Elle est très faible ( ), doc o coclut bie que la régressio liéaire est pertiete sur otre exemple. Efi, les commades plot(vitesse,freiage) puis lies(vitesse,fitted.values (regvf)) permettet de retrouver la figure représetat le uage de poits et la droite des moidres carrés.
106 106 Chapitre 6 - La régressio liéaire Le modèle de régressio liéaire simple gaussie semble doc à première vue satisfaisat pour l exemple. Cepedat, o s aperçoit que ce modèle prévoit ue distace de freiage égative pour toute vitesse iférieure à 8.1 m/s! D autre part, la forme du uage peut évoquer plus u polyôme qu ue droite, et des raisos physiques icitet à peser que la distace de freiage est plutôt ue foctio quadratique de la vitesse. Efi, il est obligatoire que la distace de freiage correspodat à ue vitesse ulle soit zéro. Tous ces argumets amèet à peser que le modèle Y i = β 1 x i + β 0 + ε i pourrait être avatageusemet remplacé par le modèle Y i = β 1 x 2 i + β 0 x i + ε i. C est ecore u modèle liéaire, qui se traite de faço similaire au précédet. Nous avos pas le temps d étudier théoriquemet ce modèle, mais il est facile de le mettre e oeuvre grâce à R. O obtiet sur l exemple : > v2<-vitesse^2 > regvf2<-lm(freiage~v2+vitesse-1) > summary(regvf2) Call: lm(formula = freiage ~ v2 + vitesse - 1) Residuals: Mi 1Q Media 3Q Max Coefficiets: Estimate Std. Error t value Pr(> t ) v e-05 *** vitesse Sigif. codes: 0 *** ** 0.01 * Residual stadard error: 4.54 o 6 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 1545 o 2 ad 6 DF, p-value: 7.275e-09 O a doc ˆβ 1 = , ˆβ 0 = et ˆσ 2 = = La parabole d équatio y = x x peut être appelée parabole des moidres carrés et est représetée sur la figure 6.5 : > plot(vitesse,freiage) > lies(vitesse,fitted.values(regvf2)) Le coefficiet de corrélatio liéaire empirique est r xy = = Il est ettemet plus proche de 1 que celui du modèle précédet, qui valait De la même faço, la p-valeur du test de pertiece de la régressio vaut , qui est ettemet plus petite que celle que l o avait obteue das le modèle précédet, Ces deux argumets motret que le ouveau modèle est bie meilleur que le précédet.
107 6.5 Etude complète de l exemple e R 107 freiage vitesse Figure 6.5 Vitesse et distace de freiage, parabole des moidres carrés La prévisio de distace de freiage à la vitesse de 50 m/s est maiteat de = m, alors qu elle était de m pour le modèle précédet. Cette importate différece peut avoir de grades coséqueces pratiques et met e évidece l importace du choix d u bo modèle de régressio. La couverture de ce polycopié représete u exemple de régressio polyomiale d ordre 3.
108 108 Chapitre 6 - La régressio liéaire
109 Chapitre 7 Aexe A : Rappels de probabilités pour la statistique Cette aexe rappelle quelques résultats de base du calcul des probabilités utiles pour la statistique. Les otios sot présetées sas aucue démostratio. Les détails sot à aller chercher das le cours de Probabilités Appliquées de première aée. 7.1 Variables aléatoires réelles Loi de probabilité d ue variable aléatoire Mathématiquemet, ue variable aléatoire est défiie comme ue applicatio mesurable. O se cotetera ici de la coceptio ituitive suivate. Ue variable aléatoire est ue gradeur dépedat du résultat d ue expériece aléatoire, c est-à-dire o prévisible à l avace avec certitude. Par exemple, o peut dire que la durée de vie d ue ampoule électrique ou le résultat du lacer d u dé sot des variables aléatoires. Pour ue expériece doée, ces gradeurs predrot ue valeur doée, appelée réalisatio de la variable aléatoire. Si o recommece l expériece, o obtiedra ue réalisatio différete de la même variable aléatoire. O e s itéresse ici qu aux variables aléatoires réelles, c est-à-dire à valeurs das IR ou u sous-esemble de IR. O ote traditioellemet ue variable aléatoire par ue lettre majuscule (X) et sa réalisatio par ue lettre miuscule (x). Le calcul des probabilités va permettre de calculer des gradeurs comme la durée de vie moyee d ue ampoule ou la probabilité d obteir u 6 e laçat le dé. Ces gradeurs sot détermiées par la loi de probabilité de ces variables aléatoires. Il y a plusieurs moyes de caractériser la loi de probabilité d ue variable aléatoire. La plus simple est la foctio de répartitio. O appelle foctio de répartitio de la variable aléatoire X la foctio F X : IR [0, 1] x F X (x) = P (X x) F X est croissate, cotiue à droite, telle que lim F X(x) = 0 et lim F X(x) = 1. Elle x x + permet de calculer la probabilité que X appartiee à importe quel itervalle de IR :
110 110 Chapitre 7 - Aexe A : Rappels de probabilités pour la statistique (a, b) IR 2, a < b, P (a < X b) = F X (b) F X (a) Les variables aléatoires peuvet être classées selo le type d esemble das lequel elles preet leurs valeurs. Das la pratique, o e s itéressera qu à deux catégories : les variables aléatoires discrètes et les variables aléatoires cotiues (ou à desité) Variables aléatoires discrètes et cotiues Ue variable aléatoire X est dite discrète (v.a.d.) si et seulemet si elle est à valeurs das u esemble E fii ou déombrable. O peut oter E = {x 1, x 2,...}. Exemples : Face obteue lors du lacer d u dé : E = {1, 2, 3, 4, 5, 6}. Nombre de bugs das u programme : E = IN. La loi de probabilité d ue v.a.d. X est etièremet détermiée par les probabilités élémetaires P (X = x i ), x i E. La foctio de répartitio de X est alors F X (x) = P (X x) = P (X = x i ). Ue variable aléatoire X est dite cotiue (v.a.c.) si et seulemet si sa foctio de répartitio F X est cotiue et presque partout dérivable. Sa dérivée f X est alors appelée desité de probabilité de X, ou plus simplemet desité de X. Ue v.a.c. est forcémet à valeurs das u esemble o déombrable. Exemples : Appel de la foctio Radom d ue calculatrice : E = [0, 1]. Durée de bo foctioemet d u système : E = IR +. O a alors (a, b) IR 2, a < b, P (a < X b) = F X (b) F X (a) = b a f X(x) dx. Plus gééralemet, B IR, P (X B) = B f X(x) dx. Doc la desité détermie etièremet la loi de probabilité de X. x i x f X est ue foctio positive telle que + f X(x) dx = P (X IR) = 1. Coaissat la loi de X, o est souvet ameés à détermier celle de Y = ϕ(x). Quad X est discrète, il suffit d écrire P (Y = y) = P (ϕ(x) = y). Si ϕ est iversible, o obtiet P (Y = y) = P (X = ϕ 1 (y)). Quad X est cotiue, o commece par détermier la foctio de répartitio de Y e écrivat F Y (y) = P (Y y) = P (ϕ(x) y), puis o e déduit sa desité par dérivatio. Quad ϕ est iversible, o obtiet la formule du chagemet de variable : f Y (y) = 1 ϕ (ϕ 1 (y)) f ( X ϕ 1 (y) ) Remarque : Il existe des lois de probabilité de variables aléatoires réelles qui e sot i discrètes i cotiues. Par exemple, si X est la durée de bo foctioemet d u système
111 7.1 Variables aléatoires réelles 111 qui a ue probabilité o ulle p d être e pae à l istat iitial, o a lim x 0 F X(x) = 0 (ue durée e peut pas être égative) et F X (0) = P (X 0) = P (X = 0) = p. Par coséquet F X est pas cotiue e 0. La loi de X e peut doc pas être cotiue, et elle est pas o plus discrète puisqu elle est à valeurs das IR +. Ce type de variable aléatoire e sera pas étudié das ce cours Momets et quatiles d ue variable aléatoire réelle Si X est ue variable aléatoire discrète, so espérace mathématique est défiie par : E(X) = x i E x i P (X = x i ) Si X est ue variable aléatoire cotiue, so espérace mathématique est défiie par : E(X) = + xf X (x) dx Cocrètemet, E(X) est ce qu o s atted à trouver comme moyee des résultats obteus si o répète l expériece u grad ombre de fois. Par exemple, si o lace ue pièce de moaie 10 fois, o s atted à trouver e moyee 5 piles. Plus gééralemet, o peut s itéresser à l espérace mathématique d ue foctio de X : Si X est ue v.a.d., E [ϕ(x)] = ϕ(x i )P (X = x i ). x i E Si X est ue v.a.c., E [ϕ(x)] = + ϕ(x)f X(x) dx. Ce résultat permet de calculer l espérace de ϕ(x) sas avoir à détermier etièremet sa loi. Deux espéraces de ce type sot particulièremet utiles : Si X est ue v.a.d., sa foctio géératrice est défiie par G X (z) = E [ z X] = z x i P (X = x i ). x i E Si X est ue v.a.c., sa foctio caractéristique est défiie par φ X (t) = E [ e itx] = + eitx f X (x) dx. Au même titre que la foctio de répartitio et la desité, les foctios géératrices et caractéristiques défiisset etièremet les lois de probabilité cocerées. Soit k u etier aturel quelcoque. Le momet d ordre k de X est E [ [ X k] et le momet cetré d ordre k est E (X E(X)) k]. De tous les momets, le plus importat est le momet cetré d ordre 2, appelé aussi variace. La variace de X est V ar(x) = E [ (X E(X)) 2], qui se calcule plus facilemet sous la forme V ar(x) = E (X 2 ) [E(X)] 2.
112 112 Chapitre 7 - Aexe A : Rappels de probabilités pour la statistique L écart-type de X est σ(x) = V ar(x). La variace et l écart-type sot des idicateurs de la dispersio de X : plus la variace de X est petite, plus les réalisatios de X serot cocetrées autour de so espérace. Le coefficiet de variatio de X est CV (X) = σ(x). C est égalemet u idicateur E(X) de dispersio, dot l avatage est d être sas dimesio. Il permet de comparer les dispersios de variables aléatoires d ordres de gradeur différets ou exprimées das des uités différetes. E pratique, o cosidère que, quad CV (X) est iférieur à 15%, l espérace peut être cosidérée comme u bo résumé de la loi. Soit p ]0, 1[. Le quatile d ordre p (ou p-quatile) de la loi de X est tout réel q p vérifiat P (X < q p ) p P (X q p ). Si F est cotiue et strictemet croissate (doc iversible), o a simplemet P (X < q p ) = P (X q p ) = F X (q p ) = p, d où q p = F 1 X (p). Si F X est costate égale à p sur u itervalle [a, b], importe quel réel de [a, b] est u quatile d ordre p. E gééral, o choisit de predre le milieu de l itervalle : q p = a + b 2. Si F X est discotiue e q et telle que lim x q F X(x) < p F X (q), alors q p = q. Les tables fouries doet les quatiles les plus usuels des lois ormale, du chi-deux, de Studet et de Fisher-Sedecor. 7.2 Vecteurs aléatoires réels O e s itéressera ici qu aux vecteurs aléatoires (X 1,..., X ) costitués de variables aléatoires réelles toutes discrètes ou toutes cotiues Loi de probabilité d u vecteur aléatoire La loi d u vecteur aléatoire (X 1,..., X ) est détermiée par sa foctio de répartitio : F (X1,...,X )(x 1,..., x ) = P (X 1 x 1,..., X x ) Si les X i sot discrètes, cette loi est aussi détermiée par les probabilités élémetaires P (X 1 = x 1,..., X = x ). Si les X i sot cotiues, la desité de (X 1,..., X ) est défiie, si elle existe, par : f (X1,...,X )(x 1,..., x ) = x 1... x F (X1,...,X )(x 1,..., x ) O a alors B IR, P ((X 1,..., X ) B) =... B f (X 1,...,X )(x 1,..., x ) dx 1...dx. Les variables aléatoires X 1,..., X sot (mutuellemet) idépedates si et seule-
113 7.2 Vecteurs aléatoires réels 113 met si : F (X1,...,X )(x 1,..., x ) = P (X i x i ) Pour des variables discrètes cela doe P (X 1 = x 1,..., X = x ) = P (X i = x i ). Et pour des variables cotiues, f (X1,...,X )(x 1,..., x ) = f Xi (x i ). Cocrètemet, l idépedace sigifie que la valeur prise par l ue des variables a aucue ifluece sur la valeur prise par les autres Espérace et matrice de covariace d u vecteur aléatoire L espérace mathématique d u vecteur aléatoire est le vecteur des espéraces mathématiques de ses composates : E [(X 1,..., X )] = (E[X 1 ],..., E[X ]). L équivalet de la variace e dimesio est la matrice de covariace du vecteur (X 1,..., X ), otée K (X1,...,X ) ou K, dot les coefficiets sot doés par k ij = Cov(X i, X j ), (i, j) {1,..., } 2 Cov(X i, X j ) est la covariace des variables aléatoires X i et X j et est défiie par : Cov(X i, X j ) = E [(X i E(X i )) (X j E(X j ))] = E(X i X j ) E(X i )E(X j ) Pour i = j, Cov(X i, X i ) = E (X 2 i ) [E(X i )] 2 = V ar(x i ). Pour i j, la covariace de X i et X j traduit le degré de corrélatio etre ces deux variables. E particulier, si X i et X j sot idépedates, Cov(X i, X j ) = 0 (mais la réciproque est fausse). Par coséquet, si X 1,..., X sot idépedates, leur matrice de covariace K est diagoale. Le coefficiet de corrélatio liéaire etre X i et X j est ρ(x i, X j ) = Cov(X i, X j ) σ(x i )σ(x j ). O motre que : ρ(x i, X j ) [ 1, +1]. ρ(x i, X j ) = +1 X i = ax j + b, avec a > 0 et b IR. ρ(x i, X j ) = 1 X i = ax j + b, avec a > 0 et b IR. si ρ(x i, X j ) > 0, X i et X j sot corrélées positivemet, ce qui sigifie qu elles variet das le même ses. Par exemple, X i et X j peuvet être la taille et le poids d idividus pris au hasard. si ρ(x i, X j ) < 0, X i et X j sot corrélées égativemet, ce qui sigifie qu elles variet e ses cotraire. Par exemple, X i et X j peuvet être l âge et la résistace d u matériau.
114 114 Chapitre 7 - Aexe A : Rappels de probabilités pour la statistique si ρ(x i, X j ) = 0, il y a pas de corrélatio liéaire etre X i et X j. Cela e sigifie pas que X i et X j sot idépedates. Il peut évetuellemet y avoir ue corrélatio o liéaire. L espérace mathématique est liéaire : si X et Y sot des variables aléatoires et a, b et c des réels, alors E(aX + by + c) = ae(x) + be(y ) + c. E revache, la variace est pas liéaire : si X et Y sot des variables aléatoires et a, b et c des réels, alors V ar(ax + by + c) = a 2 V ar(x) + 2abCov(X, Y ) + b 2 V ar(y ). Si X et Y sot idépedates, Cov(X i, X j ) = 0, doc V ar(ax +by +c) = a 2 V ar(x)+ b 2 V ar(y ). E particulier, la variace de la somme de variables aléatoires idépedates est égale à la somme des variaces de ces variables. Mais ce résultat est faux si les variables e sot pas idépedates. 7.3 Covergeces et applicatios Deux des résultats les plus importats des probabilités sot le théorème cetral-limite et la loi des grads ombres. Ces résultats écessitet d utiliser la otio de covergece d ue suite de variables aléatoires. Ue suite de variables aléatoires {X } 1 coverge e loi vers la loi de probabilité de foctio de répartitio F si et seulemet si lim F X (x) = F (x) e tout poit x où F est cotiue. Cela sigifie que, quad est grad, la loi de probabilité de X est approximativemet la loi de foctio de répartitio F. Théorème Cetral-Limite : Soit {X } 1 ue suite de variables aléatoires réelles idépedates et de même loi, d espérace E(X) et d écart-type σ(x) = V ar(x) fiis. Pour tout 1, o pose : Z = X i E(X) V ar(x) = X E(X) σ(x) Alors la suite {Z } 1 coverge e loi vers la loi ormale cetrée-réduite, ce qui s écrit : X E(X) σ(x) L N (0, 1) Cocrètemet, cela sigifie que la loi de toute variable aléatoire égale à la somme d u ombre suffisammet grad de variables aléatoires idépedates et de même loi est approximativemet ue loi ormale. Plus précisémet, pour grad, X i est approximativemet de loi N (E(X), V ar(x)). Ce qui est remarquable, c est que ce résultat est vrai quelle que soit la loi des X i. De très ombreux phéomèes aturels sot la résultate d u grad ombre de phéomèes élémetaires idetiques, idépedats et additifs ce qui justifie l importace (et le om) de la loi ormale.
115 7.4 Quelques résultats sur quelques lois de probabilité usuelles 115 La plus forte des covergeces de suites de variables aléatoires est la covergece presque sûre. Ce cocept écessite d avoir défii ue variable aléatoire comme ue applicatio mesurable d u espace probabilisé das u autre. Ue suite de variables aléatoires {X({ } 1 coverge presque }) sûremet vers la variable aléatoire X si et seulemet si P ω; lim X (ω) = X(ω) = 1. Ue suite de variables aléatoires {X } 1 coverge e probabilité vers la variable aléatoire X si et seulemet si ε > 0, lim P ( X X > ε) = 0. O motre que la covergece presque sûre etraîe la covergece e probabilité, qui elle-même etraîe la covergece e loi. Loi forte des grads ombres : Soit {X } 1 ue suite de variables aléatoires réelles idépedates et de même loi, d espérace E(X). Soit X = 1 X i. Alors la suite { X } 1 coverge presque sûremet vers E(X), ce qui s écrit : X ps E(X) Cocrètemet, cela sigifie que quad o fait u très grad ombre d expérieces idetiques et idépedates, la moyee des réalisatios de la variable aléatoire à laquelle o s itéresse ted vers l espérace de sa loi. Ce résultat permet de justifier l idée aturelle d estimer ue espérace par ue moyee et ue probabilité par ue proportio. E fait, la covergece la plus utile e statistique est la covergece e moyee quadratique ou das L 2. L 2 est l esemble des variables aléatoires réelles X telles que E (X 2 ) <. Ue suite de variables aléatoires {X } 1 de L 2 coverge e moyee quadratique vers la variable aléatoire X si et seulemet si lim E ( X X 2) = 0. O motre que la covergece e moyee quadratique etraîe la covergece e probabilité, qui elle-même etraîe la covergece e loi. Mais il y a pas de lie etre la covergece e moyee quadratique et la covergece presque sûre. 7.4 Quelques résultats sur quelques lois de probabilité usuelles Les tables de lois de probabilité fouries doet otammet, pour les lois les plus usuelles, les probabilités élémetaires ou la desité, l espérace, la variace, et la foctio géératrice ou la foctio caractéristique. O présete das cette sectio quelques propriétés supplémetaires de quelques ues de ces lois Loi biomiale Ue variable aléatoire K est de loi biomiale B(, p) si et seulemet si elle est à valeurs das {0, 1,..., } et P (K = k) = C k p k (1 p) k.
116 116 Chapitre 7 - Aexe A : Rappels de probabilités pour la statistique Le ombre de fois où, e expérieces idetiques et idépedates, u évèemet de probabilité p s est produit, est ue variable aléatoire de loi B(, p). La loi de Beroulli B(p) est la loi B(1, p). Si X 1,..., X sot idépedates et de même loi B(m, p), alors X i est de loi B(m, p). E particulier, la somme de v.a. idépedates et de même loi B(p) est de loi B(, p) Loi géométrique Ue variable aléatoire K est de loi géométrique G(p) si et seulemet si elle est à valeurs das IN et P (K = k) = p (1 p) k 1. Das ue suite d expérieces idetiques et idépedates, le ombre d expérieces écessaires pour que se produise pour la première fois u évèemet de probabilité p, est ue variable aléatoire de loi G(p). Si X 1,..., X sot idépedates et de même loi G(p), alors X i est de loi biomiale égative BN (, p) Loi de Poisso Ue variable aléatoire K est de loi de Poisso P(λ) si et seulemet si elle est à valeurs λ λk das IN et P (K = k) = e k!. Pour 50 et p 0.1, la loi biomiale B(, p) peut être approchée par la loi de Poisso P(p). O dit que la loi de Poisso est la loi des évèemets rares : loi du ombre de fois où u évéemet de probabilité très faible se produit au cours d u très grad ombre d expérieces idetiques et idépedates. Si X 1,..., X sot idépedates et de même loi P(λ), alors X i est de loi P(λ) Loi expoetielle Ue variable aléatoire X est de loi expoetielle exp(λ) si et seulemet si elle est à valeurs das IR + et f X (x) = λ e λx. La loi expoetielle est dite sas mémoire : (t, x) IR +2, P (X > t + x X > t) = P (X > x). Si X 1,..., X sot idépedates et de même loi exp(λ), alors X i est de loi gamma G(, λ). Si X 1,..., X sot idépedates et de même loi exp(λ), et représetet les durées etre occurreces successives d u même évéemet, alors le ombre d évèemets surveus sur
117 7.4 Quelques résultats sur quelques lois de probabilité usuelles 117 ue période de logueur t est ue variable aléatoire de loi de Poisso P(λt) Loi gamma et loi du chi-2 Ue variable aléatoire X est de loi gamma G(a, λ) si et seulemet si elle est à valeurs das IR + et f X (x) = λa Γ(a) e λx x a 1. Les propriétés de la foctio gamma sot rappelées sur les tables. La loi G(1, λ) est la loi exp(λ). ( La loi G 2, 1 ) est appelée loi du chi-2 à degrés de liberté, otée χ 2 2. Si X est de loi G(a, λ) et α est u réel strictemet positif, alors αx est de loi G ( a, λ ). α Si X et Y sot des variables aléatoires idépedates de lois respectives G(α, λ) et G(β, λ), alors X + Y est de loi G(α + β, λ). E particulier, si X et Y sot idépedates et de lois respectives χ 2 et χ 2 m, alors X + Y est de loi χ 2 +m Loi ormale Ue variable aléatoire X est de loi ormale N (m, σ 2 ) si et seulemet si elle est à valeurs das IR et f X (x) = 1 (x m) 2 σ 2π e 2σ 2. Si X est de loi N (m, σ 2 ), alors ax +b est de loi N (am+b, a 2 σ 2 ). E particulier, X m σ est de loi N (0, 1). P (X [m σ, m + σ]) = 68.3%. P (X [m 2σ, m + 2σ]) = 95.4%. P (X [m 3σ, m + 3σ]) = 99.7%. Si X est de loi N (0, 1), alors X 2 est de loi χ 2 1. Si (X 1, X 2 ) est u vecteur gaussie tel que X 1 est de loi N (m 1, σ 2 1) et X 2 est de loi N (m 2, σ 2 2), alors ax 1 + bx 2 est de loi N (am 1 + bm 2, a 2 σ abCov(X 1, X 2 ) + b 2 σ 2 2). Théorème de Fisher. Si X 1,..., X sot idépedates et de même loi N (m, σ 2 ), alors, e posat X = 1 X i et S 2 = 1 (X i X ) 2, o a : X i est de loi N (m, σ 2 ). X est de loi N ) (m, σ2. 1 (X σ 2 i m) 2 est de loi χ 2.
118 118 Chapitre 7 - Aexe A : Rappels de probabilités pour la statistique 1 (X σ 2 i X ) 2 = S2 est de loi χ 2 1. σ 2 X et S 2 sot idépedates. 1 X m S est de loi de Studet St( 1) Lois de Studet et de Fisher-Sedecor Soit U ue variable aléatoire de loi N (0, 1) et X ue variable aléatoire de loi χ 2. Si U et X sot idépedates, alors U X est de loi de Studet à degrés de liberté St(). Soit X ue variable aléatoire de loi χ 2 et Y ue variable aléatoire de loi χ 2 m. Si X et Y sot idépedates, alors mx est de loi de Fisher-Sedecor F (, m). Y Ces deux défiitios etraiet que si T est de loi St(), alors T 2 est de loi F (1, ). Les lois de Studet et de Fisher-Sedecor sot toujours utilisées par l itermédiaire de tables ou à l aide d u logiciel de statistique. Il est doc pas écessaire de doer l expressio de leur desité.
119 Chapitre 8 Aexe B : Lois de probabilité usuelles 8.1 Caractéristiques des lois usuelles Variables aléatoires réelles discrètes Das le tableau ci-dessous, o suppose IN, p ]0, 1[ et λ IR +. Loi et Symbole Probabilités E(X) Var (X) Foctio caractéristique X ϕ X (t) = E(e itx ) Berouilli P (X = 0) = 1 p p p(1 p) 1 p + pe it B(p) P (X = 1) = p Biomiale P (X = k) = Cp k k (1 p) k 1 {0,...,} (k) p p(1 p) (1 p + pe it ) B(, p) Biomiale égative BN (, p) P (X = k) = C 1 k 1 p (1 p) k 1 {,...} (k) p ( ) (1 p) pe it p 2 1 (1 p)e it Poisso P(λ) P (X = k) = e λ λk k! 1 IN (k) λ λ e λ(eit 1) Géométrique P (X = k) = p(1 p) k IN (k) p G(p) 1 p p 2 pe it 1 (1 p)e it Hypergéométrique H(N, m, ) (m, ) {1,..., N} 2 P (X = k) = Ck mc k N m m C 1 N {0,...,mi(m,)} (k) N m(n )(N m) N 2 (N 1)
120 120 Chapitre 8 - Aexe B : Lois de probabilité usuelles Variables aléatoires réelles cotiues La foctio Gamma est défiie pour a > 0 par Γ(a) = + e x x a 1 dx. 0 ( ) 1 O a : IN, Γ() = ( 1)!, Γ(1) = 1, Γ = π, 2 a ]1, + [, Γ(a) = (a 1)Γ(a 1). Das le tableau ci dessous, [a, b] IR, m IR, σ IR +, λ IR +, α IR +, IN Loi et Symbole Desité Espérace Var (X) Foctio caractéristique X ϕ X (t) = E(e itx ) Loi Uiforme f X (x) = 1 1 b a [a,b] (x) U[a, b] a+b 2 (b a) 2 12 e itb e ita it(b a) Loi Normale f X (x) = 1 N (m, σ 2 ) σ 2π (x m) 2 e 2σ 2 1 IR (x) m σ 2 e itm σ2 t 2 2 Loi Expoetielle f X (x) = λe λx 1 1 IR +(x) λ exp(λ) = G(1, λ) 1 λ 2 ( ) 1 it 1 λ Loi Gamma G(α, λ) f X (x) = λα Γ(α) e λx x α 1 1 IR + (x) α λ α λ 2 ( ) 1 it α λ Loi du Chi-deux f X (x) = 2 2 Γ( 2 )e 2 x IR +(x) 2 (1 2it) 2 χ 2 = G( 2, 1 2 ) Première loi de Laplace f X (x) = 1 2 e x 1 IR (x) t 2
121 8.1 Caractéristiques des lois usuelles 121 La foctio Beta est défiie pour a > 0 et b > 0 par β(a, b) = Γ(a)Γ(b) Γ(a + b) = 1 0 x a 1 (1 x) b 1 dx Das le tableau suivat, o suppose a IR +, b IR + et η IR +, β IR +. Loi et Symbole Desité E(X) Var (X) X Loi Beta de 1ère espèce f X (x) = 1 β(a,b) xa 1 (1 x) b 1 1 [0,1] (x) β 1 (a, b) a a+b ab (a+b) 2 (a+b+1) x a 1 Loi Beta de 2ème espèce f X (x) = 1 β(a,b) 1 (1+x) a+b IR + (x) β 2 (a, b) si b > 1 si b > 2 a b 1 a(a+b 1) (b 1) 2 (b 2) Loi de Weibull W(η, β) ( ) β f X (x) = β x β 1 e x [ ] η β η 1IR (x) ηγ( β ) η2 Γ(1 + 2 β ) Γ(1 + 1 β ) Vecteurs aléatoires das IN d et das IR d Das le tableau suivat, o a : IN, p = (p 1, p 2,..., p d ) ]0, 1[ d, m IR d et Σ M d,d. d p i = 1 et k = (k 1, k 2,..., k d ) IN d, d k i =. Loi et Symbole Probabilités ou Desité E(X) Matrice Foctio X de covariace Caractéristique Loi Multiomiale P (X = k) =! k 1!...k d! pk 1 1 pk pk d d 1 IN d(k) p c i,i = p i (1 p i ) M d (, p) c i,j = p i p j, i j [ d ] p i z i 1 Loi ormale f X (x) = detσ( 2π) d e 1 t 2 (x m)σ 1 (x m) m Σ e it mt 1 t 2 tσt N d (m, Σ)
122 122 Chapitre 8 - Aexe B : Lois de probabilité usuelles 8.2 Tables de lois Table 1 de la loi ormale cetrée réduite U état ue variable aléatoire de loi N (0, 1), la table doe la valeur de φ(u) = P (U u). E R, la commade correspodate est porm(u). u Lecture de la table : φ(1.25) = φ( ) = Grades valeurs de u u φ(u)
123 8.2 Tables de lois Table 2 de la loi ormale cetrée réduite U état ue variable aléatoire de loi N (0, 1) et α u réel de [0, 1], la table doe la valeur de u α = φ 1 ( 1 α 2 ) telle que P ( U > uα ) = α. E R, la commade correspodate est qorm(1-alpha/2). α Lecture de la table : u 0.25 = u = Petites valeurs de α α u α Pour p < 1 2, φ 1 (p) = u 2p. Pour p 1 2, φ 1 (p) = u 2(1 p).
124 124 Chapitre 8 - Aexe B : Lois de probabilité usuelles Table de la loi du χ 2 X état ue variable aléatoire de loi du χ 2 à degrés de libertés et α u réel de [0, 1], la table doe la valeur de z,α = F 1 χ (1 α) telle que P (X > z,α) = α. E R, la 2 commade correspodate est qchisq(1-alpha, ). α Pour > 30, o admet que z,α 1 2 ( u2α ) 2 si α < 1 2 et z,α 1 2 ( 2 1 u2(1 α) ) 2 si α 1 2.
125 8.2 Tables de lois Table de la loi de Studet X état ue variable ( ) aléatoire de loi St() et α u réel de [0, 1], la table doe la valeur de t,α = F 1 St() 1 α 2 telle que P ( X > t,α ) = α. E R, la commade correspodate est qt(1-alpha/2,). Pour = +, t +,α = u α. α
126 126 Chapitre 8 - Aexe B : Lois de probabilité usuelles Tables de la loi de Fisher-Sedecor X état ue variable aléatoire de loi F (ν 1, ν 2 ), les tables doet les valeurs de f ν1,ν 2,α = F 1 F (ν 1,ν 2 ) (1 α) telles que P (X > f ν 1,ν 2,α) = α pour α = 5% et α = 1%. E R, la 1 commade correspodate est qf(1-alpha, u1, u2). f ν2,ν 1,α =. f ν1,ν 2,1 α Table 1 : α = 5%. ν 1 ν
127 8.2 Tables de lois 127 Table 2 : α = 1%. ν 1 ν
128 128 Chapitre 8 - Aexe B : Lois de probabilité usuelles 8.3 Exemples de représetatios de probabilités et de desités Lois discrètes Loi biomiale probabilite loi biomiale(20,0.25) k Figure 8.1 Loi biomiale B(20, 0.25) x La figure ci-dessus cocere la loi biomiale B(20, 0.25). La partie gauche représete les probabilités élémetaires P (X = k) = C k k k pour k {0,..., 20}, quad X est ue variable aléatoire de loi B(20, 0.25). La partie droite est u histogramme d u échatillo de taille 200 simulé selo la loi B(20, 0.25). Le trait vertical représete l espérace de la loi B(20, 0.25). Les figures suivates présetet des représetatios similaires pour les lois B(200, 0.25), B(20, 0.10) et B(200, 0.10).
129 8.3 Exemples de représetatios de probabilités et de desités 129 probabilite loi biomiale(200,0.25) k Figure 8.2 Loi biomiale B(200, 0.25) x probabilite loi biomiale(20,0.10) k Figure 8.3 Loi biomiale B(20, 0.10) x probabilite loi biomiale(200,0.10) k Figure 8.4 Loi biomiale B(200, 0.10) x
130 130 Chapitre 8 - Aexe B : Lois de probabilité usuelles Loi géométrique probabilite probabilite Figure 8.5 Lois géométriques G(0.25) et G(0.75) Loi de Poisso probabilite probabilite Figure 8.6 Lois de Poisso P(0.25) et P(4)
131 8.3 Exemples de représetatios de probabilités et de desités Lois cotiues Loi ormale La figure ci-dessous présete la desité des lois ormales N (0, 1), N (2, 2) et N (2, 0.7). desite desite desite x x x Figure 8.7 Lois ormales N (0, 1), N (2, 2) et N (2, 0.7) Les figures suivates présetet les desités d autres lois de probabilité cotiues. Loi expoetielle desite desite x x Figure 8.8 Lois expoetielles Exp(0.5) et Exp(2)
132 132 Chapitre 8 - Aexe B : Lois de probabilité usuelles Loi gamma desite desite x x Figure 8.9 Lois gamma G(3, 0.5) = χ 2 6 et G(3, 2) desite desite x x Figure 8.10 Lois gamma G(1/3, 0.5) = χ 2 1/6 et G(1/3, 2)
133 8.3 Exemples de représetatios de probabilités et de desités 133 Loi de Studet desite desite x x Figure 8.11 Lois de Studet St(1) et St(50) Loi de Fisher-Sedecor desite desite x x Figure 8.12 Lois de Fisher-Sedecor F (3, 3) et F (30, 30)
134 134 Chapitre 8 - Aexe B : Lois de probabilité usuelles Loi de Weibull desite desite x x Figure 8.13 Lois de Weibull W(0.5, 3) et W(2, 3) desite desite x x Figure 8.14 Lois de Weibull W(0.5, 1/3) et W(2, 1/3)
135 8.3 Exemples de représetatios de probabilités et de desités 135 Lois beta desite desite x x Figure 8.15 Lois beta de première espèce β 1 (3, 8) et β 1 (8, 3) desite desite x x Figure 8.16 Lois beta de deuxième espèce β 2 (3, 8) et β 2 (8, 3)
136 136 Chapitre 8 - Aexe B : Lois de probabilité usuelles
137 Chapitre 9 Aexe C : Itroductio à R Ce chapitre fourit ue itroductio élémetaire à R. Pour plus de détails, voir les lies présetés sur le Kiosk. 9.1 Les bases de R R est u logiciel de statistique dédié à l aalyse des doées et à leur visualisatio. Il cotiet ue collectio d outils pour la statistique, u eviroemet graphique et u lagage de programmatio orieté objet. La plupart des etités créées e R sot permaetes. Ces etités sot les objets doées, résultats, foctios, et sot stockées das le répertoire.rdata créé par défaut. Le résultat d ue procédure statistique peut être aisi réutilisé lors de différetes sessios. Il est doc importat de créer u répertoire pour chaque projet statistique effectué e R. O ouvre ue sessio de R par la commade : $ R Pour clôturer ue sessio, utiliser : > q() L historique d ue sessio est coservé das le fichier.rhistory. R possède ue documetatio e lige accessible par : > help.start() Techiquemet, R est u lagage foctioel. Les commades élémetaires sot costituées d expressios et d affectatios. Par exemple : > [1] 7 > a <- c(9,3,7,5) > a [1] > a + 3 [1] > a[2:4]
138 138 Chapitre 9 - Aexe C : Itroductio à R [1] > a[a>6] [1] 9 7 R peut être complété e écrivat de ouvelles foctios. Voici u exemple où l o souhaite calculer la statistique stat.log(x) = 1 l x i où i, x i > 0. O pourra défiir ue foctio de la faço suivate (même si l o peut faire bie plus rapide e pratique) : > stat.log <- fuctio(x) + { + <- legth(x) + s <- 0 + for(i i (1:)) { s <- s + log(x[i]) } + -s/ + } La foctio stat.log pourra être désormais utilisée comme ue foctio stadard de R. D u poit de vue pratique, o peut éditer ses foctios das u éditeur extere (edit, emacs,...) puis faire du copier/coller vers R ou bie utiliser la commade source. 9.2 Commades pour les deux premiers TD e R Pour eregistrer ue figure das u fichier au format postscript, commecer par rediriger la sortie graphique vers le fichier de sauvegarde, ici omfichier.eps : postscript("omfichier.ps", horizotal=false) Puis tracer la figure voulue, par exemple u histogramme : hist(x) Et efi rediriger la sortie graphique vers la feêtre iitiale : dev.off() Même chose e pdf avec pdf("omfichier.pdf"). Pour tracer u histogramme des doées x dot l aire est égale à 1, les bores des classes sot doées par le vecteur bores, et les plages de valeurs des abscisses par le vecteur xlim : histx <- hist(x, prob=t, breaks=bores, xlim=xlim,...) Pour u histogramme à classes de même effectif, les bores des classes peuvet être calculées comme des quatiles empiriques, à l aide d ue commade du type : breaks <- c(a0, quatile(x,seq(1,k-1)/k),ak)
139 9.3 Quelques commades utiles de R 139 La droite de régressio liéaire sur le uage des poits d abcisses abs et d ordoées ord est obteue à l aide de : reg <- lm(ord abs) La pete de la droite des moidres carrés est doée par reg$coefficiet[2] et l ordoée à l origie par reg$coefficiet[1]. Pour tracer la droite obteue, l ue des commades suivates pourra être utilisée : lies(abs, fitted.values(reg)) ou ablie(reg). 9.3 Quelques commades utiles de R help(mea) aide sur la commade mea x <- c(3,14,15,9) crée u vecteur lige x = (3, 14, 15, 9) <- legth(x) taille du vecteur x sum(x^2) i x 2 i mea(x) moyee empirique de l échatillo x roud(x) valeurs de x arrodies à l etier le plus proche seq(from=1,to=10,by=2) séquece (1 + 2k ; k etier, 1 + 2k 10) rep(x,3) cocatéatio de 3 répliques du vecteur x solve(a,b) solutio du système liéaire ax = b diag(x) matrice diagoale de diagoale x var(x) variace estimée s 2 sqrt(x) racie carrée de x, élémet par élémet. summary(x) moyee, médiae, quartiles et valeurs extrêmes hist(x) histogramme de x sort(x) tri de x par valeurs croissates qqorm(x) graphe de probabilités pour la loi ormale plot(x,y) trace le uage de poits {(x i, y i )} i ablie(b,a) superpose au graphique précédet la droite d équatio y = ax + b poits(x,z) superpose au graphique précédet le uage de poits {(x i, z i )} i lies(x,z) superpose au graphique précédet la lige polygoale reliat les poits {(x i, z i )} i lm(y x) régressio liéaire de y sur x lm(y x)$coefficiets[2] pete de la droite de régressio lm(y x)$coefficiets[1] ordoée à l origie de la droite de régressio lies(x,fitted.values(lm(y x)) superpose au graphique précédet la droite de régressio postscript("om.eps") redirectio de la sortie graphique vers le fichier om.eps dev.off() termie la redirectio graphique vers u fichier
140 140 Chapitre 9 - Aexe C : Itroductio à R par() cotrôle des paramètres graphiques par(mfcol=c(2,1)) graphique à 2 liges et 1 coloes cat("bojour","\ ") imprime à l écra le mot bojour et retoure à la lige source("om.r") charge les commades R coteues das le fichier om.r das R if, else structure de cotrôle ou d itératio for, while, repeat Les lois de probabilité usuelles e R Toutes les lois de probabilité usuelles ot été implémetées e R. Chaque loi est idetifiée par ue abréviatio : loi biomiale : biom loi de Poisso : pois loi géométrique : geom. Attetio, la commade geom cocere e fait la loi de X 1, où X est de loi géométrique. loi expoetielle : exp loi gamma : gamma loi du chi 2 : chisq loi ormale : orm loi de Studet : t loi de Fisher-Sedecor : f Loi uiforme : uif Loi beta de première espèce : beta Loi de Cauchy : cauchy Loi hypergéométrique : hyper Loi log-ormale : lorm Loi logistique : logis Loi égative biomiale : biom Loi de Weibull : weibull Loi de Wilcoxo : wilcox Pour chaque loi, 4 foctios sot dispoibles, idetifiées par u préfixe : Probabilités élémetaires pour les v.a.d. ou desité pour les v.a.c. : d Foctio de répartitio : p Quatiles : q Simulatio : r Ue commade R pour ue loi de probabilité est costituée d u préfixe suivi de l abréviatio de la loi. Les paramètres dépedet de la loi choisie.
141 9.4 Les lois de probabilité usuelles e R 141 Exemples : porm(u) doe la foctio de répartitio de la loi ormale cetrée-réduite N (0, 1) au poit u, φ(u). O retrouve la table 1 de la loi ormale. > porm(0.61) [1] dorm(x, m, σ) doe la desité de la loi ormale N (m, σ 2 ) au poit x. > dorm(1.2,2,5) [1] qorm(p) doe le quatile d ordre p de la loi N (0, 1), φ 1 (p). O retrouve la table 2 de la loi ormale e preat p = 1 α/2. > qorm(1-0.05/2) [1] rorm(, m, σ) simule u échatillo de taille de la loi N (m, σ 2 ). > rorm(10, 20, 1) [1] [8] dbiom(k,, p) doe P (K = k) quad K est de loi biomiale B(, p). > dbiom(3,5,0.2) [1] rpois(, λ) simule u échatillo de taille de la loi de Poisso P(λ). > rpois(15,4) [1] qchisq(p,) doe le quatile d ordre p de la loi du chi 2 χ 2. O retrouve la table de la loi du chi 2 e preat p = 1 α. > qchisq(1-0.05,20) [1] qt(p,) doe le quatile d ordre p de la loi de Studet St(). O retrouve la table de la loi de Studet e preat p = 1 α/2. > qt(1-0.3/2,12) [1] qf(p,ν 1,ν 2 ) doe le quatile d ordre p de la loi de Fisher-Sedecor F (ν 1, ν 2 ). O retrouve la table de la loi de Fisher-Sedecor e preat p = 1 α. > qf(1-0.05,8,22) [1]
142 142 Chapitre 9 - Aexe C : Itroductio à R 9.5 Les pricipaux tests d hypothèses e R t.test(x,...) biom.test() var.test(x,y,...) t.test(x,y,...) prop.test() chisq.test(x,...) ks.test(x,...) wilcox.test(x,...) test de Studet sur l espérace d ue loi ormale test sur ue proportio test de Fisher sur la variace de 2 échatillos gaussies idépedats test de Studet sur l espérace de 2 échatillos gaussies idépedats test de comparaiso de proportios test du χ 2 sur les probabilités d évèemets et tables de cotigece test de Kolmogorov-Smirov sur u ou deux échatillos test de Wilcoxo-Ma-Whitey sur u ou deux échatillos 9.6 Les graphiques das R Graphique simple Le script suivat e R permet de tracer u uage de 100 poits dot les coordoées sot des variables aléatoires idépedates et de même loi ormale cetrée-réduite N (0, 1), et de le sauvegarder au format postscript das le fichier rorm.ps. postscript("rorm.ps") plot(rorm(100),rorm(100)) dev.off() Les istructios suivates permettet d isérer cette figure das u documet Latex et de pouvoir la référecer sous le om de figure 9.1. \begi{figure}[htbp] \begi{ceter} % Requires \usepackage{graphicx} \icludegraphics[width=8 cm, agle=270]{rorm.ps}\\ \captio{{\it Utilisatio de rorm}}\label{rorm} \ed{ceter} \ed{figure}
143 9.6 Les graphiques das R 143 rorm(100) rorm(100) Figure 9.1 Utilisatio de rorm Autres foctios graphiques ablie(h=u) ablie(v=u) leged(x,y,leged,...) text(x,y,labels,...) axis(side,at, labels..) arrows(x0,y0,x1,y1,...) ajoute ue droite d équatio y=u. ajoute ue droite d équatio x=u. ajoute ue légede d utilisatio très flexible ajoute du texte das u graphe ajoute u axe au graphique dessie des flèches symbols(x,y,...) dessie des cercles, des carrés,... box(...) polygo(x,y) ajoute ue boite ajoute u polygoe voir aussi image(), pairs(), persp(),...
144 144 Chapitre 9 - Aexe C : Itroductio à R Paramétrage de la commade plot Le script suivat : postscript("graphesr.ps") x<- seq(-2*pi,2*pi,0.05) y <- si(x) par(mfrow=c(2,2)) plot(x,y,xlab="x",ylab="sius de x") plot(x,y,type="l", mai="trait cotiu") plot(x[seq(5,1000,by=5)],y[seq(5,1000,by=5)], type="b",axes=f) plot(x,y,type="", ylim=c(-2,1)) text(0,0.05,"divers paramétrages de la foctio plot") dev.off() permet d obteir la figure 9.2. trait cotiu Sius de x y x x y[seq(5, 1000, by = 5)] y Divers paramétrages de la foctio plot x[seq(5, 1000, by = 5)] x Figure 9.2 R permet de créer plusieurs types de graphiques
145 Bibliographie [1] Dagelie P., Statistique théorique et appliquée, 2ème éditio, De Boeck Uiversité, [2] Dalgaard P., Itroductory Statistics with R, 2ème éditio, Spriger, [3] Lejeue M., Statistique, la théorie et ses applicatios, Spriger, [4] Motgomery D.C., Ruger G.C., Applied Statistics ad Probability for Egieers, 4ème éditio, Wiley, [5] Morgethaler S., Itroductio à la statistique, 3ème éditio, Presses polytechiques et uiversitaires romades, [6] Saporta G., Probabilités, aalyse de doées et statistique, 2ème éditio, Techip, 2006.
STATISTIQUE : TESTS D HYPOTHESES
STATISTIQUE : TESTS D HYPOTHESES Préparatio à l Agrégatio Bordeaux Aée 203-204 Jea-Jacques Ruch Table des Matières Chapitre I. Gééralités sur les tests 5. Itroductio 5 2. Pricipe des tests 6 2.a. Méthodologie
SÉRIES STATISTIQUES À DEUX VARIABLES
1 ) POSITION DU PROBLÈME - VOCABULAIRE A ) DÉFINITION SÉRIES STATISTIQUES À DEUX VARIABLES O cosidère deux variables statistiques umériques x et y observées sur ue même populatio de idividus. O ote x 1
Statistique descriptive bidimensionnelle
1 Statistique descriptive bidimesioelle Statistique descriptive bidimesioelle Résumé Liaisos etre variables quatitatives (corrélatio et uages de poits), qualitatives (cotigece, mosaïque) et de types différets
Cours 5 : ESTIMATION PONCTUELLE
Cours 5 : ESTIMATION PONCTUELLE A- Gééralités B- Précisio d u estimateur C- Exhaustivité D- iformatio E-estimateur sas biais de variace miimale, estimateur efficace F- Quelques méthode s d estimatio A-
UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire 2006-2007. Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4
UNVERSTE MONTESQUEU BORDEAUX V Licece 3 ère aée Ecoomie - Gestio Aée uiversitaire 2006-2007 Semestre 2 Prévisios Fiacières Travaux Dirigés - Séaces 4 «Les Critères Complémetaires des Choix d vestissemet»
Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME
Uiversité Victor Segale Bordeaux Istitut de Saté Publique, d Épidémiologie et de Développemet (ISPED) Campus Numérique SEME MODULE Pricipaux outils e statistique Versio du 8 août 008 Écrit par : Relu par
FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI
FEUILLE D EXERCICES 7 - PROBABILITÉS SUR UN UNIVERS FINI Exercice - Lacer de dés O lace deux dés à 6 faces équilibrés. Calculer la probabilité d obteir : u double ; ue somme des deux dés égale à 8 ; ue
Chapitre 3 : Fonctions d une variable réelle (1)
Uiversités Paris 6 et Paris 7 M1 MEEF Aalyse (UE 3) 2013-2014 Chapitre 3 : Foctios d ue variable réelle (1) 1 Lagage topologique das R Défiitio 1 Soit a u poit de R. U esemble V R est u voisiage de a s
20. Algorithmique & Mathématiques
L'éditeur L'éditeur permet à l'utilisateur de saisir les liges de codes d'u programme ou de défiir des foctios. Remarque : O peut saisir directemet des istructios das la cosole Scilab, mais il est plus
Statistiques appliquées à la gestion Cours d analyse de donnés Master 1
Aalyse des doées Statistiques appliquées à la gestio Cours d aalyse de doés Master F. SEYTE : Maître de coféreces HDR e scieces écoomiques Uiversité de Motpellier I M. TERRAZA : Professeur de scieces écoomiques
. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1
Premières propriétés des ombres réels 2 Suites umériques 3 Suites mootoes : à faire 4 Séries umériques 4. Notio de série. Défiitio 4.. Soit (u ) ue suite de ombres réels ou complexes. Pour N N, o ote S
II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009
M LA REGRESSION : HYPOTHESES ET TESTS Avril 009 I LES HYPOTHESES DE LA MCO. Hypothèses sur la variable explicative a. est o stochastique. b. a des valeurs xes das les différets échatillos. c. Quad ted
55 - EXEMPLES D UTILISATION DU TABLEUR.
55 - EXEMPLES D UTILISATION DU TABLEUR. CHANTAL MENINI 1. U pla possible Les exemples qui vot suivre sot des pistes possibles et e aucu cas ue présetatio exhaustive. De même je ai pas fait ue étude systématique
Limites des Suites numériques
Chapitre 2 Limites des Suites umériques Termiale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Limite fiie ou ifiie d ue suite. Limites et comparaiso. Opératios sur les ites. Comportemet
[http://mp.cpgedupuydelome.fr] édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ 02475 ] [correction] Si n est un entier 2, le rationnel H n =
[http://mp.cpgedupuydelome.fr] édité le 1 juillet 14 Eocés 1 Nombres réels Ratioels et irratioels Exercice 1 [ 9 ] [correctio] Motrer que la somme d u ombre ratioel et d u ombre irratioel est u ombre irratioel.
Statistique Numérique et Analyse des Données
Statistique Numérique et Aalyse des Doées Arak DALALYAN Septembre 2011 Table des matières 1 Élémets de statistique descriptive 9 1.1 Répartitio d ue série umérique uidimesioelle.............. 9 1.2 Statistiques
Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES
DEUXIEME PARTIE Deuième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES Chapitre. L assurace de capital différé Chapitre 2. Les opératios de retes Chapitre 3. Les assuraces décès Chapitre 4. Les assuraces
UNIVERSITÉ DE SFAX École Supérieure de Commerce
UNIVERSITÉ DE SFAX École Supérieure de Commerce Aée Uiversitaire 2003 / 2004 Auditoire : Troisième Aée Études Supérieures Commerciales & Scieces Comptables DÉCISIONS FINANCIÈRES Note de cours N 3 Première
Chap. 5 : Les intérêts (Les calculs financiers)
Chap. 5 : Les itérêts (Les calculs fiaciers) Das u cotrat de prêt, le prêteur met à la dispositio de l empruteur, à u taux d itérêt doé, ue somme d arget (le capital) qu il devra rembourser à ue certaie
Intégration et probabilités ENS Paris, 2012-2013. TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :
Itégratio et probabilités EN Paris, 202-203 TD 203 Lois des grads ombres, théorème cetral limite. Corrigé Lois des grads ombres Exercice. Calculer e cet leços Détermier les limites suivates : x +... +
Exercice I ( non spé ) 1/ u 1 = 3 4. 2 3 u 2 4 + 3 9. 19 4 2/ Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1
Bac blac TS Correctio Exercice I ( Spé ) / émotros par récurrece que 5x y = pour tout etier aturel 5x y = 5 8 = La propriété est doc vraie au rag = Supposos que la propriété est vraie jusqu au rag, o a
Cours de Statistiques inférentielles
Licece 2-S4 SI-MASS Aée 2015 Cours de Statistiques iféretielles Pierre DUSART 2 Chapitre 1 Lois statistiques 1.1 Itroductio Nous allos voir que si ue variable aléatoire suit ue certaie loi, alors ses réalisatios
2 ième partie : MATHÉMATIQUES FINANCIÈRES
2 ième partie : MATHÉMATIQUES FINANCIÈRES 1. Défiitios L'itérêt est l'idemité que doe au propriétaire d'ue somme d'arget celui qui e a joui pedat u certai temps. Divers élémets itervieet das le calcul
La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe
1/5 Trois objectifs poursuivis par le gouveremet : > améliorer la compétitivité fiscale de la Frace > péreiser les activités de R&D > faire de la Frace u territoire attractif pour l iovatio Les icitatios
STATISTIQUE AVANCÉE : MÉTHODES
STATISTIQUE AVANCÉE : MÉTHODES NON-PAAMÉTIQUES Ecole Cetrale de Paris Arak S. DALALYAN Table des matières 1 Itroductio 5 2 Modèle de desité 7 2.1 Estimatio par istogrammes............................
c. Calcul pour une évolution d une proportion entre deux années non consécutives
Calcul des itervalles de cofiace our les EPCV 996-004 - Cas d u ourcetage ou d ue évolutio e oit das la oulatio totale des méages - Cas d u ourcetage ou d ue évolutio das ue sous oulatio das les méages
Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015
Uiversité de Bordeaux - Master MIMSE - 2ème aée Scorig Marie Chavet http://www.math.u-bordeaux.fr/ machave/ 2014-2015 1 Itroductio L idée géérale est d affecter ue ote (u score) global à u idividu à partir
Séquence 5. La fonction logarithme népérien. Sommaire
Séquece 5 La foctio logarithme épérie Objectifs de la séquece Itroduire ue ouvelle foctio : la foctio logarithme épérie. Coaître les propriétés de cette foctio : sa dérivée, ses variatios, sa courbe, sa
EXERCICES : DÉNOMBREMENT
Chapitre 7 ECE 1 - Grad Nouméa - 015 EXERCICES : DÉNOMBREMENT LISTES / ARRANGEMENTS Exercice 1 : Le code ativol Pour so vélo, Toto possède u ativol a code. Le code est ue successio de trois chiffres compris
LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.
Qu appelle-t-o éclipse? Éclipser sigifie «cacher». Vus depuis la Terre, deu corps célestes peuvet être éclipsés : la Lue et le Soleil. LES ÉCLIPSES Pour qu il ait éclipse, les cetres de la Terre, de la
Dénombrement. Chapitre 1. 1.1 Enoncés des exercices
Chapitre 1 Déombremet 1.1 Eocés des exercices Exercice 1 L acie système d immatriculatio fraçais était le suivat : chaque plaque avait 4 chiffres, suivis de 2 lettres, puis des 2 uméros du départemet.
Chapitre 3 : Transistor bipolaire à jonction
Chapitre 3 : Trasistor bipolaire à joctio ELEN075 : Electroique Aalogique ELEN075 : Electroique Aalogique / Trasistor bipolaire U aperçu du chapitre 1. Itroductio 2. Trasistor p e mode actif ormal 3. Courats
Les Nombres Parfaits.
Les Nombres Parfaits. Agathe CAGE, Matthieu CABAUSSEL, David LABROUSSE (2 de Lycée MONTAIGNE BORDEAUX) et Alexadre DEVERT, Pierre Damie DESSARPS (TS Lycée SUD MEDOC LETAILLAN MEDOC) La première partie
Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.
Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES PLAN DU CHAPITRE 2 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.1 Pla de sodage 2.2.2 Probabilités d iclusio 2.3 SONDAGE
1 Mesure et intégrale
1 Mesure et itégrale 1.1 Tribu boréliee et foctios mesurables Soit =[a, b] u itervalle (le cas où b = ou a = est pas exclu) et F ue famille de sous-esembles de. OditqueF est ue tribu sur si les coditios
Université Pierre et Marie Curie. Biostatistique PACES - UE4 2013-2014
Uiversité Pierre et Marie Curie Biostatistique PACES - UE4 2013-2014 Resposables : F. Carrat et A. Mallet Auteurs : F. Carrat, A. Mallet, V. Morice Mise à jour : 21 octobre 2013 Relecture : V. Morice,
Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X
Exo7 Détermiats Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable T : pour
Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?
Etude Spéciale o. 7 Javier 2003 SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT? MARK SCHNEIDER Le CGAP vous ivite à lui faire part de vos commetaires, de vos rapports et de toute demade d evoid autres
14 Chapitre 14. Théorème du point fixe
Chapitre 14 Chapitre 14. Théorème du poit fixe Si l o examie de plus près les méthodes de Lagrage et de Newto, étudiées au chapitre précédet, elles revieet das leur pricipe à remplacer la résolutio de
Processus géométrique généralisé et applications en fiabilité
Processus géométrique gééralisé et applicatios e fiabilité Lauret Bordes 1 & Sophie Mercier 2 1,2 Uiversité de Pau et des Pays de l Adour Laboratoire de Mathématiques et de leurs Applicatios - Pau UMR
Processus et martingales en temps continu
Chapitre 3 Processus et martigales e temps cotiu 1 Quelques rappels sur les martigales e temps discret (voir [4]) O cosidère u espace filtré (Ω, F, (F ) 0, IP). O ote F = 0 F. Défiitio 1.1 Ue suite de
Convergences 2/2 - le théorème du point fixe - Page 1 sur 9
Au sommaire : Suites extraites Le théorème de Bolzao-Weierstrass La preuve du théorème de Bolzao-Weierstrass3 Foctio K-cotractate4 Le théorème du poit fixe5 La preuve du théorème du poit fixe6 Utilisatios
Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre 2010. 1.1 Quelques dénitions
Déombremet ECE3 Lycée Carot 12 ovembre 2010 Itroductio La combiatoire, sciece du déombremet, sert comme so om l'idique à compter. Il e s'agit bie etedu pas de reveir au stade du CP et d'appredre à compter
Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot
Exame fial pour Coseiller fiacier / coseillère fiacière avec brevet fédéral Recueil de formules Auteur: Iwa Brot Ce recueil de formules sera mis à dispositio des cadidats, si écessaire. Etat au 1er mars
Polynésie Septembre 2002 - Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.
Polyésie Septembre 2 - Exercice O peut traiter la questio 4 sas avoir traité les questios précédetes Pour u achat immobilier, lorsqu ue persoe emprute ue somme de 50 000 euros, remboursable par mesualités
Initiation à l analyse factorielle des correspondances
Fiche TD avec le logiciel : tdr620b Iitiatio à l aalyse factorielle des correspodaces A.B. Dufour & M. Royer & J.R. Lobry Das cette fiche, o étudie l Aalyse Factorielle des Correspodaces. Cette techique
Gérer les applications
Gérer les applicatios E parcourat les rayos du Widows Phoe Store, vous serez e mesure de compléter les services de base de votre smartphoe à travers plus de 10 000 applicatios. Gratuites ou payates, ces
Probabilités et statistique pour le CAPES
Probabilités et statistique pour le CAPES Béatrice de Tilière Frédérique Petit 2 3 jui 205. Uiversité Pierre et Marie Curie 2. Uiversité Pierre et Marie Curie 2 Table des matières Modélisatio de phéomèes
4 Approximation des fonctions
4 Approximatio des foctios Ue foctio f arbitraire défiie sur u itervalle I et à valeur das IR peut être représetée par so graphe, ou de maière équivalete par la doée de l esemble de ses valeurs f(t) pour
Séries réelles ou complexes
6 Séries réelles ou complexes Comme pour le chapitre 3, les suites cosidérées sot a priori complexes et les résultats classiques sur les foctios cotiues ou dérivables d ue variable réelle sot supposés
Sommaire Chapitre 1 - L interface de Windows 7 9
Sommaire Chapitre 1 - L iterface de Widows 7 9 1.1. Utiliser le meu Démarrer et la barre des tâches de Widows 7...11 Démarrer et arrêter des programmes...15 Épigler u programme das la barre des tâches...18
Échantillonnage et estimation
Stage «Nouveaux programmes de Termiale S» - Ho Chi Mih-Ville Novembre 202 Échatilloage et estimatio Partie C - Frédéric Barôme page Échatilloage et estimatio Partie C : Capacités et exercices-types. Rappelos
TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )
RAIRO Operatios Research RAIRO Oper. Res. 34 (2000) 99-129 TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 ) Commuiqué par Berard LEMAIRE Résumé. L étude
UV SQ 20. Automne 2006. Responsable d Rémy Garandel ( m.-el. [email protected] ) page 1
UV SQ 0 Probabilités Statistiques UV SQ 0 Autome 006 Resposable d Rémy Garadel ( m.-el. [email protected] ) page SQ-0 Probabilités - Statistiques Bibliographie: Titre Auteur(s) Editios Localisatio Niveau
3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.
3 Réseau Le réseau costitue u aspect essetiel d u eviroemet virtuel ESX. Il est doc importat de compredre la techologie, y compris ses différets composats et leur coopératio. Das ce chapitre, ous étudios
Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.
Reseigemets et moitorig. Reseigemets commerciaux et de solvabilité sur les etreprises et les particuliers. ENSEMBLE CONTRE LES PERTES. Reseigemets Creditreform. Pour plus de trasparece. Etreteir des rapports
x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.
EXERCICE 3 (6 poits ) (Commu à tous les cadidats) Il est possible de traiter la partie C sas avoir traité la partie B Partie A O désige par f la foctio défiie sur l itervalle [, + [ par Détermier la limite
Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation
Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Les etreprises ot souvet besoi de moyes de fiacemet à court terme : elles ot alors recours aux crédits bacaires (découverts bacaires
Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation
1 / 9 Chap. 6 : Les pricipaux crédits de trésorerie et leur comptabilisatio Le cycle d exploitatio des etreprises (achats stockage productio stockage vetes) peut etraîer des décalages de trésorerie plus
CHAPITRE 2 SÉRIES ENTIÈRES
CHAPITRE 2 SÉRIES ENTIÈRES 2. Séries etières Défiitio 2.. O appelle série etière toute série de foctios ( ) f dot le terme gééral est de la forme f ()=a, où (a ) désige ue suite réelle ou complee et R.
capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...
Applicatios des maths Algèbre fiacière 1. Itérêts composés O place u capital C 0 à u taux auel T a pedat aées. Quelle est la valeur fiale C de ce capital? aée capital e fi d'aée 1 C 0 + T C 0 = C 0 (1
Module 3 : Inversion de matrices
Math Stat Module : Iversio de matrices M Module : Iversio de matrices Uité. Défiitio O e défiira l iverse d ue matrice que si est carrée. O appelle iverse de la matrice carrée toute matrice B telle que
Comment les Canadiens classent-ils leur système de soins de santé?
Novembre Les sois de saté au Caada, c est capital bulleti o 4 Commet les Caadies classet-ils leur système de sois de saté? Résultats du sodage iteratioal du Fods du Commowealth sur les politiques de saté
Etude de la fonction ζ de Riemann
Etude de la foctio ζ de Riema ) Défiitio Pour x réel doé, la série de terme gééral,, coverge si et seulemet si x >. x La foctio zeta de Riema est la foctio défiie sur ], [ par : ( x > ), = x. Remarque.
* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable
Exo7 Topologie Exercices de Jea-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-fracefr * très facile ** facile *** difficulté moyee **** difficile ***** très difficile I : Icotourable Exercice **
Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus
Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus Yacie Oussar To cite this versio: Yacie Oussar. Réseaux d odelettes et réseaux de euroes pour la modélisatio
Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.
II LE MARCHE DU CAFE 1 L attractivité La segmetatio selo le mode de productio Le marché du café peut être segmeté e foctio de deux modes de productio pricipaux : la torréfactio et la fabricatio de café
Comportement d'une suite
Comportemet d'ue suite I) Approche de "ses de variatio et de ite d'ue suite" : 7 Soit la suite ( ) telle que = 5 ( + ) 2 Représetos graphiquemet la suite das u pla mui d' u repère. Il suffit de placer
Exercices de mathématiques
MP MP* Thierry DugarDi Marc rezzouk Exercices de mathématiques Cetrale-Supélec, Mies-Pots, École Polytechique et ENS Coceptio et créatio de couverture : Atelier 3+ Duod, 205 5 rue Laromiguière, 75005 Paris
Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012
Mobile Busiess Commuiquez efficacemet avec vos relatios commerciales 9040412 09/2012 U choix capital pour mes affaires Pour gérer efficacemet ses affaires, il y a pas de secret : il faut savoir predre
Suites et séries de fonctions
[http://mp.cpgedupuydelome.fr] édité le 3 avril 5 Eocés Suites et séries de foctios Propriétés de la limite d ue suite de foctios Eercice [ 868 ] [correctio] Etablir que la limite simple d ue suite de
Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe
Cosolidatio La société THEOS, qui commercialise des vis, exerce so activité das trois villes : Paris, Nacy et Nice. Le directeur de la société souhaite cosolider les résultats de ses vetes par ville das
Le chef d entreprise développe les services funéraires de l entreprise, en
Le chef d etreprise développe les services fuéraires de l etreprise, e assurat lui-même tout ou partie des activités de vete et e ecadrat directemet le persoel techique et commercial et d exploitatio.
Risque de longévité et détermination du besoin en capital : travaux en cours
Risque de logévité et détermiatio du besoi e capital : travaux e cours Frédéric PLANCHET ISFA Laboratoire SAF Versio.6 / Septembre 2008 Sommaire La prise e compte de l expériece propre au groupe das l
Formation d un ester à partir d un acide et d un alcool
CHAPITRE 10 RÉACTINS D ESTÉRIFICATIN ET D HYDRLYSE 1 Formatio d u ester à partir d u acide et d u alcool 1. Nomeclature Acide : R C H Alcool : R H Groupe caractéristique ester : C Formule géérale d u ester
Baccalauréat S Asie 19 juin 2014 Corrigé
Bcclurét S Asie 9 jui 24 Corrigé A. P. M. E. P. Exercice Commu à tous les cdidts 4 poits Questio - c. O peut élimier rpidemet les réposes. et d. cr les vecteurs directeurs des droites proposées e sot ps
Compte Sélect Banque Manuvie Guide du débutant
GUIDE DU DÉBUTANT Compte Sélect Baque Mauvie Guide du débutat Besoi d aide? Preez quelques miutes pour lire attetivemet votre Guide du cliet. Le préset Guide du débutat vous facilitera l utilisatio de
Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3
1 Groupe orthogoal d'u espace vectoriel euclidie de dimesio, de dimesio Voir le chapitre 19 pour l'étude des espaces euclidies et des isométries. État doé u espace euclidie E de dimesio 1, o rappelle que
Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd
easylab Le logiciel de gestio de fichiers pour baladeurs et tablettes Visualisatio simplifiée de la flotte Gestio des baladeurs par idividus / classes / groupes / activités Activatio des foctios par simple
La fibre optique arrive chez vous Devenez acteur de la révolution numérique
2 e éditio Edité par l Autorité de régulatio des commuicatios électroiques et des postes RÉPUBLIQUE FRANÇAISE DÉCEMBRE 2010 La fibre optique arrive chez vous Deveez acteur de la révolutio umérique Petit
GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES
GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES SOMMAIRE Les visites d etreprises : pourquoi ouvrir ses portes?.... 8 1.1 Des motivatios variées pour les etreprises... 8 1.2 Les freis à l ouverture
Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet : http://www.lesphinxdeveloppement.fr/club/index.html
Equêtes, Sodages Aalyse de doées Le Sphix! Iteret : http://www.lesphixdeveloppemet.fr/club/idex.html Lagarde J. Aalyse statistique de doées, Duod. Réaliser vos equêtes Questioaire Traitemets et aalyses
Création et développement d une fonction audit interne*
Créatio et développemet d ue foctio audit itere* Ue démarche e 10 étapes [ Sommaire] Dix étapes pour réussir... 7 Étapes 1 à 4 Défiitio du cadre d itervetio... 9 1 Idetifier les attetes des parties preates...
PROMENADE ALÉATOIRE : Chaînes de Markov et martingales
PROMENADE ALÉATOIRE : Chaîes de Markov et martigales Thierry Bodieau École Polytechique Paris Départemet de Mathématiques Appliquées [email protected] Novembre 2013 2 Table des matières
Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation
Tempêtes : Etude des dépedaces etre les braches Automobile et Icedie à l aide de la théorie des copulas Topic Risk evaluatio Belguise Olivier Charles Levi ACM Guy Carpeter 34 rue du Wacke 47/53 rue Raspail
Donnez de la liberté à vos données. BiBOARD. www.biboard.fr
Doez de la liberté à vos doées BiBOARD www.biboard.fr Le décisioel pour tous Le décisioel évolue. L etreprise quelle que soit sa taille, a besoi de piloter so activité à l aide d outils simples, fiables,
Terminale S. Terminale S 1 F. Laroche
Termiale S Exercices. Rappels et exercices de base 3.. QCM (P. Egel) 3.. QCM, Atilles 005 4. 3. QCM, Liba 009, 3 poits 4. 4. QCM, C. étragers 007. 5. QCM, Frace 007 5 6. 6. QCM, N. Calédoie 007 7. 7. QCM
DETERMINANTS. a b et a'
2003 - Gérard Lavau - http://perso.waadoo.fr/lavau/idex.htm Vous avez toute liberté pour télécharger, imprimer, photocopier ce cours et le diffuser gratuitemet. Toute diffusio à titre oéreux ou utilisatio
COMMENT ÇA MARCHE GUIDE DE L ENSEIGNANT 9 E ANNÉE
GUIDE DE L ENSEIGNANT 9 E ANNÉE TROUSSE PÉDAGOGIQUE 9 E ANNÉE Le préset Guide de l eseigat, qui accompage la trousse pédagogique COMMENT ÇA MARCHE : PRODUCTION D ÉLECTRICITÉ 9 e aée a été coçu à l itetio
Régulation analogique industrielle ESTF- G.Thermique
Chapitre 5 Stabilité, Rapidité, Précisio et Réglage Stabilité. Défiitio Coditio de stabilité. Critères de stabilité.. Critères algébriques.. Critère graphique ou de revers das le pla de Nyquist Rapidité
La maladie rénale chronique
La maladie réale chroique Qu est-ce que cela veut dire pour moi? Natioal Kidey Disease Educatio Program La maladie réale chroique: l essetiel Vous avez été iformé(e) que vous êtes atteit(e) de la maladie
Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique
es Cetre d Etudes Techiques Maritimes et Fluviales Les études Recommadatios applicables aux appareils de levage "acies" das les ports Guide Techique PM 03.01 Cetre d Etudes Techiques Maritimes et Fluviales
Microscope de mesure sans contact pour inspection et mesures de précision
KESTREL ELITE KESTREL ELITE Microscope de mesure sas cotact pour ispectio et mesures de précisio Microscope à deux axes sas cotact, idéal pour la mesure de caractéristiques 2-D de pièces techiques de petite
Les algorithmes de tri
CONSERVATOIRE NATIONAL DES ARTS ET METIERS PARIS MEMOIRE POUR L'EXAMEN PROBATOIRE e INFORMATIQUE par Nicolas HERVE Les algorithmes de tri Souteu le mai JURY PRESIDENTE : Mme COSTA Sommaire Itroductio....
Chaînes de Markov. Arthur Charpentier
Chaîes de Markov Arthur Charpetier École Natioale de la Statistique et d Aalyse de l Iformatio - otes de cours à usage exclusif des étudiats de l ENSAI - - e pas diffuser, e pas citer - Quelques motivatios.
Guide du suivi et de l évaluation axés sur les résultats P ROGRAMME DES NATIONS UNIES POUR LE DÉVELOPPEMENT B U R E AU DE L É VA L UATION
Guide du suivi et de l évaluatio axés sur les résultats P ROGRAMME DES NATIONS UNIES POUR LE DÉVELOPPEMENT B U R E AU DE L É VA L UATION P ROGRAMME DES NATIONS UNIES POUR LE DÉVELOPPEMENT B U R E AU DE
Simulations interactives de convertisseurs en électronique de puissance
Simulatios iteractives de covertisseurs e électroique de puissace Jea-Jacques HUSELSTEIN, Philippe ENII Laboratoire d'électrotechique de Motpellier (LEM) - Uiversité Motpellier II, 079, Place Eugèe Bataillo,
Neolane Leads. Neolane v6.0
Neolae Leads Neolae v6.0 Ce documet, aisi que le logiciel qu'il décrit, est fouri das le cadre d'u accord de licece et e peut être utilisé ou copié que das les coditios prévues par cet accord. Cette publicatio
PREPARER SA RETRAITE
PREPARER SA RETRAITE Combie éparger pour compléter sa retraite? Pour répodre à cette questio, la première étape cosiste à imagier so trai après 65 as. Des postes de dépeses aurot disparu (otammet ceux
One Office Voice Pack Vos appels fixes et mobiles en un seul pack
Uique! Exteded Fleet Appels illimités vers les uméros Mobistar et les liges fixes! Oe Office Voice Pack Vos appels fixes et mobiles e u seul pack Commuiquez et travaillez e toute liberté Mobistar offre
