Chapitre 8: Inférence, échantillonnage et estimation 1. Echantillonnage aléatoire simple 2. Inférence statistique 3. Estimation 4. Evaluation graphique de l adéquation d un modèle de distribution 1
L inférence regroupe l ensemble des techniques visant à généraliser à la population des résultats observés sur un échantillon. Ce chapitre place le contexte théorique sur lequel se base généralement un processus d inférence, et présente un outil graphique pour évaluer l adéquation d un modèle pour résumer des données (qq-plot). 1. Echantillonnage aléatoire simple Afin d obtenir un échantillon représentatif d une population, il est nécessaire de le tirer de façon aléatoire. L exemple classique d échantillonnage aléatoire simple consiste à placer des billets contenant les noms de tous les individus de la population dans une urne et de tirer des billets au hasard sans remise. Dans la pratique, ce principe est mis en oeuvre à l aide de logiciels permettant de générer des nombres aléatoires, sur la base desquels on sélectionne des individus à partir d une liste (ex.: annuaire téléphonique). Il existe des procédés d échantillonage plus sophistiqués, comme par exemple l échantillonnage aléatoire stratifié, où l on échantillonne séparément dans des sous-populations (appelées strates), par exemple pour garantir d avoir des proportions d individus de chaque strate qui soient conformes aux proportions de la population. Dans ce cours, nous nous concentrerons sur l échantillonnage aléatoire simple. 2
Considérons un ensemble de n individus tirés d une population à l aide d un échantillonnage aléatoire simple et intéressons-nous à une caractéristique C de ces individus. On considère les mesures de C que nous allons faire sur chaque individu comme des variables aléatoires C 1,..., C n, et on fait les hypothèses suivantes: Les variables C 1,..., C n sont indépendantes Les variables C 1,..., C n ont toutes la même distribution F, où F est la distribution (inconnue) de la caractéristique d intétêt dans la population. On résume ces deux hypothèses en disant que C 1,..., C n sont indépendantes et identiquement distribuées selon F, ce qu on note C 1,..., C n i.i.d. F. 3
2. Inférence statistique L inférence consiste en la détermination de la distribution de population F et de ses caractéristiques (moyenne, variance, quantiles,...) à partir des observations c 1,..., c n sur l échantillon, ainsi qu en l étude de la précision avec laquelle ces caractéristiques sont déterminées. Echantilonnage Population Echantillon Inférence Souvent, on aura recours à un modèle mathématique pour F, qui prendra la forme d une famille de distributions dépendant d un ou plusieurs paramètres (ex.: normale, binomiale, Poisson). Il faudra alors déterminer le ou les paramètres qui conviennent le mieux à l échantillon. On parle dans ce cas d une approche paramétrique de l inférence. 4
3. Estimation Le processus de détermination de la distribution de population à l aide des observations est appelé l estimation. Dans le cadre d une approche paramétrique, il s agit d estimer les paramètres inconnus du modèle choisi. Exemple: jet d une pièce On jette 6 fois une pièce de monnaie et on obtient le résultat suivant: (Pile, Pile, Face, Pile, Face, Pile). On décide de modéliser cette expérience avec une distribution binomiale B(1, p), où p est la probabilité d obtenir Pile. On décrit chaque jet i par une variable aléatoire X i B(1, p) (X i = 1 si le jet est Pile ; X i = 0 si le jet est Face ), et il nous faut donc estimer le paramètre p à l aide des données. NB: avec cette modélisation, on a fait l hypothèse que p est le même à chaque jet. 5
De façon générale, on peut se poser la question de savoir comment déterminer les paramètres inconnus à partir des données. Un principe très utilisé est celui du maximum de vraisemblance. Il consiste à choisir les paramètres qui maximisent la probabilité d observer l échantillon obtenu, appelée la vraisemblance des paramètres. Dans l exemple de la pièce, on le met en oeuvre de la façon suivante: Calcul de la probabilité d obtenir exactement l échantillon observé: On a O = (Pile, Pile, Face, Pile, Face, Pile) et P (O) = p p (1 p) p (1 p) p = p 4 (1 p) 2. Ici on a utilisé l hypothèse d indépendance entre les jets pour esprimer P (O) comme le produit des probabilités des résultats des jets individuels. On doit donc trouver la valeur de p qui rend P (O) maximal. L approche généralement utilisée pour maximiser P (O) consiste à maximiser son logarithme: log (P (O)) = 4 log(p) + 2 log(1 p). En effet, le logarithme étant une fonction croissante, maximiser P (O) est équivalent à maximiser log (P (O)). (De plus, P (O) étant une probabilité, c est une quantité forcément positive et son logarithme est donc toujours défini). 6
Pour maximiser log (P (O)), on cherche la valeur de p où sa dérivée s annule: d log (P (O)) dp = 4 p 2 1 p = 0 La solution de cette équation est p = 6 4, et on vérifie facilement que 4 6 correspond bien au maximum (et non à un minimum) de log (P (O)). Ici, nous avons donc obtennu que 4 6 est l estimation du maximum de vraisemblance de p. Remarques La valeur obtenue n est pas suprenante, elle correspond à la proportion de Pile dans l échantillon. Le fait de prendre le logarithme de la vraisemblance transforme le produit en une somme, ce qui facilite le calcul de la dérivée 7
Illustration du calcul des pages précédentes: P(O) 0.000 0.010 0.020 0.0 0.2 0.4 0.6 4 0.8 1.0 p 6 log(p(o)) 25 20 15 10 5 0.0 0.2 0.4 0.6 4 0.8 1.0 p 6 8
Cas général On se propose de résoudre le même problème de façon générale, avec n lancers de la pièce et k resultats Pile. Cela revient à trouver la valeur de p qui maximise P (X 1 = 1)... P (X k = 1) P (X k+1 = 0)... P (X n = 0) = p k (1 p) n k. La solution de ce problème est ˆp(X 1,..., X n ) = k n. Ainsi, d une façon générale, la valeur de p qui maximise la vraisemblance dans ce type d expériences est la proportion de succès dans l échantillon. ˆp est une fonction des variables aléatoires qui représentent les observations. ˆp est donc lui-même une variable aléatoire, appelée un estimateur, en l occurrence l estimateur du maximum de vraisemblance de p. Les propriétés des estimations fournies par un estimateur vont dépendre de ses propriétés en tant que variable aléatoire (espérance, variance, etc). La question de la distribution d un estimateur sera abordée dans le prochain chapitre. 9
Le principe du maximum du vraisemblance peut être appliqué à une grande variété de cas: Modèle normal: Soient X 1,..., X n i.i.d N (µ, σ 2 ). Les estimateurs du maximum de vraisemblance pour les paramètres µ et σ 2 sont n ˆµ = 1 X i et ˆσ2 = 1 (X i ˆµ) 2. n i=1 n i=1 Les estimateurs du maximum de vraisemblance de la moyenne et de la variance d une distribution normale sont donc égaux à la moyenne et à la variance de l échantillon telles que définies au chapitre 2. Modèle de Poisson: Soient Y 1,..., Y n i.i.d P(λ). L estimateur du maximum de vraisemblance pour le paramètre λ est ˆλ = 1 n Ici aussi, l estimateur du maximum de vraisemblance de la moyenne d une distribution de Poisson est égal à la moyenne de l échantillon. 10 n i=1 Y i. n
Exemple pour le cas normal Reprenons les poids des étudiant(e)s en première année et considérons uniquement les garçons (sans l outlier déjà constaté). On obtient ˆµ = 67.59 kg et ˆσ 2 = 35.55 kg 2 et la figure représente la densité correspondante superposée à l histogramme. Densité 0.00 0.02 0.04 0.06 0.08 50 55 60 65 70 75 80 Poids Comme on le voit, l approximation offerte par le modèle normal n est pas parfaite. Cela dit, le modèle normal n est pas trop violemment mis en défaut, par exemple par une forte asymétrie ou la présence d outliers. 11
En passant: Retour sur la régression: modélisation de la relation entre deux variables X et Y à l aide d une droite. Nous avons vu au chapitre 3 que lorsqu on calcule une valeur pour l intercept (ˆβ 0 ) et pour la pente (ˆβ 1 ) d une droite de régression, on postule implicitement que les variables X et Y suivent le modèle suivant: Y i = β 0 + β 1 X i + ε i, i = 1,..., n où β 0 et β 1 sont les vraies valeurs de l intercept et de la pente au niveau de la population. En prenant l approche paramétrique suivante pour modéliser les erreurs ε i : ε i i.i.d. N (0, σ 2 ), indépendants de X i, et en calculant les estimations de l intercept et de la pente selon le maximum de vraisemblance, on obtient justement les estimateurs des moindres carrés ˆβ 0 et ˆβ 1 que nous avons vus au chapitre 3. Autrement dit, si on postule que les erreurs suivent une distribution normale, la méthode du maximum de vraisemblance est equivalente à celle des moindres carrés. 12
L approche du maximum de vraisemblance est une approche paramétrique. Elle implique de faire une hypothèse assez forte sur la forme de la distribution des données. Si on ne souhaite pas faire une hypothèse aussi forte, on peut prendre une approche non paramétrique. Par exemple, on peut estimer F par F n, la fonction de distribution cumulative empirique. Avantage d une approche non paramétrique: Moins d hypothèses, donc moins de biais dûs à de fausses hypothèses. Avantage d une approche paramétrique: La distribution est entièrement déterminée par quelques paramètres, ce qui simplifie les calculs des autres caractéristiques de la distribution (par ex. les quantiles). 13
4. Evaluation graphique de l adéquation d un modèle de distribution Nous avons vu plus haut un exemple d évaluation graphique du modèle normal (poids des étudiants), qui consiste à superposer la densité du modèle à l histogramme des données. Voici encore deux exemples, avec les données de la série d exercices 1 (nombres d étamines). Comme pour les poids des étudiants, on a estimé les paramètres µ et σ 2 du modèle normal par maximum de vraisemblance et on obtient les graphiques ci-dessous: Densité 0.0000 0.0004 0.0008 0.0012 0 1000 2000 3000 4000 5000 Nombre d'étamines 14
Densité 0.0 0.1 0.2 0.3 0.4 3 4 5 6 7 8 9 log(nombre d'étamines) On voit que le modèle normal n est pas approprié pour décrire la distribution du nombre d étamines, qui est très asymétrique. Il l est par contre beaucoup plus pour décrire la distribution du logarithme du nombre d étamines, comme on le voit sur le graphique ci-dessus. Nous allons à présent introduire un procédé graphique plus efficace pour évaluer l adéquation d un modèle, appelé qq-plot (quantile-quantile plot). Dans la série d exercices 8, vous l appliquerez aux deux cas ci-dessus. 15
Le qq-plot L idée est de comparer les quantiles de la distribution empirique à ceux du modèle, en les répresentant sur un graphique. Si les quantiles empiriques sont proches de ceux du modèle, les points du graphique devraient être alignés sur la diagonale ( y=x ). Appliquons ceci aux poids des étudiants, au nombre de n = 29. Que valent les quantiles empiriques correspondant aux probabilités α i = i 1/2 n, i = 1,..., n? Il sont égaux au observations. (V. illustration p. suivante) On va donc représenter sur un graphique: Sur l axe vertical: les observations Sur l axe horizontal: les quantiles du modèle pour les probabilités α i, donnés par où ˆF est la cumulative du modèle. q αi = ˆF 1 ( i 1/2 n ), 16
F n (Poids) 0α 1 α 2 α 3 α 4 α 5 α 6 α 7 α 8 α 9 α 10 α 11 α 12 α 13 α 14 α 15 α 16 α 17 α 18 α 19 α 20 α 21 α 22 α 23 α 24 α 25 α 26 α 27 α 28 α 291 55 60 65 70 75 80 Poids [cm] 17
Dans le cas des poids des étudiants, nous avions obtenu ˆµ = 67.59 kg et ˆσ 2 = 35.55 kg 2 et le modèle correspondant est donc ˆF = N (67.59, 35.55). Nous calculons donc les valeurs correspondantes des q αi et nous obtenons le tableau suivant, qui contient les coordonnnées des points du qq-plot: q αi 54.98 57.88 59.45 60.60 61.54 62.34 63.06 63.72 64.34 64.92 p i 52.00 57.00 59.00 60.00 60.00 62.00 65.00 65.00 65.00 65.00 q αi 65.48 66.02 66.55 67.07 67.59 68.10 68.62 69.15 69.69 70.25 p i 66.00 66.00 67.00 68.00 68.00 68.00 70.00 70.00 71.00 72.00 q αi 70.83 71.45 72.11 72.83 73.64 74.57 75.72 77.30 80.19 p i 72.00 72.00 72.00 72.00 73.00 75.00 75.00 75.00 78.00 18
Avec les données de la page précédente, on obtient le graphique suivant: p i 55 60 65 70 75 55 60 65 70 75 80 On voit que les points ne s éloignent pas trop de la diagonale. q αi 19
Propriété de la distribution normale: A la place de définir q αi comme les quantiles de N (µ, σ), on peut les définir comme les quantiles d une normale standard N (0, 1). On obtient alors le graphique suivant, exactement pareil au graphique précédent à l exception de la graduation de l axe horizontal. p i 55 60 65 70 75 2 1 0 1 2 Dans ce cas, la droite n est plus la diagonale, et on représente généralement une droite passant par les premier et troisième quartiles des données et du modèle. De cette façon, on accorde plus d importance à la partie centrale du graphique, plus stable que les extrémités. Souvent en effet, les extrémités s éloignent de la droite même si le modèle est adéquat, en raison de leur plus grande variabilité. q αi 20
Propriété de la distribution normale: A la place de définir q αi comme les quantiles de N (µ, σ), on peut les définir comme les quantiles d une normale standard N (0, 1). On obtient alors le graphique suivant, exactement pareil au graphique précédent à l exception de la graduation de l axe horizontal. p i 55 60 65 70 75 2 1 0 1 2 Dans ce cas, la droite n est plus la diagonale, et on représente généralement une droite passant par les premier et troisième quartiles des données et du modèle. De cette façon, on accorde plus d importance à la partie centrale du graphique, plus stable que les extrémités. Souvent en effet, les extrémités s éloignent de la droite même si le modèle est adéquat, en raison de leur plus grande variabilité. q αi 21