Chapitre 8: Inférence, échantillonnage et estimation

Documents pareils

Annexe commune aux séries ES, L et S : boîtes et quantiles

Estimation et tests statistiques, TD 5. Solutions

Probabilités Loi binomiale Exercices corrigés

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Représentation d une distribution

Statistique : Résumé de cours et méthodes

Chapitre 3 : INFERENCE

Lois de probabilité. Anita Burgun

Statistique Descriptive Élémentaire

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Statistiques 0,14 0,11

La simulation probabiliste avec Excel

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Séries Statistiques Simples

Théorie des sondages : cours 5

Que faire lorsqu on considère plusieurs variables en même temps?

Projet Etienne Marceau Méthodes statistiques en assurance non vie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Probabilités sur un univers fini

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Aide-mémoire de statistique appliquée à la biologie

Statistiques Descriptives à une dimension

Fonctions de deux variables. Mai 2011

Feuille d exercices 2 : Espaces probabilisés

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

FORMULAIRE DE STATISTIQUES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

TABLE DES MATIERES. C Exercices complémentaires 42

Cours de Tests paramétriques

PROBABILITES ET STATISTIQUE I&II

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités sur un univers fini

Simulation de variables aléatoires

Couples de variables aléatoires discrètes

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Les probabilités. Guide pédagogique Le présent guide sert de complément à la série d émissions intitulée Les probabilités produite par TFO.

Travaux dirigés d introduction aux Probabilités

STATISTIQUES DESCRIPTIVES

Apprentissage par renforcement (1a/3)

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Probabilités. C. Charignon. I Cours 3

Introduction à la Statistique Inférentielle

Etude des propriétés empiriques du lasso par simulations

IFT3245. Simulation et modèles

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

4. Exercices et corrigés

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Loi binomiale Lois normales

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

NOTIONS DE PROBABILITÉS

Table des matières. I Mise à niveau 11. Préface

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

TESTS D'HYPOTHESES Etude d'un exemple

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

ÉQUATIONS. Quel système!!!! PROBLÈMES À DEUX INCONNUES : - MISE EN ÉQUATIONS - RÉSOLUTION. Dossier n 3 Juin 2005

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Classification non supervisée

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Modélisation aléatoire en fiabilité des logiciels

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

P1 : Corrigés des exercices

La classification automatique de données quantitatives

Introduction à la statistique non paramétrique

Chapitre 3. Les distributions à deux variables

Les probabilités. Chapitre 18. Tester ses connaissances

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

2.4 Représentation graphique, tableau de Karnaugh

S initier aux probabilités simples «Question de chance!»

Leçon N 4 : Statistiques à deux variables

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

3. Caractéristiques et fonctions d une v.a.

Soutenance de stage Laboratoire des Signaux et Systèmes

L'analyse des données à l usage des non mathématiciens

Biostatistiques : Petits effectifs

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

Introduction à la statistique descriptive

Le Modèle Linéaire par l exemple :

VI. Tests non paramétriques sur un échantillon

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Statistiques à une variable

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Économetrie non paramétrique I. Estimation d une densité

Peut-on imiter le hasard?

CNAM léments de cours Bonus-malus et Crédibilité

Cryptographie et fonctions à sens unique

EVALUATIONS MI-PARCOURS CM2

Transcription:

Chapitre 8: Inférence, échantillonnage et estimation 1. Echantillonnage aléatoire simple 2. Inférence statistique 3. Estimation 4. Evaluation graphique de l adéquation d un modèle de distribution 1

L inférence regroupe l ensemble des techniques visant à généraliser à la population des résultats observés sur un échantillon. Ce chapitre place le contexte théorique sur lequel se base généralement un processus d inférence, et présente un outil graphique pour évaluer l adéquation d un modèle pour résumer des données (qq-plot). 1. Echantillonnage aléatoire simple Afin d obtenir un échantillon représentatif d une population, il est nécessaire de le tirer de façon aléatoire. L exemple classique d échantillonnage aléatoire simple consiste à placer des billets contenant les noms de tous les individus de la population dans une urne et de tirer des billets au hasard sans remise. Dans la pratique, ce principe est mis en oeuvre à l aide de logiciels permettant de générer des nombres aléatoires, sur la base desquels on sélectionne des individus à partir d une liste (ex.: annuaire téléphonique). Il existe des procédés d échantillonage plus sophistiqués, comme par exemple l échantillonnage aléatoire stratifié, où l on échantillonne séparément dans des sous-populations (appelées strates), par exemple pour garantir d avoir des proportions d individus de chaque strate qui soient conformes aux proportions de la population. Dans ce cours, nous nous concentrerons sur l échantillonnage aléatoire simple. 2

Considérons un ensemble de n individus tirés d une population à l aide d un échantillonnage aléatoire simple et intéressons-nous à une caractéristique C de ces individus. On considère les mesures de C que nous allons faire sur chaque individu comme des variables aléatoires C 1,..., C n, et on fait les hypothèses suivantes: Les variables C 1,..., C n sont indépendantes Les variables C 1,..., C n ont toutes la même distribution F, où F est la distribution (inconnue) de la caractéristique d intétêt dans la population. On résume ces deux hypothèses en disant que C 1,..., C n sont indépendantes et identiquement distribuées selon F, ce qu on note C 1,..., C n i.i.d. F. 3

2. Inférence statistique L inférence consiste en la détermination de la distribution de population F et de ses caractéristiques (moyenne, variance, quantiles,...) à partir des observations c 1,..., c n sur l échantillon, ainsi qu en l étude de la précision avec laquelle ces caractéristiques sont déterminées. Echantilonnage Population Echantillon Inférence Souvent, on aura recours à un modèle mathématique pour F, qui prendra la forme d une famille de distributions dépendant d un ou plusieurs paramètres (ex.: normale, binomiale, Poisson). Il faudra alors déterminer le ou les paramètres qui conviennent le mieux à l échantillon. On parle dans ce cas d une approche paramétrique de l inférence. 4

3. Estimation Le processus de détermination de la distribution de population à l aide des observations est appelé l estimation. Dans le cadre d une approche paramétrique, il s agit d estimer les paramètres inconnus du modèle choisi. Exemple: jet d une pièce On jette 6 fois une pièce de monnaie et on obtient le résultat suivant: (Pile, Pile, Face, Pile, Face, Pile). On décide de modéliser cette expérience avec une distribution binomiale B(1, p), où p est la probabilité d obtenir Pile. On décrit chaque jet i par une variable aléatoire X i B(1, p) (X i = 1 si le jet est Pile ; X i = 0 si le jet est Face ), et il nous faut donc estimer le paramètre p à l aide des données. NB: avec cette modélisation, on a fait l hypothèse que p est le même à chaque jet. 5

De façon générale, on peut se poser la question de savoir comment déterminer les paramètres inconnus à partir des données. Un principe très utilisé est celui du maximum de vraisemblance. Il consiste à choisir les paramètres qui maximisent la probabilité d observer l échantillon obtenu, appelée la vraisemblance des paramètres. Dans l exemple de la pièce, on le met en oeuvre de la façon suivante: Calcul de la probabilité d obtenir exactement l échantillon observé: On a O = (Pile, Pile, Face, Pile, Face, Pile) et P (O) = p p (1 p) p (1 p) p = p 4 (1 p) 2. Ici on a utilisé l hypothèse d indépendance entre les jets pour esprimer P (O) comme le produit des probabilités des résultats des jets individuels. On doit donc trouver la valeur de p qui rend P (O) maximal. L approche généralement utilisée pour maximiser P (O) consiste à maximiser son logarithme: log (P (O)) = 4 log(p) + 2 log(1 p). En effet, le logarithme étant une fonction croissante, maximiser P (O) est équivalent à maximiser log (P (O)). (De plus, P (O) étant une probabilité, c est une quantité forcément positive et son logarithme est donc toujours défini). 6

Pour maximiser log (P (O)), on cherche la valeur de p où sa dérivée s annule: d log (P (O)) dp = 4 p 2 1 p = 0 La solution de cette équation est p = 6 4, et on vérifie facilement que 4 6 correspond bien au maximum (et non à un minimum) de log (P (O)). Ici, nous avons donc obtennu que 4 6 est l estimation du maximum de vraisemblance de p. Remarques La valeur obtenue n est pas suprenante, elle correspond à la proportion de Pile dans l échantillon. Le fait de prendre le logarithme de la vraisemblance transforme le produit en une somme, ce qui facilite le calcul de la dérivée 7

Illustration du calcul des pages précédentes: P(O) 0.000 0.010 0.020 0.0 0.2 0.4 0.6 4 0.8 1.0 p 6 log(p(o)) 25 20 15 10 5 0.0 0.2 0.4 0.6 4 0.8 1.0 p 6 8

Cas général On se propose de résoudre le même problème de façon générale, avec n lancers de la pièce et k resultats Pile. Cela revient à trouver la valeur de p qui maximise P (X 1 = 1)... P (X k = 1) P (X k+1 = 0)... P (X n = 0) = p k (1 p) n k. La solution de ce problème est ˆp(X 1,..., X n ) = k n. Ainsi, d une façon générale, la valeur de p qui maximise la vraisemblance dans ce type d expériences est la proportion de succès dans l échantillon. ˆp est une fonction des variables aléatoires qui représentent les observations. ˆp est donc lui-même une variable aléatoire, appelée un estimateur, en l occurrence l estimateur du maximum de vraisemblance de p. Les propriétés des estimations fournies par un estimateur vont dépendre de ses propriétés en tant que variable aléatoire (espérance, variance, etc). La question de la distribution d un estimateur sera abordée dans le prochain chapitre. 9

Le principe du maximum du vraisemblance peut être appliqué à une grande variété de cas: Modèle normal: Soient X 1,..., X n i.i.d N (µ, σ 2 ). Les estimateurs du maximum de vraisemblance pour les paramètres µ et σ 2 sont n ˆµ = 1 X i et ˆσ2 = 1 (X i ˆµ) 2. n i=1 n i=1 Les estimateurs du maximum de vraisemblance de la moyenne et de la variance d une distribution normale sont donc égaux à la moyenne et à la variance de l échantillon telles que définies au chapitre 2. Modèle de Poisson: Soient Y 1,..., Y n i.i.d P(λ). L estimateur du maximum de vraisemblance pour le paramètre λ est ˆλ = 1 n Ici aussi, l estimateur du maximum de vraisemblance de la moyenne d une distribution de Poisson est égal à la moyenne de l échantillon. 10 n i=1 Y i. n

Exemple pour le cas normal Reprenons les poids des étudiant(e)s en première année et considérons uniquement les garçons (sans l outlier déjà constaté). On obtient ˆµ = 67.59 kg et ˆσ 2 = 35.55 kg 2 et la figure représente la densité correspondante superposée à l histogramme. Densité 0.00 0.02 0.04 0.06 0.08 50 55 60 65 70 75 80 Poids Comme on le voit, l approximation offerte par le modèle normal n est pas parfaite. Cela dit, le modèle normal n est pas trop violemment mis en défaut, par exemple par une forte asymétrie ou la présence d outliers. 11

En passant: Retour sur la régression: modélisation de la relation entre deux variables X et Y à l aide d une droite. Nous avons vu au chapitre 3 que lorsqu on calcule une valeur pour l intercept (ˆβ 0 ) et pour la pente (ˆβ 1 ) d une droite de régression, on postule implicitement que les variables X et Y suivent le modèle suivant: Y i = β 0 + β 1 X i + ε i, i = 1,..., n où β 0 et β 1 sont les vraies valeurs de l intercept et de la pente au niveau de la population. En prenant l approche paramétrique suivante pour modéliser les erreurs ε i : ε i i.i.d. N (0, σ 2 ), indépendants de X i, et en calculant les estimations de l intercept et de la pente selon le maximum de vraisemblance, on obtient justement les estimateurs des moindres carrés ˆβ 0 et ˆβ 1 que nous avons vus au chapitre 3. Autrement dit, si on postule que les erreurs suivent une distribution normale, la méthode du maximum de vraisemblance est equivalente à celle des moindres carrés. 12

L approche du maximum de vraisemblance est une approche paramétrique. Elle implique de faire une hypothèse assez forte sur la forme de la distribution des données. Si on ne souhaite pas faire une hypothèse aussi forte, on peut prendre une approche non paramétrique. Par exemple, on peut estimer F par F n, la fonction de distribution cumulative empirique. Avantage d une approche non paramétrique: Moins d hypothèses, donc moins de biais dûs à de fausses hypothèses. Avantage d une approche paramétrique: La distribution est entièrement déterminée par quelques paramètres, ce qui simplifie les calculs des autres caractéristiques de la distribution (par ex. les quantiles). 13

4. Evaluation graphique de l adéquation d un modèle de distribution Nous avons vu plus haut un exemple d évaluation graphique du modèle normal (poids des étudiants), qui consiste à superposer la densité du modèle à l histogramme des données. Voici encore deux exemples, avec les données de la série d exercices 1 (nombres d étamines). Comme pour les poids des étudiants, on a estimé les paramètres µ et σ 2 du modèle normal par maximum de vraisemblance et on obtient les graphiques ci-dessous: Densité 0.0000 0.0004 0.0008 0.0012 0 1000 2000 3000 4000 5000 Nombre d'étamines 14

Densité 0.0 0.1 0.2 0.3 0.4 3 4 5 6 7 8 9 log(nombre d'étamines) On voit que le modèle normal n est pas approprié pour décrire la distribution du nombre d étamines, qui est très asymétrique. Il l est par contre beaucoup plus pour décrire la distribution du logarithme du nombre d étamines, comme on le voit sur le graphique ci-dessus. Nous allons à présent introduire un procédé graphique plus efficace pour évaluer l adéquation d un modèle, appelé qq-plot (quantile-quantile plot). Dans la série d exercices 8, vous l appliquerez aux deux cas ci-dessus. 15

Le qq-plot L idée est de comparer les quantiles de la distribution empirique à ceux du modèle, en les répresentant sur un graphique. Si les quantiles empiriques sont proches de ceux du modèle, les points du graphique devraient être alignés sur la diagonale ( y=x ). Appliquons ceci aux poids des étudiants, au nombre de n = 29. Que valent les quantiles empiriques correspondant aux probabilités α i = i 1/2 n, i = 1,..., n? Il sont égaux au observations. (V. illustration p. suivante) On va donc représenter sur un graphique: Sur l axe vertical: les observations Sur l axe horizontal: les quantiles du modèle pour les probabilités α i, donnés par où ˆF est la cumulative du modèle. q αi = ˆF 1 ( i 1/2 n ), 16

F n (Poids) 0α 1 α 2 α 3 α 4 α 5 α 6 α 7 α 8 α 9 α 10 α 11 α 12 α 13 α 14 α 15 α 16 α 17 α 18 α 19 α 20 α 21 α 22 α 23 α 24 α 25 α 26 α 27 α 28 α 291 55 60 65 70 75 80 Poids [cm] 17

Dans le cas des poids des étudiants, nous avions obtenu ˆµ = 67.59 kg et ˆσ 2 = 35.55 kg 2 et le modèle correspondant est donc ˆF = N (67.59, 35.55). Nous calculons donc les valeurs correspondantes des q αi et nous obtenons le tableau suivant, qui contient les coordonnnées des points du qq-plot: q αi 54.98 57.88 59.45 60.60 61.54 62.34 63.06 63.72 64.34 64.92 p i 52.00 57.00 59.00 60.00 60.00 62.00 65.00 65.00 65.00 65.00 q αi 65.48 66.02 66.55 67.07 67.59 68.10 68.62 69.15 69.69 70.25 p i 66.00 66.00 67.00 68.00 68.00 68.00 70.00 70.00 71.00 72.00 q αi 70.83 71.45 72.11 72.83 73.64 74.57 75.72 77.30 80.19 p i 72.00 72.00 72.00 72.00 73.00 75.00 75.00 75.00 78.00 18

Avec les données de la page précédente, on obtient le graphique suivant: p i 55 60 65 70 75 55 60 65 70 75 80 On voit que les points ne s éloignent pas trop de la diagonale. q αi 19

Propriété de la distribution normale: A la place de définir q αi comme les quantiles de N (µ, σ), on peut les définir comme les quantiles d une normale standard N (0, 1). On obtient alors le graphique suivant, exactement pareil au graphique précédent à l exception de la graduation de l axe horizontal. p i 55 60 65 70 75 2 1 0 1 2 Dans ce cas, la droite n est plus la diagonale, et on représente généralement une droite passant par les premier et troisième quartiles des données et du modèle. De cette façon, on accorde plus d importance à la partie centrale du graphique, plus stable que les extrémités. Souvent en effet, les extrémités s éloignent de la droite même si le modèle est adéquat, en raison de leur plus grande variabilité. q αi 20

Propriété de la distribution normale: A la place de définir q αi comme les quantiles de N (µ, σ), on peut les définir comme les quantiles d une normale standard N (0, 1). On obtient alors le graphique suivant, exactement pareil au graphique précédent à l exception de la graduation de l axe horizontal. p i 55 60 65 70 75 2 1 0 1 2 Dans ce cas, la droite n est plus la diagonale, et on représente généralement une droite passant par les premier et troisième quartiles des données et du modèle. De cette façon, on accorde plus d importance à la partie centrale du graphique, plus stable que les extrémités. Souvent en effet, les extrémités s éloignent de la droite même si le modèle est adéquat, en raison de leur plus grande variabilité. q αi 21