Département Biosciences Végétales Module : Statistique 1. J. Gergaud



Documents pareils
Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Logiciel XLSTAT version rue Damrémont PARIS

Statistique Descriptive Élémentaire

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Leçon N 4 : Statistiques à deux variables

Chapitre 3. Les distributions à deux variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TABLE DES MATIERES. C Exercices complémentaires 42

Séries Statistiques Simples

Représentation d une distribution

Analyse de la variance Comparaison de plusieurs moyennes

Relation entre deux variables : estimation de la corrélation linéaire

données en connaissance et en actions?

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Programmes des classes préparatoires aux Grandes Ecoles

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

1. Vocabulaire : Introduction au tableau élémentaire

Les indices à surplus constant

Estimation et tests statistiques, TD 5. Solutions

Chapitre 2 Le problème de l unicité des solutions

Introduction à l approche bootstrap

Classe de première L

TSTI 2D CH X : Exemples de lois à densité 1

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Table des matières. I Mise à niveau 11. Préface

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Loi binomiale Lois normales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Complément d information concernant la fiche de concordance

Image d un intervalle par une fonction continue

3. Caractéristiques et fonctions d une v.a.

Fonctions de plusieurs variables

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

VI. Tests non paramétriques sur un échantillon

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Précision d un résultat et calculs d incertitudes

Moments des variables aléatoires réelles

PROBABILITES ET STATISTIQUE I&II

Que faire lorsqu on considère plusieurs variables en même temps?

Notion de fonction. Résolution graphique. Fonction affine.

23. Interprétation clinique des mesures de l effet traitement

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Statistiques descriptives

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Aide-mémoire de statistique appliquée à la biologie

III- Raisonnement par récurrence

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Résumé du Cours de Statistique Descriptive. Yves Tillé

Chapitre 3 : INFERENCE

Lois de probabilité. Anita Burgun

Biostatistiques : Petits effectifs

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Statistiques 0,14 0,11

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

FORMULAIRE DE STATISTIQUES

Probabilités Loi binomiale Exercices corrigés

La fonction exponentielle

I. Ensemble de définition d'une fonction

STATISTIQUES DESCRIPTIVES

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Traitement des données avec Microsoft EXCEL 2010

La classification automatique de données quantitatives

Introduction à la statistique descriptive

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Lecture graphique. Table des matières

Résolution d équations non linéaires

Couples de variables aléatoires discrètes

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Les devoirs en Première STMG

Simulation de variables aléatoires

MATHÉMATIQUES. Mat-4104

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Principe d un test statistique

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Développement décimal d un réel

Modélisation aléatoire en fiabilité des logiciels

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

4. Résultats et discussion

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

1 Complément sur la projection du nuage des individus

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Analyse en Composantes Principales

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Transcription:

Département Biosciences Végétales Module : Statistique 1 J. Gergaud 19 septembre 26

Table des matières 1 Introduction 1 1 Image de la statistique............................................ 1 2 Exemples de problèmes........................................... 1 2.1 Cas à une seule variable....................................... 1 2.2 Cas à deux variables......................................... 1 2.3 Cas d un nombre fini de variables.................................. 1 3 Schéma général................................................ 2 4 Enseignement des mathématiques en tronc commun........................... 2 5 Modules Statistique 1 et 2, première année................................ 2 5.1 Objectifs............................................... 2 5.2 Statistique 1 : Outils et concepts.................................. 3 6 Difficulté de cet enseignement........................................ 3 6.1 Petite approche historique...................................... 3 6.2 Mon sentiment sur cet enseignement................................ 3 7 Contrôle de connaissance.......................................... 4 2 Statistique descriptive 5 1 Introduction.................................................. 5 2 Types de données traitées.......................................... 5 2.1 Notion de caractère......................................... 5 2.2 Types de caractères qualitatifs................................... 5 2.3 Types de variables statistiques................................... 5 3 Statistique descriptive à une dimension................................... 6 3.1 Introduction............................................. 6 3.2 Les distributions de fréquences................................... 6 3.3 Réduction des données........................................ 1 3.4 Exemples............................................... 15 4 Statistique descriptive à 2 dimensions................................... 16 4.1 Introduction............................................. 16 4.2 Les distributions en fréquences................................... 17 4.3 Représentations graphiques..................................... 19 4.4 Réduction des données........................................ 2 4.5 Droite de régression......................................... 21 5 Compléments................................................. 26 5.1 Changement de variables...................................... 26 5.2 Cas à plus d une variable explicative................................ 27 6 Exercices................................................... 29 6.1 Exercices avec solutions....................................... 29 6.2 Exercices avec indications...................................... 32 6.3 Exercices sans indications...................................... 33 3 Probabilités 35 1 Introduction.................................................. 35 2 Définition des probabilités.......................................... 36 2.1 Exemples............................................... 36 2.2 Définitions.............................................. 37 2.3 Représentation graphique...................................... 37 3 Probabilités conditionnelles et indépendance................................ 39 i

ii TABLE DES MATIÈRES 3.1 Probabilités conditionnelles..................................... 39 3.2 Indépendance d événements..................................... 39 4 Variables aléatoires.............................................. 4 4.1 Introduction............................................. 4 4.2 Définition............................................... 41 4.3 Fonction de répartition....................................... 43 4.4 Fonction d une variable aléatoire réelle continue.......................... 46 4.5 Variables aléatoires vectorielles................................... 47 4.6 Variables aléatoires indépendantes................................. 49 5 Espérance mathématique.......................................... 5 5.1 Définitions.............................................. 5 5.2 Espérance d une somme de variables aléatoires.......................... 51 5.3 Variance Covariance......................................... 51 6 Théorèmes limites.............................................. 54 6.1 Introduction............................................. 54 6.2 Lois des grands nombres....................................... 54 4 Théorie de l échantillonnage 59 1 Modélisation des variables.......................................... 59 1.1 Introduction............................................. 59 1.2 Variable aléatoire........................................... 59 2 Introduction à la théorie de l échantillonnage............................... 62 2.1 Modélisation des données...................................... 62 2.2 Exemple de l urne.......................................... 62 3 2.3 Exemple du référendum....................................... 65 Échantillonnage................................................ 67 3.1 Échantillon.............................................. 67 3.2 Schéma général............................................ 68 4 Distribution d échantillonnage de certaines statistiques.......................... 68 4.1 Distribution déchantillonnage de la moyenne........................... 68 4.2 Distribution d échantillonnage de la variance........................... 7 4.3 Distribution d échantillonnage de T................................ 72 4.4 Distribution d échantillonnage du rapport de variance...................... 72 4.5 Distribution d échantillonnage d une fréquence.......................... 72 5 Principales lois de probabilité........................................ 73 6 Exercices................................................... 78 6.1 Exercices avec corrigés........................................ 78 6.2 Exercices avec indications...................................... 83 6.3 Exercices sans indications...................................... 84 5 Tests statistiques : principes généraux 87 1 Introduction.................................................. 87 2 Exemple.................................................... 87 2.1 Problème............................................... 87 2.2 Cas simplifié............................................. 88 2.3 Cas général.............................................. 89 3 Principes généraux.............................................. 91 3.1 Logique générale d un test statistique............................... 91 3.2 Définitions.............................................. 93 4 Test bilatéral................................................. 94 4.1 Puissance d un test bilatéral..................................... 94 4.2 Puissance et paramètres α, σ 2 et n................................. 95 4.3 Tests multiples............................................ 97 5 Conclusion.................................................. 97 5.1 Présentation et conclusion d un test................................ 97 5.2 Risque de troisième espèce...................................... 97 6 Exercices................................................... 99 6.1 Exercices avec corrigés........................................ 99 6.2 Exercices avec indications...................................... 13 6.3 Exercices sans indications...................................... 14

TABLE DES MATIÈRES iii 6 Estimation 19 1 Introduction.................................................. 19 1.1 Exemples............................................... 19 1.2 Position du problème......................................... 11 2 Principes généraux.............................................. 11 2.1 Formalisme mathématique, définitions............................... 11 2.2 Propriétés des estimateurs...................................... 112 3 Estimations des principaux paramètres................................... 115 3.1 Estimation d une variance...................................... 115 3.2 Estimation d une moyenne...................................... 116 3.3 Estimation d une proportion.................................... 119 4 Compléments................................................. 12 4.1 Lien entre intervalle de confiance et test.............................. 12 4.2 Illustration.............................................. 12 4.3 Estimation robuste.......................................... 121 4.4 Représentation graphique...................................... 121 5 Exercices................................................... 122 5.1 Exercices avec corrigés........................................ 122 5.2 Exercices avec indications...................................... 126 5.3 Exercices sans indications...................................... 128

Chapitre 1 Introduction 1 Image de la statistique Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques. Le lit est plus dangereux que l automobile car il est prouvé statistiquement que l on meurt plus dans un lit que dans une voiture. Le statisticien est un homme qui prétend qu avoir la tête dans une fournaise et les pieds dans la glace permet de bénéficier d une température moyenne agréable. 2 Exemples de problèmes 2.1 Cas à une seule variable Exemple 2.1.1. On désire estimer le nombre d animaux d une espèce donnée dans une région donnée. Outil statistique : l estimation Exemple 2.1.2. On désire estimer le taux de germination d une variété donnée. Outil statistique : l estimation Exemple 2.1.3. On désire savoir laquelle de deux variétés (ou plus) a le plus fort rendement. Outils statistiques : le test de Student, l analyse de la variance. 2.2 Cas à deux variables Exemple 2.2.1. Quelle est la relation entre le rendement et la pluviométrie à une période donnée? Exemple 2.2.2. Y-a-til une liaison entre le rendement et la teneur du grain en protéines La réponse à ces questions repose sur l étude de modèles mathématiques de nature aléatoire : la régression linéaire simple la régression non linéaire la corrélation 2.3 Cas d un nombre fini de variables Exemple 2.3.1. Quelle est la relation entre le rendement d une variété donnée et un ensemble de variables météorologiques. Outil statistique : la régression linéaire multiple Exemple 2.3.2. Quelles sont les relations existant entre p caractères morphologiques, physiologiques et agronomiques d une plante donnée : hauteur totale, dimension foliaire, ramification,...? On s intéresse alors à la structure de l ensemble des individus et/ou de l ensemble des caractères. Outil statistique : l Analyse factorielle en Composantes Principales (ACP) et l Analyse Factorielle des Correspondances (AFC) 1

2 CHAPITRE 1. INTRODUCTION Exemple 2.3.3. En taxinomie biologique et en écologie on est souvent amené à des problèmes de classifications. Outil statistique : l Analyse Factorielle Discriminante (AFD), méthodes de classification 3 Schéma général Les statistiques La statistique La statistique La statistique descriptive 7 Analyse La statistique mathématique 7 Inférence Théorie descriptive des statistique des à 1, 2, 3 données tests dimensions 4 Enseignement des mathématiques en tronc commun Modules Statistique 1 et 2 1ère année Module Algèbre Linéaire 1ère année Module Optimisation 1ère année Module Plans d expérience 2ème année Module Analyse Multivariable 2ème année 5 Modules Statistique 1 et 2, première année 5.1 Objectifs Objectifs finaux Savoir sur un cas concret simple et pour une question donnée simple choisir la méthode statistique adaptée et savoir appliquer cette méthode Connaître les limites de chaque méthode et interpréter correctement les résultats Prendre conscience de l importance d une bonne collecte des données Sous objectifs Savoir ce qu est un bon estimateur Savoir ce qu est un intervalle de confiance Savoir ce qu est un test statistique Hypothèse nulle et alternative Risque de première espèce, notion de puissance Connaître la régression linéaire simple.

6. DIFFICULTÉ DE CET ENSEIGNEMENT 3 5.2 Statistique 1 : Outils et concepts Cours TD Statistique descriptive à 1 et 2 dimensions Théorie de l échantillonnage ; lois du χ 2, de Student et de Fisher Théorie des tests Estimation TD1 : Statistique descriptive. Décrire les données par des graphiques et/ou quelques quantités numériques TD2 : Probabilités, théorie de l estimation TD3 : Théorie des tests statistiques TD4 : Tests statistiques et estimation TD5 : Estimation 6 Difficulté de cet enseignement 6.1 Petite approche historique En 2238 avant J.C. l empereur chinois Yao organisa un recensement des productions agricoles Sans le recensement d Hérode Jésus Christ ne serait pas né dans une étable Rôle précurseur des marchands de la République de Venise rassemblant au XIII e et XIV e siècles des données sur le commerce extérieur. Premiers concepts au XVII e siècle En Prusse : École descriptive allemande qui créa le mot statistique1 (Statistik) En Angleterre : École des arithméticiens politiques qui s est attachée à l aspect mathématique des assurances En France : L état, avec Colbert et Vauban exécute de nombreux inventaires et recensements Au XVIII e et XIX e siècle on assiste surtout au développement de bureaux de statistiques Développement des probabilités Pierre Simon de FERMAT (161-1665) Blaise PASCAL (1623-1662) Jacques BERNOULLI (1654-175) Abraham de MOIVRE (1667-1754) Thomas BAYES (172-1761) Pierre Simon de LAPLACE (1749-1827) Simeon Denis POISSON (1781-184) Karl Friedrich GAUSS (1777-1855) Irénée Jules BIENAYME (1796-1878) Pafnuti Livovic TCHEBYCHEV (1821-1894) Adolphe QUETELET (1796-1874) : Lien entre les probabilités et les statistiques Francis GALTON (1822-1911) : Droite de régression Karl PEARSON (1857-1936) : Khi-2, corrélation, tables statistiques William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT Ronald Aylmer FISHER (189-1962) : Analyse de la variance, maximum de vraisemblance Jerzy NEYMAN (1894-1981) : Théorie des tests, intervalle de confiance Egon PEARSON (1895-198) : Théorie des tests... 6.2 Mon sentiment sur cet enseignement Difficulté liée à l assimilation de concepts et à la formalisation mathématique. Gros problème de terminologie et de notations Lorsque l on fait des statistiques on est toujours avec du concret et de l abstrait. On travaille avec des données et on utilise de la théorie. Un bon statisticien doit : Être rigoureux 1 Ce mot vient du substantif latin status qui signifie état

4 CHAPITRE 1. INTRODUCTION Savoir utiliser le formalisme mathématique Être pragmatique et plein de bon sens La formation en France est encore très déterministe (Descarte, Laplace,...) On aimerait avoir une réponse par oui ou non!!! La démarche statistique ne s acquiert pas en 4 heures!!! C est difficile mais passionnant. 7 Contrôle de connaissance Examen écrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ; Notations de TD ;

Chapitre 2 Statistique descriptive 1 Introduction 2 Types de données traitées 2.1 Notion de caractère Définition 2.1.1 (Caractère). On appelle caractère tout critère sur lequel repose une étude statistique. Exemple 2.1.2. La taille d un individu, le poids d un objet, la concentration d une substance. Définition 2.1.3 (Caractère quantitatif, variable statistique). On appelle caractère quantitatif ou variable statistique tout caractère directement représentable par des nombres. Exemple 2.1.4. La taille, l âge d un individu, le nombre de particules. Définition 2.1.5 (Caractère qualitatif). On appelle caractère qualitatif tout caractère non quantitatif Exemple 2.1.6. La couleur des yeux, pile ou face. Remarque 2.1.7. On pourrait très bien coder pile ou face par et 1, mais nous aurions tout de même un caractère qualitatif d où le mot directement dans la définition. On peut aussi dire qu une variable statistique est un caractère mesurable. Les opérations comme l addition ont donc un sens sur un caractère quantitatif, ce qui n est pas le cas sur un caractère qualitatif. 2.2 Types de caractères qualitatifs On range les caractères qualitatifs en plusieurs catégories : Les caractères qualitatifs ordonnés (i.e. que l on peut les classer) comme le niveau d un élève (bon, moyen, mauvais). Les caractères qualitatifs non ordonnés comme la couleur des yeux. Les caractères dichotomiques (i.e. qui ne peuvent prendre que deux valeurs différentes) comme le sexe, pile ou face. 2.3 Types de variables statistiques Définition 2.3.1 (Variable discrète). On appelle variable discrète toute variable qui ne peut prendre qu un nombre fini ou dénombrable de valeurs. Exemple 2.3.2. Nombre de points sur la face supérieur d un dé. Nombre de lancés d une pièce de monnaie avant d obtenir face. Définition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombre infini non dénombrable de valeurs. Exemple 2.3.4. Poids d un individu. Taille d un individu. Concentration d une substance. 5

6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE 3 Statistique descriptive à une dimension 3.1 Introduction Nous allons nous intéresser dans cette section au cas d un seul caractère quantitatif. Nous avons donc au départ une suite de n nombres :y 1, y 2,..., y n. Nous pouvons bien évidemment avoir dans cette suite plusieurs fois la même valeur. Définition 3.1.1 (Série statistique). On appelle série statistique la suite y 1, y 2,..., y n. Exemple 3.1.2. Notes sur 1 de 1 élèves à un devoir de français. 1; 5; 1; 9; 2; 5; 1; 9; 9; 1 3.2 Les distributions de fréquences Lorsque la série est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nous pouvons condenser les résultats sous la forme d une distribution de fréquences. Notons x i les différentes valeurs du caractère étudié obtenues i = 1,..., p. Définition 3.2.1 (Fréquence absolue ou fréquence). On appelle fréquence absolue le nombre d occurrences d une même valeur observée x i, c est-à-dire le nombre de fois où la valeur x i est observée. On note n i cette fréquence liée à la valeur x i. Remarque 3.2.2. On a toujours n = p n i Notation 3.2.3. On note aussi n. = n Le point signifie que l on a fait une sommation sur l indice i. Définition 3.2.4 (Fréquence relative). On appelle fréquence relative associée à x i la quantité : f i = n i n Remarque 3.2.5. On a toujours : p f i = p n i n = 1 n p n i = 1 Définition 3.2.6 (Fréquences cumulées absolues). Les fréquences cumulées absolues sont données par : N = N 1 = n 1. N k = k n i si k {1,..., p}. N k = n si k > p Définition 3.2.7 (Fréquences cumulées relatives). Les fréquences cumulées relatives sont données par : F = F 1 = f 1. F k = k f i si k {1,..., p}. F k = 1 si k > p

3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 7 Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des différentes fréquences définies précédemment pour l exemple (3.1.2). Notes Fréquences Fréquences Fréquences cumulées Fréquences cumulées absolues relatives absolues relatives 1 3,3 3,3 2 1,1 4,4 3 4,4 4 4,4 5 2,2 6,6 6 6,6 7 6,6 8 6,6 9 3,3 9,9 1 1,1 1 1 Nous avons étudié le cas où la variable ne pouvait prendre que peu de valeurs différentes. Il se pose donc la question de savoir ce que l on fait lorsque l on a des valeurs observées distinctes en grand nombre (ce qui est le cas en particulier lorsque l on étudie des variables continues). Dans ce cas nous condensons les données en groupant les observations en classes. Le nombre de classes est en général compris entre 1 et 2 et l intervalle de classe est constant (mais ceci n est pas obligatoire). Une classe est définie par ses limites. La limite supérieure d une classe étant la limite inférieure de la classe suivante. Quant à la valeur de la classe, on choisit souvent le milieu de la classe. Une fois que les classes ont été définies nous pouvons comme précédemment calculer les fréquences absolues, relatives, cumulées absolues et cumulées relatives. Exemple 3.2.9. Distribution de fréquence des étendues des exploitations agricoles belges (ces donnée proviennent de l ouvrage de Dagnélie Théorie et méthodes statistiques volume 1). Etendues des Valeurs des Fréquences Fréquences Fréquences cumulées exploitations classes absolues relatives relatives de 1 à 3ha 2ha 58122,2925,2925 de 3 à 5ha 4ha 38221,1924,4849 de 5 à 1ha 7,5ha 52684,2651,75 de 1 à 2ha 15ha 35188,1771,9271 de 2 à 3ha 25ha 8344,42,9691 de 3 à 5ha 4ha 3965,199,989 de 5 à 1ha 75ha 1873,94,9984 plus de 1ha? 39,16 1, Remarque 3.2.1. Dans l exemple ci-dessus la dernière classe n a pas de limite supérieure. On dit que la classe est ouverte. Nous avons jusqu à présent travaillé directement avec des nombres, mais un tableau de chiffres (même en quantité restreinte) n est jamais très lisible aussi nous allons maintenant étudier les représentations graphiques des fréquences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonnées les fréquences. Considérons tout d abord le cas des fréquences non cumulées. Deux cas se présentent suivant que les données sont groupées (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupées, nous utiliserons des diagrammes en bâtons : Pour chaque valeur de x i, nous traçons un segment de droite de longueur égale à la fréquence (absolue ou relative suivant les cas) associée à x i. Exemple 3.2.11. Reprenons les données de l exemple (3.1.2), la figure (2.1) est le diagramme en bâtons relatif aux fréquences relatives. Lorsque les données sont groupées, nous représentons ces fréquences par des rectangles contigus dont les intervalles de classes sont les bases et les hauteurs des quantités telles que l aire de chaque rectangle soit proportionnelle à la fréquence de la classe correspondante. Remarque 3.2.12. Si les classes sont équidistantes nous pouvons alors prendre comme hauteur les fréquences. Exemple 3.2.13. Représentons les fréquences relatives des étendues des exploitations agricoles belges (exemple (3.2.9))

8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE.35.3.25 Fréquences relatives.2.15.1.5 2 4 6 8 1 Notes Fig. 2.1 Diagramme en bâtons.16.14.12.1.8.6.4.2 Aire=.1771 1=.1771 Surfaces en ha Fig. 2.2 Histogramme Définition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type précédent. Remarque 3.2.15. (i) Lorsque nous étudions une variable continue nous avons dans la pratique un grand nombre de mesures, certaines étant très proches les unes des autres, d autres étant plus éloignées. Si nous représentions ces données sous la forme d un diagramme en bâtons nous aurions un graphique du type suivant : 2 1.8 1.6 1.4 Fréquences absolues 1.2 1.8.6.4.2 1 2 3 4 5 6 7 8 Valeurs de la variable Fig. 2.3 Densité La densité d une zone indiquerait alors que beaucoup de données seraient dans cette zone. Mais un tel graphique n est pas très lisible et une idée est donc de représenter cette densité en ordonnées. Celle-ci est obtenue en divisant le nombre de mesures obtenues dans une classe (i.e. la fréquence absolue) par la longueur d intervalle de classe. C est bien ceci que nous représentons dans un histogramme. (ii) Les fréquences relatives sont en fait dans la pratique des estimations de probabilités. On verra que dans le cas continu la probabilité qu une variable aléatoire X appartienne à un intervalle ]x i, x i+1 [ est donnée par l aire A délimitée par cet intervalle et la fonction de densité :

3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 9.4.35.3.25 f(x).2.15 A.1.5 1 1 2 3 4 5 x i x i+1 x Fig. 2.4 Fonction de densité L histogramme des fréquences relatives n est alors qu une approximation empirique de cette fonction de densité (si le facteur de proportionnalité est 1). (iii) Si l on veut mettre sur un même graphique une loi théorique de distribution de probabilités, il faut impérativement travailler avec les fréquences relatives, et un facteur de proportionnalité de 1 pour l histogramme. Remarque 3.2.16. Attention, dans un logiciel comme Excel, le terme histogramme n a pas le sens ci-dessus. Remarque 3.2.17. La détermination du nombre de classes d un histogramme ainsi que de leurs amplitudes est difficile. De plus, représenter une distribution d une variable continue par une fonction en escalier n est pas très logique. La théorie de l estimation de densité permet de résoudre ces difficultés. Nous allons ici donner quelques éléments de la méthode du noyau. Considérons tout d abord le cas d histogrammes à classes d égales amplitudes h. Dans l histogramme on estime la densité en x par ni nh si x appartient à la classe i. La densité est donc constante sur chaque classe. On peut améliorer ceci en utilisant la méthode de la fenêtre mobile. On suppose ici que la série statistique est y 1,..., y n. On construit autour de x une classe de longueur h : I x = [x h/2; x + h/2[ et on compte le nombre d observations n x qui appartiennent à cette classe. On estime alors la densité en x par nx nh. On peut ainsi construire point par point cette fonction de densité estimée ˆf(x). On peut en fait écrire cette dernière de la façon suivante : ˆf(x) = 1 n ( ) x yi K nh h où K est la fonction indicatrice de l intervalle [ 1/2; 1/2[, c est-à-dire la fonction de R dans {, 1} définie par : { K(u) = si u [ 1/2; 1/2[ Par suite K(u) = 1 si u [ 1/2; 1/2[ ( ) x yi K = 1 y i I x h Cette méthode donne encore des résultats trop peu régulier. Pour obtenir une fonction suffisamment lisse, il faut prendre des fonction noyau K plus régulière. En pratique on prend souvent un noyau gaussien : ou parabolique : K(u) = 3 4 5 K(u) = 1 2π e u2 /2 ) (1 u2 5 pour u < 5 L exemple (3.2.18) donne une comparaison entre l histogramme et l estimation de densité. Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 5 pièces usinées. On a sur la figure (2.5) l histogramme de ces données pour un intervalle de classe de.3 et l estimation de densité par la méthode du noyau avec le noyau de Lejeune : K(u) = 15 64 (1 u2 ) 2 (1 3u 2 ) pour u 1 avec une constante h égale à 3% de l étendue de l échantillon. L estimation de densité montre clairement une distribution bimodale que nous ne voyons pas avec l histogramme. 1 exemple provenant du livre de G. Saporta page 121

1 CHAPITRE 2. STATISTIQUE DESCRIPTIVE 21.86 21.9 21.98 21.84 21.89 21.96 21.88 21.92 21.98 21.9 21.91 21.95 21.92 21.91 21.97 21.87 21.92 21.94 21.9 21.91 22.1 21.87 21.93 21.96 21.9 21.96 21.95 21.93 21.91 21.95 21.92 21.97 21.97 21.9 21.97 21.96 21.91 21.97 21.95 21.89 21.97 21.94 21.91 21.98 21.97 21.87 21.95 21.95 21.89 21.89 Tab. 2.1 hauteurs de 5 pièces usinées 12 1 8 6 4 2 2 21.8 21.85 21.9 21.95 22 22.5 22.1 22.15 Fig. 2.5 Histogramme et densité estimée Il nous reste maintenant à étudier le cas des fréquences cumulées. Celles-ci sont représentés par des polygônes de fréquences cumulés, mais nous avons encore ici une distinction suivant que les données soient groupées ou non. Lorsque les données sont non groupées nous obtenons un polygône en escalier : la valeur de la fonction en un point x est le nombre d observations (absolues ou relatives) qui sont inférieures ou égales à x. Exemple 3.2.19. Reprenons encore l exemple (3.1.2) Quant aux données groupées, on joint par une ligne brisée les points obtenus en portant, pour les limites de classes supérieures des ordonnées égales aux fréquences cumulées. Exemple 3.2.2. Fréquences cumulées relatives des étendues des exploitations agricoles belges (exemple (3.2.9)). Remarque 3.2.21. Les polygônes de fréquences relatives sont une représentation empirique des fonctions de répartitions comme les histogrammes sont une représentation empirique des fonctions de densité. 3.3 Réduction des données Le but est ici de caractériser les données à l aide de quelques paramètres. Il y a deux grands types de paramètres : les paramètres de position ou de tendance centrale que nous étudierons en premier et les paramètres de dispersion que nous verrons ensuite. Nous donnerons pour chaque paramètre que nous définirons la valeur numérique correspondant à l exemple suivant :

3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 11 1.2 1 Fréquences cumulées relatives.8.6.4.2 2 4 6 8 1 12 Notes Fig. 2.6 Fréquences cumulées relatives : données (3.1.2) 1.2 1 Fréquences cumulées relatives.8.6.4.2 2 4 6 8 1 12 Surfaces en ha Fig. 2.7 Fréquences cumulées relatives : données (3.2.9) Exemple 3.3.1. Nous considérons 11 mesures faites de la hauteur du maître-brin d une céréale donnée (en cm). Nous avons obtenu la série statistique suivante (mise en ordre croissant) : 59; 62; 63; 63; 64; 66; 66; 67; 69; 7; 7. Les paramètres de position que nous allons étudier maintenant permettent de caractériser l ordre de grandeur des observations. Le paramètre le plus utilisé dans la pratique est la moyenne arithmétique ou moyenne. Définition 3.3.2 (Moyenne arithmétique). On appelle moyenne arithmétique ou moyenne la quantité donnée par : Si les observations sont données par une série statistique x = 1 n Si les observations sont données par leurs fréquences absolues x = 1 n n x i p n i x i Exemple 3.3.3. Pour les données de l exemple (3.3.1), nous avons : x = 65, 3636cm Remarque 3.3.4. Lorsque les données sont groupées x i est la valeur de la classe i. Définition 3.3.5 (Médiane). La médiane est la valeur de part et d autre de laquelle se trouve un nombre égal d observations. Remarque 3.3.6. (i) Pour les séries statistiques monotones (c est-à-dire croissante ou décroissante) : si le nombre d observations est pair la médiane est toute quantité comprise entre x n/2 et x n/2+1 (en général on prend x = 1/2(x n/2 + x n/2+1 ))

12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE si le nombre d observations est impair la médiane est x = x n/2+1. (ii) Pour les données groupées la classe médiane est celle qui contient la médiane. En admettant que les observations appartenant à cette classe sont réparties uniformément, la médiane aura pour expression : où i est l indice de la classe médiane. x i est la limite inférieure de cette classe. x i est l intervalle de la classe i. F i est la fréquence cumulée relative de la classe i. x = x i + x i 1/2 F i n i Exemple 3.3.7. Pour les données de l exemple (3.3.1), nous avons : x = 66 Définition 3.3.8 (Quartiles). On définit de façon similaire les quartiles i.e les 3 quantités qui séparent les données en 4 groupes contenant le même nombre de données. On notera Q 1, Q 2 et Q 3 les trois quartiles. Exemple 3.3.9. Considérons les 24 données suivantes : 8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 8 5 38 3 2 2 49 9 Ces données mises en ordre croissant sont : 8 8 9 13 16 2 2 25 25 25 27 27 28 29 3 32 32 35 38 38 49 5 79 8 Les quartiles sont alors : Q 1 = 2, Q 2 = x = 27, 5 et Q 3 = 36, 5. Remarque 3.3.1. Le deuxième quartile est égale à la médiane. Définition 3.3.11 (Mode). On appelle mode d une distribution non groupée toute valeur rendant maximale la fréquence. On appelle classe modale d une distribution groupée toute classe rendant maximale le rapport : Fréquence Intervalle de classe Exemple 3.3.12. Pour les données de l exemple (3.3.1), il y a 3 modes : 63,66,7. Remarque 3.3.13. non cumulées. (i) Le mode est une valeur qui rend maximum la représentation graphique des fréquences (ii) Dans le cas d une distribution théorique d une variable aléatoire continue le mode est toute valeur qui maximise la fonction de densité. C est la valeur la plus probable. Les paramètres de position sont très insuffisants pour caractériser des données ; aussi nous avons besoin de savoir si les observations sont concentrées ou non autour d un paramètre de position. C est ce critère que l on qualifie à l aide des paramètres de dispersion. Le paramètre le plus connu et le plus utilisé est la variance d un échantillon. Définition 3.3.14 (Variance d un échantillon). On appelle variance de l échantillon la quantité : Si les données sont sous la forme d une série statistique s 2 = 1 n n (x i x) 2 Si les données sont sous la forme d une distribution de fréquences absolues s 2 = 1 n p n i (x i x) 2 Remarque 3.3.15. (i) On note souvent SCE = n (x i x) 2. SCE est la Somme des Carrés des Écarts, sous entendu à la moyenne.

3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 13.1.4.8.6.4 densité mode moyenne médiane.3.2 densité mode moyenne médiane.2.1 1 2 3 1 1 2 3 4 5.4.2.3.2 densité mode moyenne médiane.15.1 densité mode moyenne médiane.1.5 5 1 15 5 1 15 Fig. 2.8 Différences entre le mode, la moyenne et la médiane (ii) On peut aussi écrire : SCE = = = = n (x 2 i 2x i x + x 2 ) (2.1) n n x 2 i 2 x x i + n x 2 (2.2) n x 2 i 2n x 2 + n x 2 (2.3) n x 2 i n x 2 (2.4) Lorsque l on effectue les calculs à la main, c est la formule (2.4) que l on utilise. Exemple 3.3.16. Pour les données de l exemple (3.3.1), nous avons : s 2 = 11, 3223cm 2 Remarque 3.3.17. On démontre que l on a toujours : n n (x i a) 2 > (x i x) 2 = ns 2 si a x Définition 3.3.18 (Écart type2 ). L écart type est la racine carré de la variance. Exemple 3.3.19. Pour les données de l exemple (3.3.1), nous avons : s = s 2 = 3, 3649cm Remarque 3.3.2. L écart type a la même dimension que les données (ce qui n est pas le cas de la variance). Définition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l indice de dispersion relatif exprimé en pourcentage : cv = 1 s x On suppose bien évidemment que x est différent de. 2 standard deviation en anglais

14 CHAPITRE 2. STATISTIQUE DESCRIPTIVE Exemple 3.3.22. Pour les données de l exemple (3.3.1), nous avons : cv = 5, 148% Définition 3.3.23 (Amplitude). On appelle amplitude l écart entre les valeurs extrêmes des données Exemple 3.3.24. Pour les données de l exemple (3.3.1), nous avons : w = 11 Définition 3.3.25 (Écart interquartile). On appelle écart interquartile la différence entre le troisième et le premier quartile : Q 3 Q 1 Exemple 3.3.26. Pour les données de l exemple (3.3.9), nous avons : Q 3 Q 1 = 16, 5 Définition 3.3.27 (boîte à moustaches 3 ). Le diagramme en boîte à moustaches ou box-plot représente schématiquement les principales caractéristiques d une variable numérique en utilisant les quartiles. On représente la partie centrale de la distribution par une boîte de largeur quelconque et de longueur l intervalle interquartile. On trace à l intérieur la position de la médiane et on complète la boîte par des moustaches de valeurs : Pour la moustache supérieure : la plus grande valeur inférieure à Q 3 + 1, 5(Q 3 Q 1 ). Pour la moustache inférieure : la plus petite valeur supérieure à Q 1 1, 5(Q 3 Q 1 ). Les valeurs extérieures représentées par des * sont celles qui sortent des moustaches. Exemple 3.3.28. Reprenons l exemple (3.3.9). Nous avons Q 1 = 2, x = 27, 5 Q 3 = 36, 5 et Q 3 Q 1 = 16, 5. Par suite : la plus grande des données inférieure à Q 3 + 1, 5(Q 3 Q 1 ) est 5 ; la plus petite des données supérieure à Q 1 1, 5(Q 3 Q 1 ) est 8. D où le schéma suivant : Column Number 1 1 2 3 4 5 6 7 8 Values Fig. 2.9 Boîte à moustaches Définition 3.3.29 (Moment d ordre k par rapport à un point c). On appelle moment d ordre k par rapport à un point c la quantité : Si les données sont sous la forme d une série statistique 1 n n (x i c) k Si les données sont sous la forme d une distribution de fréquences 1 n p n i (x i c) k Notation 3.3.3. a k. (i) Lorsque c = le moment d ordre k s appelle moment par rapport à l origine et on le note 3 boxplot en anglais

3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 15 (ii) Lorsque c = x le moment d ordre k s appelle moment centré et on le note m k. Remarque 3.3.31. a 1 = x, m 1 = et m 2 = s 2. Remarque 3.3.32. (i) Les moments centrés d ordre k pairs sont des paramètres de dispersion. (ii) Les moments centrés d ordre k impairs sont des indices de dissymétrie ou d obliquité : Ils sont nuls pour les distributions symétriques et différentes de pour les distributions dissymétriques. Définition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont : (i) Le degré de symétrie donné par (ii) Le degré d aplatissement 4 donné par : b 1 = m2 3 m 3 = m2 3 2 s 6 b 2 = m 4 m 2 = m 4 2 s 4 Exemple 3.3.34. Pour les données de l exemple (3.3.1), nous avons : b 1 =, 298 b 2 = 2, 12 Définition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont : (i) Le degré de symétrie 5 donné par : g 1 = m 3 = m 3 m 3/2 s 3 = b 1 2 (ii) Le degré d aplatissement donné par : g 2 = m 4 m 2 3 = m 4 2 s 4 3 = b 2 3 Exemple 3.3.36. Pour les données de l exemple (3.3.1), nous avons : g 1 =, 1726 g 2 =, 88 Remarque 3.3.37. Pour la loi normale réduite (cf. chapitre sur les probabilités) on a : g 1 = et g 2 =. Les figures (2.1,2.11) donnent des exemples de distributions théoriques avec différentes valeurs des cœfficients de symétrie et d aplatissement..5 β 1 = β 1 =1.75 β 1 =1.5.4.3.2.1 1 2 3 4 5 6 Fig. 2.1 Différentes fonctions de densité pour différentes valeur du cœfficient de symétrie 3.4 Exemples Exemple 3.4.1. Les données de la table (2.2) sont des longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile. La figure (2.12) donne les différentes représentations graphiques de ces données. Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les mêmes données respectivement les histogrammes et les boîtes à moustaches pour les longueurs d ailes de mésanges noires selon leur âges et leurs sexes. 4 kurtosis en anglais, attention le terme kurtosis est parfois aussi utilisé pour désigner le cœfficient g 2 de Fisher ci-après 5 skewness en anglais

16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE.4 γ 2 = γ 2 =2 γ 2 = 1.2.3.2.1 3 2 1 1 2 3 Fig. 2.11 Différentes fonctions de densité pour différentes valeur du cœfficient d applatissement 153 165 16 15 159 151 163 16 158 149 154 153 163 14 158 15 158 155 163 159 157 162 16 152 164 158 153 162 166 162 165 157 174 158 171 162 155 156 159 162 152 158 164 164 162 158 156 171 164 158 Tab. 2.2 Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile 2 1.5 1 1.5 14 15 16 17 18 longueur 14 15 16 17 longueur.8.6.4.2 15 16 17 longueur Fig. 2.12 Données, boîte à moustaches et histogramme.6.6.5 Mâles adultes.5 Mâles immatures.4.4.3.3.2.2.1.1 58 59 6 61 62 63 64 65 66 67 68 longueur d ailes en mm 58 59 6 61 62 63 64 65 66 67 68 longueur d ailes en mm.6.6.5 Femelles adultes.5 Femelles immatures.4.4.3.3.2.2.1.1 58 59 6 61 62 63 64 65 66 67 68 longueur d ailes en mm 58 59 6 61 62 63 64 65 66 67 68 longueur d ailes en mm Fig. 2.13 Distributions des longueurs d ailes de mésanges noires selon leur âge et sexe 4 Statistique descriptive à 2 dimensions 4.1 Introduction De même qu en dimension 1 nous désirons représenter les données sous la forme de tableaux ou de graphiques ou de réduire les données à quelques paramètres. La grande différence avec la section précédente est que nous

4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 17 68 67 66 65 Longueur d ailes en mm 64 63 62 61 6 59 58 1 2 3 4 Mâles adultes Mâles immatures Femelles adultes Femelles immatures Fig. 2.14 Distributions des longueurs d ailes de mésanges noires selon leur âge et sexe pouvons essayer de mettre en évidence les relations qui peuvent exister entre deux caractères. Comme en dimension 1 nous nous intéressons à des variables quantitatives et nous aurons comme données initiales une suite double : x 1, x 2,..., x n y 1, y 2,..., y n La valeur du caractère 1 pour l individu i est x i La valeur du caractère 2 pour l individu i est y i Définition 4.1.1 (Série statistique double). On appelle série statistique double la suite de n couples de valeurs (x i, y i ). Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1 individus de Cichorium intybus (cet exemple provient de l ouvrage de Dagnélie). feuilles : 71 76 16 18 19 111 111 112... 662 673 679 741 racines : 56 51 4 174 62 59 84 94... 174 29 29 23 4.2 Les distributions en fréquences Comme dans le cas monodimensionnel lorsque le nombre de données est trop important nous condensons des données en une distribution de fréquences. Pour cela nous construisons un tableau à double entrée ; le nombre d individus n ij ayant les occurrences x i et y j des caractères x et y se trouve à l intersection de la ligne i et de la colonne j. Dans ce paragraphe les indices i et j qualifient les occurrences des caractères pour des variables discrètes et les classes pour des variables continues et non pas des individus : x i x i si i i et y j y j si j j. Le tableau que l on construit a donc la structure suivante : x : y y 1 y 2... y j... y q T otaux x 1 n 11 n 12... n 1j... n 1q n 1....... x i n i1 n i2... n ij... n iq n i....... x p n p1 n p2... n pj... n pq n p. T otaux n.1 n.2... n.j... n.q n.. Définition 4.2.1 (Fréquence marginale). On appelle fréquence marginale les quantités définies par : n i. = n.j = Notation 4.2.2. Nous rappelons que le point en indice signifie que l on a sommé sur cet indice. Avec cette notation, nous avons donc aussi : p q p q n.. = n ij = n i. = j=1 q j=1 p n ij n ij j=1 n.j

18 CHAPITRE 2. STATISTIQUE DESCRIPTIVE Remarque 4.2.3. (i) Nous avons pris ici le cas des fréquences absolues mais nous pouvons bien évidemment construire des tableaux de fréquences relatives : n, ij = n ij n (ii) Nous ne construisons pas en général de tableau de fréquences cumulées. (iii) Nous pouvons bien entendu étudier séparément les caractères x et y et notamment faire deux statistiques descriptives à une dimension. Cela revient alors à travailler avec les fréquences marginales. Définition 4.2.4 (Fréquence conditionnelle relative). On appelle fréquence conditionnelle relative pour que x = x i (respectivement y = y j ) sachant que y = y j (respectivement x = x i ) la quantité : f i/j = n ij n.j (respectivement f j/i = n ij n i. ) Définition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) le tableau des fréquences conditionnelles relatives f j/i (respectivement f i/j ). Remarque 4.2.6. (i) Le tableau de fréquence relative est une représentation empirique de la fonction de probabilité d un couple de variables aléatoires et les fréquences conditionnelles relatives représentent des probabilités conditionnelles. (ii) le tableau des profils lignes est une représentation empirique les lois de distributions conditionnelles. (iii) Si la tableau de contingence comporte en fait en ligne différentes populations et en colonne les différentes modalités d un caractère qualitatif (c est-à-dire les valeurs d une variable aléatoire discrète), alors les profils lignes sont les lois de probabilités sur les différentes populations du caractère étudié. Exemple 4.2.7. Avec les données de l exemple (4.1.2) nous obtenons : Feuilles :Racines 4 à 8 à 12 à 16 à 2 à 24 à 28 à 32 à Totaux 79 119 159 199 239 279 319 259 à 79 2 2 8 à 159 49 46 5 2 12 16 à 239 86 137 46 11 28 24 à 319 27 153 89 25 7 31 32 à 399 5 45 91 4 6 187 4 à 479 1 33 21 16 1 1 82 48 à 559 1 4 11 1 3 29 56 à 639 2 1 2 4 1 1 64 à 719 1 3 2 6 72 à 799 1 1 Totaux 169 392 27 112 42 11 3 1 1 Exemple 4.2.8. La table (4.2.8) donne l évolution de l âge de la population agricole familiale dans un canton du Loiret. La table (2.4) donne quant-à elle les profils lignes. Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans Total 197 88 24 27 61 2 25 245 1979 63 17 2 39 27 25 191 1988 41 15 18 22 31 17 144 Total 192 56 65 122 78 67 58 Tab. 2.3 Tableau de contingence, exploitations agricoles dans le Loiret

y 4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 19 Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans 197.3592.98.112.249.816.12 1979.3298.89.147.242.1414.139 1988.2847.142.125.1528.2153.1181 Tab. 2.4 Tableau des profils lignes 12 1 8 6 4 2 2 4 6 3 2 1 1 2 3 4 5 6 7 x Fig. 2.15 Nuage de points 4.3 Représentations graphiques Les séries statistiques doubles peuvent être représentées par un nuage de points (2.15). Quant aux distributions de fréquences elles se représentent dans un espace à trois dimensions par un diagramme en bâtons si les variables sont discrètes et par un stéréogramme si la variable est continue. Un stéréogramme est un diagramme composé de parallélépipèdes rectangles de bases les rectangles correspondant aux cellules du tableau statistique et de hauteur les fréquences divisées par la surface de la base (ceci toujours pour avoir une estimation de la densité de probabilité). Exemple 4.3.1. Avec les données de l exemple (4.1.2) on obtient la figure (2.16) 2 Fréquences absolues 15 1 5 4 12 2 28 36 44 52 6 68 Feuilles 76 Racine Fig. 2.16 Stéréogramme Exemple 4.3.2. Reprenons l exemple (4.2.8) de l évolution de l âge de la population agricole familiale dans un canton du Loiret. On peut représenter les profils lignes (2.17). ceci nous permet de visualiser les différences de répartition des âges en fonction des année. Ici, nous avons l ensemble des populations étudiées, les profils lignes sont donc exactement les lois de probabilités sur ces 3 populations. Dans le cas où nous n aurions, pour chaque population que des échantillons, il faudrait effectuer un test statistique (test du χ 2 ici) pour savoir s il y a réellement une différence dans les lois de distributions. Ceci est hors de notre programme.

2 CHAPITRE 2. STATISTIQUE DESCRIPTIVE.45 Profils lignes.4.35.3.25.2.15.1.5 1 2 3 4 5 6 7 4.4 Réduction des données Fig. 2.17 Profils lignes Nous avons ici deux types de paramètres, tout d abord les paramètres liés à une seule variable qui caractérisent les fréquences marginales et conditionnelles. Nous avons dans ce cas les paramètres habituels de la statistique descriptive à une dimension qui sont principalement les moyennes marginales x et ȳ et les variances marginales s 2 x et s 2 y, ainsi que les moyennes conditionnelles x j et ȳ i et les variances conditionnelles s 2 x/j et s2 i/y. Ensuite nous avons les paramètres permettant de décrire des relations existant entre les deux séries d observations. Ce sont ces paramètres que nous allons étudier maintenant. Définition 4.4.1 (Covariance d un échantillon). On appelle covariance d un échantillon la quantité : Si les données sont sous la forme d une série statistique double cov(x, y) = 1 n (x i x)(y i ȳ) n Si les données sont sous la forme d une distribution en fréquence Remarque 4.4.2. cov(x, y) = 1 n p j=1 q n ij (x i x)(y j ȳ) On note souvent SP E = n (x i x)(y i ȳ). SP E est la Somme des Produits des Écarts, sous entendu aux moyennes. On peut aussi écrire : SP E = = = = n (x i y i x i ȳ y i x + xȳ) (2.5) n x i y i ȳ n n x i x y i + n xȳ (2.6) n x i y i 2n xȳ + n xȳ (2.7) n x i y i n xȳ (2.8) Lorsque l on effectue les calculs à la main, c est la formule (2.8) que l on utilise. Exemple 4.4.3. On considère la série statistique double suivante : x 165,5 164, 156, 174, 169, 157,5 159, 152, 155, 159, y 177, 172, 163, 183,5 171,5 165, 16,5 154,5 163, 162, x (respectivement y) représente la taille (respectivement l envergure) de 1 adolescents nés en 1947 (mensurations relevées en 1962). On a alors : cov(x, y) = 49, 68

4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 21 Remarque 4.4.4. (i) La covariance peut-être positive ou négative. Une covariance positive (respectivement négative) indique une relation entre les données croissantes (respectivement décroissantes), i.e. que les valeurs élevées d une série correspondent, dans l ensemble, à des valeurs élevées (respectivement faibles) de l autre. (ii) L existence de termes positifs et négatifs dans le calcul de la covariance justifie pour celle-ci l absence de correction analogue aux corrections de Sheppard. Théorème 4.4.5. On a toujours la relation suivante : L égalité n a lieu que si les points (x i, y i ) sont alignés. Démonstration Développons l expression positive suivante : 1 n cov(x, y) s x s y n (λ(x i x) (y i ȳ)) 2 = λ 2 s 2 x 2λcov(x, y) + s 2 y On sait qu une condition nécessaire et suffisante pour qu un trinôme soit toujours de même signe est que son discriminant soit négatif ou nul. Par suite nous avons : = 4cov 2 (x, y) 4s 2 xs 2 y cov 2 (x, y) s 2 xs 2 y cov(x, y) s x s y De plus nous avons l égalité cov(x, y) = s x s y si et seulement si = et donc s il existe λ 1 = cov(x, y)/s 2 x tel que n (λ 1 (x i x) (y i ȳ)) 2 = λ 1 (x i x) = y i ȳ i 4.5 Droite de régression Introduction Les points (x i, y i ),...,n sont alignés Exemple 4.5.1. 6 On désire savoir comment le taux de cholestérol sérique dépend de l âge chez l homme. Pour cela on a pris 5 échantillons d hommes adultes d âges bien déterminés 25, 35, 45, 55 et 65 ans. On a obtenu les données suivantes : Âges 25 25 25 25 25 25 25 35 35 35 Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3 Âges 35 35 35 35 45 45 45 45 45 45 Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3 Âges 45 45 55 55 55 55 55 65 65 65 Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3 Âges 65 65 65 Taux 3.5 3.3 2.6 La figure 2.18 donne la représentation graphique de ces données. Que peut-on conclure de ces données? En pratique nous sommes souvent amenés à rechercher une relation entre deux variables x et y. Pour cela, dans un premier temps, nous collectons des données (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Ensuite nous représentons graphiquement ces données. Nous pouvons par exemple avoir les cas suivants : 6 Exemple provenant de l ouvrage de Grémy et Salmon, Bases statistiques, page 122.

22 CHAPITRE 2. STATISTIQUE DESCRIPTIVE 4 3.5 3 Taux 2.5 2 1.5 1 2 25 3 35 4 45 5 55 6 65 7 Ages Fig. 2.18 Taux de cholestérol en fonction de l âge 12 Cas (a) 1 Cas (b) 1 Cas (c) 9.9 1 8.8 8 7.7 6.6 y 6 y 5 y.5 4.4 4 3.3 2 2.2 1.1 2 4 6 x 2 4 6 x 2 4 6 x Fig. 2.19 Différentes formes de graphes Suivant les cas de la figure 2.19, nous pouvons penser aux modèles : Cas (a) y(x) = β + β 1 x ; Cas (b) y(x) = β + β 1 x + β 2 x 2 ; Cas (c) pas de modèle. L objet de la régression linéaire simple est l étude du cas (a). L un des buts de la régression linéaire simple est de prédire la meilleure valeur de y connaissant x (si le modèle linéaire est bien évidemment correct). L objectif de cette section est uniquement descriptif, aussi nous n allons étudier que l estimation ponctuelle des paramètres. Estimation des paramètres Une droite sera d autant plus proche des points M i (x i, y i ) que les écarts entre ces points et la droite seront faibles. L un des critères les plus utilisés est le critère des moindres carrés qui est la somme des carrés des écarts r i = y i ŷ i (cf figure (2.2)). Ici, les points (x i, y i ),...,n sont connus, la question est de trouver les valeurs des paramètres β et β 1 qui rendent la valeur du critère la plus faible possible. Nous sommes ainsi ramené au problème d optimisation suivant : { Min f(β) = 1 n (P ) 2 r2 i = 1 2 β R 2 n (y i β β 1 x i ) 2 En effet, plus f(β) sera proche de, plus les carrés des résidus, donc les résidus r i seront proches de.

4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 23 25 2 r 1 15 r 7 r 8 r 9 r 6 y 1 r 4 r 5 5 r 2 r 3 r 1 2 4 6 8 1 x Fig. 2.2 Moindres carrés. Théorème 4.5.2. La solution du problème (P ) est : ˆβ = ȳ ˆβ 1 x (2.9) n ˆβ 1 = i ȳ)(x i x) n (x = SP E i x) 2 SCE x (2.1) Démonstration On démontre qu une condition nécessaire et suffisante de solution du problème d optimisation est f (β) = (, ). D où le système linéaire suivant : n n nβ + β 1 x i = y i n n (2.11) n β x i + β 1 x 2 i = x i y i ȳ = β + β 1 x n nβ x + β 1 x 2 i = n x i y i ȳ = β + β 1 x n n(ȳ β 1 x) x + β 1 x 2 i = n x i y i ȳ = β + β 1 x β 1 ( n x 2 i n x2 ) = n x i y i n xȳ ȳ = β + β 1 x β 1 = SP E SCE x Remarque 4.5.3. On a supposé dans le calcul que SCE x, c est-à-dire que tous les x i ne sont pas identiques. Nous noterons dans la suite ˆβ et ˆβ 1 ces solutions. Exemple 4.5.4. Reprenons l exemple (4.5.1). Lorsque l on effectue les calculs à la main il est utile de calculer le tableau préliminaire 2.6. Les estimations ponctuelles sont alors 1445 9.1 413.5 ˆβ 1 = 33 = 158.2 69625 14452 6351.5 33 ˆβ = 2.73.25 43.79 = 1.64 =.25

24 CHAPITRE 2. STATISTIQUE DESCRIPTIVE y x xy y 2 x 2 1 y 1 x 1 x 1 y 1 y 2 1 x 2 1...... i y i x i x i y i yi 2 x 2 i...... n y n x n x n y n yn 2 x 2 n Totaux Y. X. i x iy i i y2 i Moyennes ȳ. x. i x2 i Tab. 2.5 Calculs préliminaires x y xy x 2 y 2 1 25 1.8 45. 625 3.24 2 25 2.3 57.5 625 5.29 3 25 2. 5. 625 4. 4 25 2.4 6. 625 5.76 5 25 2. 5. 625 4. 6 25 2.5 62.5 625 6.25 7 25 2.6 65. 625 6.76 8 35 2.6 91. 1225 6.76 9 35 2.9 11.5 1225 8.41...... 33 65 2.6 169. 4225 6.76 Totaux 1445 9.1 413.5 69625 253.31 Moyennes 43.79 2.73 Tab. 2.6 Calculs préliminaires sur l exemple Remarque 4.5.5. Nous noterons r i le résidu d indice i : On vérifie alors que r i = y i ( ˆβ + ˆβ 1 x i ) = y i ŷ i n r i = n (y i ( ˆβ + ˆβ 1 x i )) = n i= y i n ˆβ n ˆβ 1 x i = nȳ n ˆβ n x ˆβ 1 = De la même façon que nous avons cherché à exprimer y en fonction de x, on peut essayer d exprimer x en fonction de y et nous obtenons ainsi la droite de régression d équation : x = β 1xy y + β xy Les estimations sont alors ˆβ 1xy = SP E s 2 y et ˆβxy = x ˆβ 1xy ȳ Exemple 4.5.6. Si nous reprenons les données de l exemple (4.5.1) nous obtenons : ˆβ 1xy = 21.64 ˆβxy = 15, 29 ˆβ 1yx =.25 ˆβyx = 1.64 Définition 4.5.7 (Cœfficient de corrélation linéaire). On appelle cœfficient de corrélation linéaire le rapport de la covariance sur les produits des écart-types : cov(x, y) r = s x s y

4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 25 On peut aussi écrire r = SP E SCEx SCE y Notons x c (respectivement y c ) le vecteur des données centrées de la variable x (respectivement y). C est-à-dire que x c = (x 1 x,..., x n x) T et y c = (y 1 ȳ,..., y n ȳ) T. Ces vecteurs sont dans R n. Alors SP E est le produit scalaire entre ces deux vecteurs centrées et SCE x et SCE y sont les normes au carrés de ces vecteurs. Par suite le cœfficient de corrélation linéaire s interprète comme le cosinus de l angle de ces deux vecteurs de R n. On en déduit la remarque suivante. Remarque 4.5.8. Le cœfficient de corrélation linéaire a les propriétés suivantes : (i). r [ 1, +1] (ii) r = 1 si et seulement si les points (x i, y i ) sont alignés. On montre que l on a en fait les différents cas de figures suivant s x >s y s x =s y s x <s y 5 2 2 r=1 y 5 1 2 2 2 2 5 2 2 5 2 5 r~1 y 1 2 5 2 5 2 5 2 2 5 2 5 <r<1 y 5 2 5 2 5 5 5 5 2 5 2 5 r= y 5 2 5 2 5 5 5 5 2 5 2 5 1<r< y 5 2 5 2 5 5 5 5 2 1 2 1 r~ 1 y 5 1 5 1 5 5 5 5 2 1 2 1 r= 1 y 5 2 2 x 5 5 5 x 2 5 5 x Fig. 2.21 Liens entre les nuages de points et le cœfficient de corrélation linéaire

26 CHAPITRE 2. STATISTIQUE DESCRIPTIVE Remarque 4.5.9. Nous tenons à bien faire remarquer que le cœfficient de corrélation linéaire ne mesure qu une liaison de nature linéaire. Pour les 5 graphiques de la figure (2.22), on a les mêmes valeurs de x, ȳ, s x, s y, r et donc la même droite de régression. Il est évident que les phénomènes sont très différents : (i) pour le graphique en haut à gauche, il y a une forte dispersion mais le modèle linéaire semble a priori approprié ; (ii) pour le graphique en haut à droite, un modèle parabolique serait sans doute plus adapté ; (iii) pour le graphique au milieu à gauche, il y a sans doute une donnée aberrante qui a un fort résidu ; (iv) pour le graphique au milieu à droite, la dispersion des données semble augmenter quand x augmente ; (v) pour le graphique en bas à gauche, il y a une donnée qui a une forte influence et un résidu nul. 3 3 2 2 y y 1 1 1 2 3 x 3 1 2 3 x 3 2 2 y y 1 1 1 2 3 x 3 1 2 3 x 2 y 1 1 2 3 x Fig. 2.22 Exemple de données ayant les mêmes valeurs des paramètres x, ȳ, s x, s y et r et donc la même droite de régression 5 Compléments 5.1 Changement de variables Nous allons tout d abord voir que lorsque le modèle n est pas au départ linéaire, on peut parfois s y ramener par un bon changement de variable. Considérons l exemple suivant : Exemple 5.1.1. Le carbone radioactif 14 C est produit dans l atmosphère par l effet des rayons cosmiques sur l azote atmosphérique. Il est oxydé en 14 CO 2 et absorbé sous cette forme par les organismes vivants qui, par suite, contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12 C et 13 C qui sont stables. On suppose que la production de carbone 14 C atmosphérique est demeurée constante durant les derniers millénaires. On suppose d autre part que, lorsqu un organisme meurt, ses échanges avec l atmosphère cessent et que la radioactivité due au carbone 14 C décroit suivant la loi exponentielle suivante : A(t) = A e λt où λest une constante positive, t représente le temps en année et A(t) est la radioactivité exprimée en nombre de désintégrations par minute et par gramme de carbone. On désire estimer les paramètres A et λ par la méthode des moindres carrés. Pour cela on analyse les troncs (le bois est un tissu mort) de très vieux arbres Sequoia gigantea et Pinus aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir :

5. COMPLÉMENTS 27 son âge t en année, en comptant le nombre des anneaux de croissance, sa radioactivité A en mesurant le nombre de désintégration. t 5 1 2 3 4 5 63 A 14.5 13.5 12. 1.8 9.9 8.9 8. Posons y(t) = ln A(t), β = ln A, β 1 = λ et y i = ln(a i ). Le modèle s écrit alors y(t) = β + β 1 Nous sommes donc ramené au cas de la régression linéaire simple. 5.2 Cas à plus d une variable explicative Cette section dépasse le cadre de la statistique descriptive puisque si nous avons par exemple 4 variables, nous ne pouvons plus faire de graphique. Mais nous allons voir cependant qu en ce qui concerne l estimation des paramètres, cela ne change pas grand chose. Avant de passer au cas à p variables, nous allons réécrire le problème de la régression linéaire simple à 1 variable. Posons y 1 1 x 1 r 1 alors est équivalent à y =. y i. y n.. ; X = 1 x i ; β =.. 1 x n ( β β 1 ) et r = y i = β + β 1 x i + r i i = 1,..., n (2.12) y = Xβ + r (2.13) et le problème d optimisation s écrit alors { Min f(β) = 1 n (P ) 2 (y i β β 1 x i ) 2 = 1 2 Xβ y 2 β R 2 La condition nécessaire de solution du premier ordre nous donne alors (dérivée des fonctions composées) ce que nous appelons l équation normale f(β) = t XX t Xy = (2.14) La dérivée seconde de f est alors : 2 f(β) = t XX On démontre en optimisation que dans ce cas si 2 f(β) est semi-définie positive alors la fonction f est convexe (graphiquement c est une cuvette pour une fonction de R 2 à valeurs dans R) et dans ce cas l équation (2.14) est une condition nécessaire et suffisante de solution de notre problème d optimisation. Or ici ( t XXβ β) = (Xβ Xβ) ceci pour tout β, donc 2 f(β) est bien semi-définie positive. Remarque 5.2.1. Dans le cas de la régression linéaire simple, si on développe l équation normale (2.14), on retrouve bien le système linéaire (2.11). Nous allons maintenant étudier le cas où l on a plus d une variable explicative. Considérons le modèle : y(x) = β + β 1 x 1 + β p x p (2.15) où x = (x 1,..., x p ). On collecte n (p+1)-uplets (y i, x i1,..., x ip ),...,n. Notre problème d optimisation pour estimer nos paramètres s écrit alors avec ici { Min f(β) = 1 n (P ) 2 (y i β β 1 x i1 β p x ip ) 2 = 1 2 Xβ y 2 β R 2. r i. r n

28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE y = y 1. y i. y n 1 x i1... x ip... ; X = 1 x i1... x ip ; β =... 1 x n1... x np β. β p et r = Par suite l estimation des paramètres est aussi donné par la résolution du système linéaire des équations normales t XXβ = t Xy r 1. r i. r n

6. EXERCICES 29 6 Exercices 6.1 Exercices avec solutions Exercice 6.1.1. On observe les arrivées des clients à un bureau de poste pendant un intervalle de temps donné (1 minutes). En répétant 1 fois cette observation, on obtient les résultats suivants. Nombre d arrivées 1 2 3 4 5 6 Total Nombre d observations 15 25 26 2 7 7 1 (i) Représenter graphiquement ces résultats. (ii) Calculer la valeur de la moyenne arithmétique, de la médiane, de la variance et de l écart type des résultats, du coefficient de variation, de l amplitude et de l écart moyen des observations. Correction (i) Le diagramme en bâtons des fréquences relatives est le suivant :.3.25.2 Fréquence relative.15.1.5 1 2 3 4 5 6 Nombre d arrivées Diagramme en bâtons Le diagramme des fréquences cumulées relatives est le suivant : 1.8 Fréquence cumulée relative.6.4.2 (ii) La moyenne arithmétique vaut : n x = 1 n n i x i = 3. La médiane et le mode valent 3. 1 2 3 4 5 6 7 8 Nombre d arrivées Fréquences cumulées relatives

3 CHAPITRE 2. STATISTIQUE DESCRIPTIVE La variance vaut : s 2 = 1 n ( n n i x 2 i nx2 ) =1,96 et l écart-type s = 1,4. Le coefficient de variation est égal à cv = 46,7 %. L amplitude des observations est de 5, l écart moyen de n e m = 1 n n i x i x = 1,1. Exercice 6.1.2. On considère les compositions chimiques de 2 eaux minérales suivantes 7 : Origines HCO3 SO4 Cl Ca + Mg + Na + Aix-les-Bains 341 27 3 84 23 2 Beckerish 263 23 9 91 5 3 Cayranne 287 3 5 44 24 23 Chambon 298 9 23 96 6 11 Cristal-Roc 2 15 8 7 2 4 St Cyr 25 5 2 71 6 11 Evian 357 1 2 78 24 5 Ferita 311 14 18 73 18 13 St Hyppolite 256 6 23 86 3 18 Laurier 186 1 16 64 4 9 Ogeu 183 16 44 48 11 31 Ondine 398 218 15 157 35 8 Perrier 348 51 31 14 4 14 Ribes 168 24 8 55 5 9 Spa 11 65 5 4 1 3 Thonon 332 14 8 13 16 5 Veri 196 18 6 58 6 13 Viladreau 59 7 6 16 2 9 Vittel 42 36 15 22 36 3 Volvic 64 7 8 1 6 8 (i) Calculer les quartiles Q 1, Q 2, Q 3, l écart interquartile et les limites des moustaches pour les variables HCO 3 et Ca +. (ii) Représenter les boîtes à moustaches pour les variables HCO 3 et Ca+. Correction (i) HCO3 SO4 Cl Ca + Mg + Na + Q 1 184.5 8. 6. 51.5 4. 4.5 Médianes 259.5 14.5 8.5 72. 6. 9. Q 3 336.5 25.5 19. 93.5 2.5 13. Ecarts interquartiles 152. 17.5 13. 42. 16.5 8.5 Q 1 1, 5(Q 3 Q 1 ) -43.5-18.25-13.5-11.5-2.75-8.25 Q 3 + 1, 5(Q 3 Q 1 ) 564.5 51.75 38.5 156.5 45.25 25.75 Moustaches inférieures 59 3 2 4 1 2 Moustaches supérieures 42 51 31 14 36 23 (ii) 7 Les données proviennent de l ouvrage de R. Tomassone, C. Dervin, J.P. Masson, Biométrie, modélisation de phénomènes biologiques, page114.

6. EXERCICES 31 4 35 3 25 Values 2 15 1 5 1 2 3 4 5 6 Column Number Boîtes à moustache Exercice 6.1.3. On a monté une série d expériences dans une unité pilote en vue d étudier l influence de la température sur le rendement d une réaction chimique sous une pression donnée. Les données recueillies sont les suivantes (x est la température t - 6 C ; y est le rendement en %) : x 1 2 3 4 5 6 7 8 9 1 y 4 6 8 11 12 15 16 18 21 22 Étudier la liaison entre y et x. On fera le graphique en nuage de points des valeurs de y en fonction des valeurs de x. On construira la droite de régression de y en x et on donnera la valeur du coefficient de corrélation linéaire r(x,y). Pour calculer la valeur des deux coefficients de la droite de régression, on se servira des formules dans le cas d une variable explicative et des relations matricielles (cas de plus d une variable explicative). Correction 25 expérimental régression linéaire 2 y rendement 15 1 5 5 1 15 x (t 6) C Droite de régression

32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE n = 1; x i = 55; x 2 i = 385; i i y i = 133; yi 2 = 2111; i i x i y i = 899 i D où (x i x) 2 = x 2 i i i (y i y) 2 = yi 2 i i (x i x)(y i y) = i i (x i x) 2 = 82, 5 i (y i y) 2 = 342, 1 i (x i x)(y i y) = 167, 5 i «P 2 x i i n «P 2 y i i n ««P P x i y i i i x i y i n Donc la droite de régression des moindres carrés de y en x est y = ˆβ + ˆβ 1 x Avec ˆβ = 2,1333 ; ˆβ 1 = 2,33 ; r(x,y) =,997. Si on applique directement les relations matricielles, on obtient : y = 4 6. 22 t XX = ( 1 55 55 385 1 1 1 2 ; X =.. 1 1 ) ( ) ; t 133 Xy = 899 L équation normale est alors { 1β + 55β 1 = 133 55β + 385β 1 = 899 d où la solution 6.2 Exercices avec indications Exercice 6.2.1. Le tableau suivant donne les revenus imposables des Français en 197. Classes Fréquences relatives [25 ;5[.67 [5 ;1[.318 [1 ;15[.275 [15 ;2[.179 [2 ;3[.1445 [3 ;5[.71 [5 ;7[.166 [7 ;1[.81 [1 ;2[.51 [2 ;4[.1 (i) tracer l histogramme de ces données pour les revenus allant de à 7. Indications Attention les intervalles de classes ne sont pas constants. Exercice 6.2.2. On désire tester n produits. On fait appel à 2 goûteurs et on leur demande de classer ces n produits. Nous avons donc à notre disposition une série statistique double : x 1, x 2,..., x n y 1, y 2,..., y n

6. EXERCICES 33 avec : {x 1, x 2,..., x n } = {y 1, y 2,..., y n } = {1, 2,..., n} On appelle coefficient de Spearman le coefficient de corrélation linéaire : r s = cov(x, y) s x s y (i) Montrer que où d i = x i y i. (ii) Que signifie r s = 1, r s = 1, r s =? r s = 1 6 n d2 i n(n 2 1) Indication (i) On rappelle que la somme des n premiers entiers est égale à n(n + 1)/2 et que la somme des carrés des n premiers entiers est égale à n(n + 1)(2n + 1)/6. On calculera SCE x en fonction de n Exercice 6.2.3. Dans une solution aqueuse contenant un polluant, on plonge un solide absorbant (charbon actif sous forme de tissu) qui capture une partie des molécules de la substance polluante. Au bout d un certain temps, le système est à l équilibre : Chaque point d équilibre est caractérisé par la concentration à l équilibre C e et la quantité de polluant absorbé par unité de masse de charbon actif, q e. A une température donnée, on peut mesurer différents points sur une courbe (C e, q e ) dite isotherme d adsorption. Le tableau suivant fournit l isotherme d adsorption de l aniline à 25 C (Faur-Brasquet, 1998). C e (mg/l) q e (mg/g) 72 57,7 38,5 21,3 13,1 6,9 3,9 1,2 232,5 211 192 163,4 136,7 116,3 96,2 61,9 Étudier la liaison entre q e et C e en supposant que les incertitudes expérimentales sur C e sont négligeables devant celles sur q e. On fera le graphique en nuage de points des valeurs de q e en fonction des valeurs de C e. On étudiera ensuite les deux modèles suivants : Modèle de Langmuir q e = qmbce 1+bC e Modèle de Freundlich q e = KC 1/n e Pour chacun des deux modèles, on estimera les paramètres du modèle (q m et b, K et n) par régression linéaire simple sur des variables modifiées. Conclure sur l adéquation des 2 modèles proposés. Indications On prendra pour le modèle de Langmuir les variables x L = 1/C e et y L = 1/q e et pour le modèle de Freundlich les variables x F = ln C e et y F = ln q e. On donne i x Li = 1.4151 i y Li =, 628 i x2 Li =.794 i x Liy L i =, 185 i x F i = 21, 887 i y F i = 39, 524 i x2 F i = 69, 6526 i x F iy F i = 18, 5925 6.3 Exercices sans indications Exercice 6.3.1. Pour une élection où il y a trois candidats, on désire savoir si les femmes et les hommes ont le même comportement. C est-à-dire si les populations des hommes et des femmes sont homogènes pour ce critère. On réalise pour cela un sondage sur 2 hommes et 1 femmes et on a obtenu les données de la table 6.3.1 (i) Calculer les profils colonnes ; (ii) Réaliser le graphique adapté à ces données. Exercice 6.3.2. Dix répétitions d une mesure de plomb ont été effectuées par spectrophotométrie d absorption atomique sur 1 échantillons indépendants. la table 6.3.2 suivant rassemble les valeurs trouvées.

34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE Candidats :Populations Hommes Femmes 1 68 22 2 51 24 3 81 54 Tab. 2.1 Données Mesures x i Mesures x i 1,975 6 1.21 2 1,95 7 1,232 3 1,135 8 1,242 4 1,165 9 1,362 5 1,18 1 2,185 Tab. 2.11 Données (i) Calculer la moyenne et la médiane de ces données ; (ii) Calculer l écart type et l écart interquartile de ces données ; (iii) Représenter graphiquement ces données ; (iv) On supprime la plus grande des données. (a) Calculer la moyenne et la médiane de ces données ; (b) Calculer l écart type et l écart interquartile de ces données ; (v) Commentaires. Exercice 6.3.3. Des mesures ont été réalisées pendant plusieurs journées sur un chauffe-eau solaire. On a mesuré l énergie E accumulée en fin de journée dans le ballon de stockage. On considère cette variable comme la réponse du système vis à vis de deux autres variables mesurées simultanément : l irradiation solaire journalière H reçue sur le plan du capteur et l écart moyen de température T entre l eau froide et l air extérieur. Les performances énergétiques journalières du chauffe-eau sont fournies dans le tableau suivant (Source :Adnot et al., 1988) Date E (MJ) H (MJ/m 22 ) T ( C) 24 mars 19, 16,8 6,9 25 mars 13,3 14, 4,4 26 mars 7,1 8,2 5,8 27 mars,7 1,6 2,2 28 mars,7 2,3 1,4 29 mars 13,1 13,1 4,2 3 mars 29,4 27,9 5, 31 mars 23,9 24,1 4,1 1 avril 12,1 14,2 1, 16 septembre 1,9 8,2 1, 17 septembre 8,4 6,5 11,3 18 septembre 16,9 14,6 12,7 19 septembre 4, 3, 8,6 2 septembre 2,5 18,1 9,7 21 septembre 26,1 23,9 1,6 22 septembre 24,8 23,2 9,5 1 juillet 33,2 23,1 16,8 2 juillet 32, 21,7 17,9 3 juillet 27,4 19, 16,8 Étudier la liaison entre E, H et T. On fera le graphique en nuage de points des valeurs de E en fonction des valeurs de H, puis de T. On étudiera ensuite la régression linéaire multiple E = β + β 1 H + β 2 T On donne i E i = 323, 5 i H i = 283, 5 i T i = 158, 9 i H2 i = 542 i T i 2 = 1812, 4 i E ih i = 626, 9 i E it i = 33, 4 i H it i = 2651

Chapitre 3 Probabilités 1 Introduction L objet de la statistique est souvent d obtenir des conclusions sur une population à partir de données. Afin de d obtenir celles-ci nous aurons besoin de connaître les lois de probabilité de certaines variables aléatoires définis sur l espace d échantillonnage (i.e. sur l espace de tous les échantillons possibles). Ceci est l objet du chapitre sur la théorie de l échantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilités. Jeu de dé Probabilités Statistiques Résultat de 1 lancés Population Probabilités Statistiques n-échantillon A l origine les probabilités sont liées au jeux de hasard 1 et on continue depuis à parler de science du hasard et aussi de loi du hasard. Mais comment cela est-il possible puisque par définition même le hasard est imprévisible? Intuitivement on définit souvent la probabilité d un événement comme le rapport du nombre de cas favorables sur le nombre de cas total, supposés tous également possibles. Mais que veut dire également possibles sinon également probables? Et que signifie également probables sinon de probabilités égales. La probabilité est ainsi définie à partir du terme probabilité! Cette définition peut se comparer à la définition du point comme limite d une sphère dont le rayon tend vers et de la sphère comme l ensemble de points situés à une égale distance d un point fixe. Pourtant tout le monde sait ce qu est un point et ce qu est une sphère. La théorie des probabilités est en fait une théorie mathématique parfaitement rigoureuse qui permet de modéliser 1 Il est à remarquer d ailleurs que ce terme vient d un mot arabe qui signifie : jeu de dé. Nous profitons de cette note pour souligner que le terme aléa provient lui du latin alea qui signifie aussi jeu de dé. 35

36 CHAPITRE 3. PROBABILITÉS des phénomènes où les résultats ne peuvent être connus avec certitude et c est cette théorie que nous allons étudier maintenant. 2 Définition des probabilités 2.1 Exemples Exemple 2.1.1 (Cas fini). On considère un caractère dû à un gène ayant deux allèles C et c. On sait que dans un croisement chacun des deux parents donne un des deux gènes ; si les parents sont tous les deux hétérozygotes, c est-à-dire ont tous les deux le génotype Cc, les génotypes des descendants sont de l un des quatre types suivants (le premier gène indiqué est celui de la mère) :CC, Cc, cc, cc. Nous avons ainsi les quatre événements élémentaires de l épreuve. Si ces événements sont équiprobables, la probabilité de chacun d entre eux est p = 1/4. Supposons maintenant que ce qui nous intéresse est le phénotype des individus et que l allèle C soit dominant. L ensemble fondamental devient alors Ω = {[C], [c]} où [C] (respectivement [c]) représente le phénotype C (respectivement c) et correspond aux génotypes CC, Cc, cc (respectivement cc). Si les génotypes sont tous équiprobables alors nous avons P ([C]) = 3/4 et P ([c]) = 1/4. Exemple 2.1.2 (Cas infini dénombrable). On considère l expérience aléatoire qui consiste à lancer un dé et à noter le nombre de coups nécessaires pour obtenir 6 pour la première fois. On a donc Ω = {1, 2, 3, 4,...} = N. La probabilité de l événement élémentaire n est : p n = ( ) n 1 5 1 6 6 + n=1 p n = + n=1 ( ) n 1 5 1 6 6 = 1 6 + n= ( ) n 5 = 1 6 6. 1 1 5 6 Exemple 2.1.3 (Cas infini non dénombrable). Un voyageur arrive à la date t = à une station de bus. On sait qu un bus passe toutes les 5 minutes. Le voyageur étant seul ne peut savoir quand est passé le dernier bus. Quelle probabilité peut-on définir? Le voyageur sait qu il attendra au maximum 5 minutes. Donc ici Ω = [, 5]. Mais il n a aucune raison de privilégier des instants par rapport à d autres. Aussi il est logique de prendre comme probabilité d un intervalle [a, b] = A Ω le rapport des longueurs des intervalles A et Ω : P (A) = b a 5 Plus l intervalle sera grand plus il aura de chance de voir le bus passer. L ensemble des événements E contiendra donc tout les intervalles du type [a, b] mais aussi : [, a[= C Ω [a, 5] ]b, 5] = C Ω [, b] [a, b[= n N [a, b (1/n)] ]a, b] = n N [a + (1/n), b] ]a, b[=]a, (a + b)/2] [(a + b)/2, b[ n N (a n, b n ) où (a n, b n ) est un intervalle ouvert, fermé ou semi-ouvert n N (a n, b n ) = C Ω { n N C Ω(a n, b n )} {a} = n N [a (a/n), a + (1/n)] etc... E est un ensemble très vaste mais on démontre qu il est différent de P(Ω). Ayant défini P ([a, b]) par (b a)/5 = b (1/5)dx on démontre alors que l on peut construire une probabilité P sur E et que l on a : a P (A) = (1/5)dx La loi de probabilité est alors parfaitement définie par la fonction f(x) = 1/5 si x [, 5]. Soit A = [a, b[ ]c, d[ alors, avec a < b < c < d P (A) = A f(x)dx = b a f(x)dx + d f(x)dx = A = aire achurée. c A = 1

2. DÉFINITION DES PROBABILITÉS 37 f(x) 1 5 A a b c d x Remarque 2.1.4. On a P ({a}) = (a a)/5 = et P ([, a[ ]a, 5]) = 1 P ({a}) = 1. L événement {a} peut se produire, mais a une probabilité nulle et l événement [, a[ ]a, 5] peut ne pas se produire mais a une probabilité égale à 1. Ce type de résultat étonne toujours l étudiant au début, mais cela montre un peu la difficulté de travailler sur un ensemble non dénombrable. 2.2 Définitions Lorsque Ω est un ensemble infini non dénombrable (un intervalle de R par exemple) nous ne pouvons pas définir la probabilité d un événement de façon constructive. En fait il existe même des sous ensembles de Ω pour lesquels nous ne pouvons pas calculer de probabilités, et l ensemble des événements E est alors un sous ensemble de P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilité sont assez pathologiques et on ne les rencontre jamais dans la pratique ; néanmoins nous devons mathématiquement définir quelles propriétés doit avoir l ensemble E. La probabilité ne peut alors être définie que de façon axiomatique 2. Définition 2.2.1 (Tribu ou σ-algèbre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) est une tribu ou une σ-algèbre de Boole si et seulement si elle vérifie les trois propriétés suivantes : (i) E et Ω E (ii) Si A E alors C Ω A E (iii) Si A i E i I avec I fini où dénombrable alors A i E i I Définition 2.2.2 (Espace probabilisé ou mesurable). Tout couple (Ω, E) où E est une tribu est appelé un espace probabilisé ou mesurable. Définition 2.2.3 (Probabilité). Soit (Ω, E) un espace probabilisé. Une probabilité P sur E est une application de E dans [, 1] qui satisfait les trois axiomes suivants : (i) P (A) 1 A E ; P (Ω) = 1 (ii) (A, B) E E A B = = P (A B) = P (A) + P (B) (iii) Si (A n ) n N A n E est une suite telle que A n+1 A n et n N A n = alors lim P (A n) = n + 2.3 Représentation graphique Lorsque Ω est fini où dénombrable la probabilité P est parfaitement déterminée par la donnée des p i. On représente alors cette probabilité par un diagramme en bâtons. Exemple 2.3.1. Reprenons l exemple (2.1.1), alors Ω = {[c], [C]}, p = 3/4 q = 1/4 2 Cette définition axiomatique fut donnée la première fois par le mathématicien soviétique (ou russe?) A.Kolmogorov en 1933. Cette approche est donc assez récente. Ceci montre bien que cette notion de probabilité n est pas aussi évidente qu elle n y paraît à priori.

38 CHAPITRE 3. PROBABILITÉS p k 3 4 1 4 [C] [c] k Exemple 2.3.2. Reprenons l exemple(2.1.2) : Ω = N et p n = ( ) n 1 5. 1 6 6 p k 1 6 5 36 1 2 3 4 5 6 7 8 9 1 11 k Par contre lorsque Ω est infini non dénombrable la probabilité est parfaitement déterminée par sa fonction de densité. Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densité est : f(x) = 1/(b a) sur [a, b] et ailleurs. A = 1 f(x) 1 (b a) a b x Exemple 2.3.4. Loi normale réduite. La fonction de densité est : f(x) = 1 2π e x2 /2 Remarque 2.3.5. On démontre que + f(x)dx = B lim A B + A f(x)dx = 1 = P (Ω)

3. PROBABILITÉS CONDITIONNELLES ET INDÉPENDANCE 39.4 f(x).35.3.25.2.15.1.5 3 2 1 1 2 3 x Fig. 3.1 3 Probabilités conditionnelles et indépendance 3.1 Probabilités conditionnelles Considérons pour illustrer notre propos l expérience aléatoire qui consiste à jeter deux dés (l un rouge et l autre bleu). On suppose que chacun des 36 événements élémentaires sont équiprobables ; ils ont donc pour probabilité p = 1/36. Ω = {(i, j), i I et j J} où I = J = {1, 2, 3, 4, 5, 6} (i, j) signifie que le dé rouge a donné i et le dé bleu a donné j. Supposons maintenant que l on sache que le dé rouge a donné 3. Quelle est alors la probabilité que la somme des deux dés soit 8? Pour calculer cette probabilité on peut raisonner de la façon suivante : nous ne pouvons en fait avoir que 6 événements dans notre expérience : (3,1), (3,2), (3,3), (3,4), (3,5), (3,6). Aussi, sachant que le dé rouge est un 3, la probabilité (conditionnelle) de chacun des événements (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) est 1/6, alors que la probabilité (conditionnelle) des 3 autres événements est nulle. Par conséquent la réponse à la question est 1/6. Si nous désignons par A l événement la somme des 2 dés est 8 et par B l événement le dé rouge est 3, alors la probabilité calculée précédemment s appelle la probabilité conditionnelle que A apparaisse sachant que B est réalisée et elle est notée P (A/B). Définition 3.1.1 (Probabilité conditionnelle). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de l événement A sachant que B est réalisée la quantité : P (A B) P (A/B) = P (B) 3.2 Indépendance d événements Définition 3.2.1 (Indépendance dépendance de deux événements). Deux événements sont dits indépendants si la réalisation de l un d entre eux ne modifie pas la réalisation de l autre, en d autres termes, si la réalisation de l un d entre eux n apporte aucune information au sujet de l autre. Les événements A et B sont dits dépendants dans le cas contraire. Théorème 3.2.2. Deux événements A et B sont indépendants si et seulement si : P (A B) = P (A).P (B) Démonstration Si P (B) = alors P (A B) = (car P (A B) P (B) = ) donc P (A B) = P (A).P (B) Si P (B) alors P (A B) = P (B).P (A/B) or A et B sont indépendants si et seulement si la réalisation de A ne donne pas d information sur B donc si et seulement si P (A/B) = P (A) Par suite P (A B) = P (A).P (B) Exemple 3.2.3. On jette deux dés. Soit A l événement la somme des dés est 6 et B l événement le premier dé est un 4. Alors P (A B) = P ({(4, 2)}) = 1/36. Mais P (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36 et P (B) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}) = 1/6

4 CHAPITRE 3. PROBABILITÉS donc P (A).P (B) P (A B) et les deux événements sont dépendants. Ici P (A/B) = 1/6 et P (A/ B) = 4/3. Soit C l événement la somme des dés est 7. Alors P (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 1/6 et par suite P (B C) = 1/36 = P (B).P (C). Ici B et C sont indépendants ; le fait de savoir que la somme est 7 ne donne aucun renseignement sur le score du premier dé. Par contre le fait de savoir que la somme est 6 implique que l on ne peut pas avoir un 6 pour le premier dé. Nous allons maintenant généraliser la notion d indépendance à un nombre quelconque d événements. Définition 3.2.4 (Indépendance de n événements). Soit (A i ),...,n n événements d un espace probabilisé. Ces événements sont dits indépendants si et seulement si pour tout sous-ensembles {A 1, A 2,..., A r} de {A 1,..., A n } r n on a : P (A 1 A 2... A r) = P (A 1).P (A 2)... P (A r) Remarque 3.2.5. Des événements (A i ),...,n peuvent être indépendants deux à deux sans être indépendants. Considérons par exemple les 3 événements suivants de l expérience aléatoire consistant à jeter deux pièces de monnaie non truquées : L événement A la première pièce est Pile L événement B la deuxième pièce est Face L événement C les deux pièces sont sur le même côté Alors P (A B) = 1/2.1/2 = P (A).P (B) P (A C) = 1/2.1/2 = P (A).P (C) P (B C) = 1/2.1/2 = P (B).P (C) Les trois événements sont dont bien indépendants deux à deux. Mais P (A B C) = P ( ) = P (A).P (B).P (C) par suite les trois événements ne sont pas indépendants. Ici le fait de savoir que la première pièce donne Pile et que la deuxième pièce donne Face implique que l événement C ne peut pas être réalisé. 4 Variables aléatoires 4.1 Introduction Nous serons toujours amenés en pratique à travailler avec des variables aléatoires. Chaque mesure collectée sera mise en relation avec une variable aléatoire. Ainsi les grandeurs auxquelles on s intéressera seront en lien avec des fonctions définies sur un ensemble fondamental, c est-à-dire avec des variables aléatoires. Ce qui nous intéressera, en pratique, sera la loi de probabilité sur l espace d arrivé. Nous donnons ci-après quelques exemples de formalisation par des variables aléatoires où P désigne la population française : X 1 : P {M, F } ω M si ω est un homme ω F si ω est une femme X 2 : P R ω Revenu de ω X 3 : P {CSP 1, CSP 2,..., CSP n } ω la catégorie socioprofessionnelle de ω X 4 : P R ω taille de ω X 5 : P N ω nombre de yaourts mangés par ω pendant un an Dans cette section nous étudierons tout d abord le cas simple où la variable aléatoire ne pourra prendre qu un nombre fini ou dénombrable de valeur différentes. Ensuite nous étudierons les variables aléatoires réelles continues, puis nous nous intéresserons à la notion de fonction de répartition d une variable réelle. Le paragraphe suivant sera consacré à l étude succincte des fonctions de variables aléatoires réelles. Enfin nous terminerons cette section par une rapide étude des variables aléatoires vectorielles.

4. VARIABLES ALÉATOIRES 41 4.2 Définition Variables aléatoires discrètes Définition 4.2.1 (Variable aléatoire discrète). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. On appelle variable aléatoire discrète définie sur (Ω, E) à valeur dans E toute application X de Ω dans E telle que : (i) X ne prend qu un nombre fini ou dénombrable de valeurs dans E. (ii) Pour tout x X(Ω), le sous ensemble X 1 (x) = {ω Ω/X(ω) = x} de Ω est un événement (X 1 (x) E). Théorème 4.2.2. Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. Soit X une variable aléatoire discrète de Ω dans E, alors l application P X définie par : P X : P(X(Ω)) [, 1] est une probabilité sur (X(Ω), P(X(Ω))). Démonstration Évidente. A P X (A) = P (X 1 (A)) = P ({ω Ω/X(ω) A} Remarque 4.2.3. La terminologie employée ici est assez malheureuse et est source de confusion chez l étudiant. Nous tenons donc à bien faire prendre conscience qu une variable aléatoire X est une fonction parfaitement déterminée, cela n a rien à voir avec une variable mathématique bien qu on la note X. Quant au terme aléatoire il n est présent que pour rappeler que l on travaille sur des espaces probabilisés. Remarque 4.2.4. Une variable aléatoire permet en fait de transporter une probabilité définie sur un espace probabilisé dans un autre espace probabilisé. Remarque 4.2.5. En posant p n = P X (x n ) = P (X 1 ({x n })) nous retrouvons la définition d une probabilité sur un ensemble fini ou dénombrable. Définition 4.2.6 (Loi d une variable aléatoire). La probabilité P X est appelée la loi de la variable aléatoire X. Exemple 4.2.7. On jette trois fois une pièce de monnaie et on s intéresse au nombre de faces obtenu. Ici et Ω = {(F, F, F ), (F, F, P ), (F, P, F ), (F, P, P ), (P, F, F ), (P, F, P ), (P, P, F ), (P, P, P )} X : Ω R ω X(ω) = nombre de F dans ω X(Ω) = {, 1, 2, 3} = Ω, X est une variable aléatoire de (Ω, P(Ω)) dans (Ω, P(Ω )) X 1 ({}) = {(P, P, P )} et P X ({}) = P ({(P, P, P )}) = 1/8 X 1 ({1}) = {(P, P, F ), (P, F, P ), (F, P, P )} et P X ({1}) = 3/8 X 1 ({2}) = {(P, F, F ), (F, P, F ), (F, F, P )} et P X ({2}) = 3/8 X 1 ({3}) = {(F, F, F )} et P X ({3}) = 1/8 Exemple 4.2.8. Reprenons l exemple (2.2.1.1) et posons Ω = {CC, Cc, cc, cc}. Nous pouvons alors définir le phénotype comme la variable aléatoire suivante : Nous avons bien alors : X : Ω {[C], [c]} CC [C] Cc [C] cc [C] cc [c] P X ({[C]}) = P ({CC, Cc, cc}) = 3/4 P X ({[c]}) = P ({cc}) = 1/4

42 CHAPITRE 3. PROBABILITÉS Définition 4.2.9 (Variable aléatoire discrète réelle). On appelle variable aléatoire discrète réelle (v.a.r.d.) toute variable aléatoire discrète à valeur dans R. Notation 4.2.1. Lorsque X est une variable aléatoire réelle on note aussi : Par exemple dans l exemple (4.2.7) on note aussi P X ({x}) = P (X = x) = P (X 1 (x)) P X (], x]) = P (X x) = P (X 1 (], x])) P X ({1}) = P (X = 1) = 3/8 et P X ({, 1, 2}) = P (X 2) = 7/8 Remarque 4.2.11. On représente la loi de probabilité d une variable discrète réelle par des diagrammes en bâtons. Variables aléatoires réelles continues Définition 4.2.12 (Variable aléatoire réelle continue). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. On appelle variable aléatoire réelle continue (v.a.r. continue) définie sur (Ω, E) toute application X de Ω dans R ayant les propriétés suivantes : (i) L ensemble {ω Ω/X(ω) [a, b]} est un événement (i.e ; un élément de E) pour tout couple (a, b) de R 2. (ii) Il existe une fonction f de R dans R telle que P (X [a, b]) = P (X 1 ([a, b])) = P X ([a, b]) = b a f(x)dx Définition 4.2.13 (Fonction de densité). On appelle fonction de densité d une variable aléatoire réelle continue X toute fonction f permettant de définir la probabilité comme indiqué dans la définition ci-dessus. Remarque 4.2.14. Une fonction f est une fonction de densité si et seulement si : (i) f(x) pour tout x. (ii) f est intégrable. (iii) + f(x)dx = 1 Exemple 4.2.15. La durée de fonctionnement d un ordinateur avant sa première panne est une variable aléatoire continue de densité donnée par : f : R R x λe x/1 si x x sinon Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 5 et 15 heures? Quelle est la probabilité que l ordinateur fonctionne moins de 1 heures? + f(x)dx = + λe x/1 dx = 1λ Donc f est une fonction de densité si et seulement si λ = 1/1. Par suite : Conclusion P (X [5, 15]) = 15 5 P (X 1) = 1 1 e x/1 dx = e 1/2 e 3/2, 384 1 f(x)dx = 1 e 1, 633 Nous pouvons donc dire qu une variable aléatoire c est une fonction parfaitement connue qui permet de transposer une probabilité d un espace probabilisé dans un autre. Une variable aléatoire, c est comme le Saint Empire Romain : il n était pas saint, ce n était pas un empire et il n était pas Romain 3. Quant-à la loi d une variable aléatoire, c est la probabilité qu elle définit sur l espace d arrivée. C est cette loi ou des paramêtre de cette loi qui nous intéressera en pratique. Par abus de langage nous dirons que : 3 Cette analogie vient de Donald E. Catlin Estimation, Control, and the Discrete Kalman Filter, page 5, ed. Springer-Verlag 1989

4. VARIABLES ALÉATOIRES 43 (i) X est une v.a.r. de loi F (fonction de répartition) ; (ii) X est une v.a.r. continue de loi f (fonction de densité) ; (iii) X est une v.a.r. discrète de loi P (X = k). Et nous noterons : P (a X b) = P (X [a, b]) = P X ([a, b]) = P (X 1 ([a, b])) 4.3 Fonction de répartition Nous n étudierons dans ce paragraphe que des variables aléatoires réelles. Définition 4.3.1 (Fonction de répartition). On appelle fonction de répartition associée à la variable aléatoire réelle X la fonction F définie par : F : R R x F (x) = P (X x) = P X (], x]) En d autre termes F (x) est la probabilité que la variable aléatoire X prenne une valeur inférieure ou égale à x. Nous allons maintenant voir les représentations graphiques des cette fonction sur trois exemples, l un fini, l autre dénombrable et le troisième infini non dénombrable. Exemple 4.3.2. Reprenons l exemple (4.2.7) où la variable aléatoire X est le nombre de faces obtenu lors du jeté de trois pièces. Ici la fonction de répartition est : F (x) = si x ], [ F (x) = P (X x) = P (X = ) = 1 si x [, 1[ 8 F (x) = P (X = ou X = 1) = P (X = ) + P (X = 1) = 1 8 + 3 8 = 1 si x [1, 2[ 2 F (x) = 7 si x [2, 3[ 8 F (x) = 1 si x [3, + [ Nous avons donc la représentation graphique suivante : F (x) 1 7 8 1 2 1 8-1 1 2 3 x

44 CHAPITRE 3. PROBABILITÉS Exemple 4.3.3. Soit X ne nombre de fois qu il faut lancer une pièce de monnaie pour obtenir pile. Nous avons : F (x) = si x < 1 F (x) = 1 si x [1, 2[ 2 F (x) = 1 2 + 1 si x [2, 3[ 4. F (x) = n 1 2 n = 1 1 si x [n, n + 1[ 2n. et la représentation graphique donne : F (x) 7 8 3 4 1 2-1 1 2 3 x Exemple 4.3.4. Considérons la loi uniforme sur [ 1, +1], c est-à-dire la loi définie par la fonction de densité f suivante : f : R R u f(u) = 1/2 si u [ 1, +1] u f(u) = sinon Nous avons alors : Si x 1 alors F (x) = Si 1 x 1 alors F (x) = Si x 1 alors F (x) = x x x f(u)du = f(u)du = f(u)du = x x 1 1 1 dx = 1 2 dx = 1 (x + 1) 2 1 2 dx = 1 Nous avons donc la visualisation suivante :

4. VARIABLES ALÉATOIRES 45 F (x) 1 1 2-1 1 2 3 x Remarque 4.3.5. Lorsque l on parle de variable aléatoire réelle continue c est la fonction de répartition qui est continue et non pas la fonction de densité. Théorème 4.3.6. La loi de probabilité d une variable aléatoire réelle est parfaitement connue à partir de sa fonction de répartition F. C est-à-dire que si l on connaît la fonction de répartition d une variable aléatoire réelle X alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F. Démonstration Admise Remarque 4.3.7. Nous emploierons indifféremment, par abus de langage, pour caractériser une loi les expressions : (i) X est de loi F où F est la fonction de répartition associée à X. (ii) X est de loi f si X est continue et f est la fonction de densité associée à X. (iii) X est de loi P (X = k) si X est discrète. Théorème 4.3.8. Soit X une variable aléatoire réelle continue de fonction de densité f alors : (i) Si f est continue en a et b alors : (ii) Si f est continue en a alors : P (a X b) = Démonstration Cela provient des propriétés de l intégrale b a f(x)dx = P (a X < b) df dx (a) = F (a) = f(a) = P (a < X b) = P (a < X < b) = F (b) F (a) Corollaire 4.3.9. Soit X une variable aléatoire réelle continue définie par une fonction de densité f continue. Alors si F est la fonction de répartition associée à X on a : et F (x) = x f(u)du et F (x) = f(x) P (a < X < b) = F (b) F (a) P (a < X b) = F (b) F (a) P (a X < b) = F (b) F (a) P (a X b) = F (b) F (a) Remarque 4.3.1. Le corollaire précédent est important dans la pratique car c est la fonction de répartition F qui est donnée dans les tables statistiques.

46 CHAPITRE 3. PROBABILITÉS 4.4 Fonction d une variable aléatoire réelle continue Il arrive souvent dans la pratique que l on connaisse la distribution d une variable aléatoire X mais que l on s intéresse plutôt à celle d une fonction de cette variable aléatoire. En d autres termes on connaît X mais on désire connaître g(x). Exemple 4.4.1. Soit X une variable uniformément distribuée sur [, 1]. On obtiendra la distribution de Y = X 2 de la manière suivante : Donc F Y (y) = P (Y y) y = P (X 2 y) = P (X y) = F X ( y) = y si y [, 1] f Y (y) = F Y (y) = f Y (y) = sinon 1 2 si y [, 1] y Théorème 4.4.2. Soit X une variable aléatoire réelle continue de densité f X et soit g une fonction strictement monotone (croissante ou décroissante) et dérivable de R dans R. La densité de probabilité de la variable aléatoire Y = g(x) est alors : f Y (y) = { fx (g 1 (y)) d dy g 1 (y) si il existe un x pour lequel y = g(x) si g(x) y pour tout x Démonstration Cela provient du théorème de changement de variable dans une intégrale. Application 4.4.3. Soit X une variable aléatoire réelle de loi normale de paramètre µ et σ, c est-à-dire que X a pour fonction de densité f(u) = 1 e (x µ)2 /(2σ 2 ) 2πσ et soit alors Par suite g(x) = x µ σ et Y = g(x) g(x) = y y = x µ σ x = σy + µ = g 1 (y) f Y (y) = f X (σy + µ)σ = 1 2π e y2 /2 et donc Y suit une lois normale réduite (i.e. de paramètres et 1). Par conséquent nous avons : F X (a) = = a a µ σ f X (x)dx = P (X a) = P (σy + µ a) = F Y ( a µ σ ) f Y (y)dy = P (Y a µ σ ) En conclusion si on connaît la fonction de répartition de loi normale réduite on peut calculer la fonction de répartition de toutes les lois normales.

4. VARIABLES ALÉATOIRES 47 4.5 Variables aléatoires vectorielles Dans les applications pratiques on rencontre souvent des problèmes dans lesquels les résultats des expériences se trouvent décrits non pas par une variable aléatoire mais par deux ou plusieurs variables aléatoires. Par exemple lorsque l on jette 3 dés le résultat est donné par 3 nombres, ou lorsque l on désire étudier simultanément le rendement d une variété de blé et les précipitations de mars à juin. Comme pour les variables aléatoires réelles nous allons tout d abord étudier les variables aléatoires discrètes, puis les variables aléatoires réelles continues. Nous étudierons tout d abord le cas de deux variables aléatoires, puis nous généraliserons. Définition 4.5.1 (Vecteur aléatoire). On appelle vecteur aléatoire de dimension n tout n-uplet (X 1,..., X n ) de n variables aléatoires définies sur le même espace (Ω, E). Notation 4.5.2. Lorsque n = 2 on parle de couple de variables aléatoires et on note (X, Y ). Définition 4.5.3 (Fonction de probabilité jointe). Soient X et Y 2 variables aléatoires discrètes à valeur respectivement dans E et F. On appelle fonction de probabilité jointe de X et de Y la fonction p définissant la loi de probabilité du couple de variables aléatoires (X, Y ) suivante. p : E F R (x, y) p(x, y) = P (X = x ety = y) Remarque 4.5.4. Soit p la fonction de probabilité jointe de X et de Y alors : (i) p(x, y) (x, y) E F (ii) p(x, y) = 1 x E y Y Définition 4.5.5 (Loi marginale). Soient X et Y 2 variables aléatoires discrètes à valeurs dans E et F et p la fonction de probabilité jointe de X et Y. On appelle loi de probabilité marginale de X (respectivement Y ) l application p X : E R x p X (x) = y F p(x, y) respectivement p Y : F R y p Y (y) = x E p(x, y) Remarque 4.5.6. p X (respectivement p Y ) est la loi de probabilité de la variable aléatoire X (respectivement Y ) Remarque 4.5.7. Lorsque E et F sont finis, E = {x 1,..., x n } et F = {y 1,..., y m } on représente p(x, y) de la façon suivante : y 1 y 2 y j y m p X x 1 p(x 1, y 1 ) p(x 1, y 2 ) p(x 1, y j ) p(x 1, y m ) p X (x 1 ) x 2 p(x 2, y 1 ) p(x 2, y 2 ) p(x 2, y j ) p(x 2, y m ) p X (x 2 )...... x i p(x i, y 1 ) p(x i, y 2 ) p(x i, y j ) p(x i, y m ) p X (x i )...... x n p(x n, y 1 ) p(x n, y 2 ) p(x n, y j ) p(x n, y m ) p X (x n ) p Y p Y (y 1 ) p Y (y 2 ) p Y (y i ) p Y (y m ) 1 Exemple 4.5.8. On lance deux dés à jouer et on s intéresse à la somme des résultats obtenus (variable U) et au maximum des résultats des deux dés (variable V ). Nous avons alors :

48 CHAPITRE 3. PROBABILITÉS U : V 1 2 3 4 5 6 p V 1 1 2 36 36 2 2 3 36 36 1 2 3 4 36 36 36 2 2 4 5 36 36 36 1 2 2 5 6 36 36 36 36 2 2 2 6 7 36 36 36 36 1 2 2 5 8 36 36 36 36 2 2 4 9 36 36 36 1 2 3 1 36 36 36 2 2 11 36 36 1 12 p U 1 36 3 36 5 36 7 36 9 36 1 36 36 11 36 1 Nous allons maintenant étudier le cas des variables aléatoires réelles continues. Définition 4.5.9 (Fonction de densité d un couple de v.a. continues). On dit que le couple de variables aléatoires réelles continues a une densité de probabilité f, application de R 2 dans R positive et intégrable si et seulement si on peut écrire : P (A) = P ((X, Y ) A) = f(x, y)dxdy A E où E est la tribu de R 2 qui contient les rectangles [a, b] [c, d] Remarque 4.5.1. Si A est un rectangle [a, b] [c, d] alors on démontre que P (A) = b d a ( c A f(x, y)dy)dx Illustration 4.5.11. Graphiquement z = f(x, y) représente dans R 3 une surface et le volume totale délimité par cette surface et le plan (O, x, y) est égale à 1 car P (Ω) = P (R 2 ) = f(x, y)dxdy = 1 R 2 Si A = [a, b] [c, d] alors P (A) est le volume ombré ci-dessous : Fig. 3.2 Densité d un couple de variables aléatoires réelles Exemple 4.5.12. (Densité uniforme sur un disque C) Soit C le disque de centre O et de rayon a >, C = {(x, y) R 2 tel que x 2 + y 2 a} { f(x, y) = 1 πa si (x, y) C 2 f(x, y) = sinon

4. VARIABLES ALÉATOIRES 49 Ici les variables aléatoires X et Y sont les applications composantes. Exemple 4.5.13. (Loi normale réduite à 2 dimensions) La fonction de densité est ici : f(x, y) = 1 2π e x 2 +y 2 Définition 4.5.14 (Loi marginale). Soit X et Y un couple de variables aléatoires réelles continues de fonction de densité f. On appelle loi de probabilité marginale de X (respectivement Y ) l application : respectivement f X : R R x f X (x) = f Y : R R y f Y (y) = 2 + y= + x= f(x, y)dy f(x, y)dx Remarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aléatoire X (respectivement Y ) (ii) La fonction de répartition de X (respectivement de Y ) est alors : F X (x) = x (respectivement F Y (y) = f X (u)du = y x + u= v= + y f Y (v)dv = u= f(u, v)dudv v= f(u, v)dudv ) Remarque 4.5.16. (i) La généralisation au cas de n variables aléatoires (Y 1,..., Y n ) est immédiate. Lorsque l on traite des variables discrètes, on a : p(y 1, y 2,..., y n ) = P (Y 1 = y 1 et Y 2 = y 2... et Y n = y n ) Lorsque l on traite des variables aléatoires réelles continues, on a : P (A) = f(y 1, y 2,..., y n )dy 1 dy 2... dy n A (ii) Rien ne nous empêche de définir aussi des lois jointes de deux variables aléatoires réelles X et Y lorsque X est discrète et Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les étudierons pas. 4.6 Variables aléatoires indépendantes Nous considérons dans cette section deux variables aléatoires X et Y définies sur le même espace Ω. Définition 4.6.1 (Indépendance de 2 v.a.r.). Deux variables aléatoires réelles X et Y sont dites indépendantes si et seulement si pour tout événement A R et B R, on a : P (X A et Y B) = P (X A) P (Y B) Remarque 4.6.2. La définition précédente est équivalente à dire que les événements X 1 (A) et Y 1 (B) sont indépendants pour tout ensemble A et B. Théorème 4.6.3. Soient X et Y 2 variables aléatoires discrètes. X et Y sont indépendantes si et seulement si : p(x, y) = p X (x) p Y (y) (x, y) R 2 Théorème 4.6.4. Soient X et Y deux variables aléatoires réelles continues. X et Y sont indépendantes si et seulement si f(x, y) = f X (x) f Y (y) (x, y) R 2 Démonstration Démonstration admise. Remarque 4.6.5. (i) Pour pouvoir parler d indépendance ou de dépendance de 2 ou plus variables aléatoires il faut que celles-ci soient définies sur le même espace fondamental. (ii) La signification concrète de l indépendance de 2 variables aléatoires est que la connaissance de la valeur d une des variables aléatoires sur un individu n apporte aucune information sur la valeur de l autre variable aléatoire.

5 CHAPITRE 3. PROBABILITÉS 5 Espérance mathématique 5.1 Définitions L espérance mathématique d une variable aléatoire est l un des concepts les plus important en théorie des probabilités. Définition 5.1.1 (Espérance mathématique d une v.a.r.d.). Soit X une variable aléatoire réelle discrète de loi P. On appelle espérance mathématique la grandeur, si elle existe, suivante. E(X) = x xp (X = x) Exemple 5.1.2. Soit X de loi de Bernoulli de paramètre p ; c est-à-dire : P (X = ) = 1 p = q et P (X = 1) = p alors E(X) = q + 1 p = p Définition 5.1.3 (Espérance mathématique d une v.a.r. continue). Soit X une variable aléatoire réelle continue de fonction de densité f. On appelle espérance mathématique de X la quantité si elle existe : E(X) = Exemple 5.1.4. Soit X de loi uniforme sur [a, b] alors E(X) = + + xf(x)dx x 1 b a dx = 1 2(b a) (b2 a 2 ) = a + b 2 Théorème 5.1.5. Soit X une variable aléatoire réelle et g une application de R dans R. Soit Y = g(x), alors l espérance mathématique de Y est si elle existe : (i) Si X est discrète : E(Y ) = E(g(X)) = x g(x)p (X = x) (ii) Si X est continue de loi f E(Y ) = E(g(X)) = + g(x)f(x)dx Remarque 5.1.6. On devrait en fait écrire Y = g X au lieu de Y = g(x). En effet il s agit bien ici de la composition de fonction : X Y : Ω R R ω X(ω) g (X(ω)) Théorème 5.1.7. Soit a et b deux constantes réelles et X une variable aléatoire réelle d espérance mathématique E(X), alors nous avons E(aX + b) = ae(x) + b Démonstration Il suffit de poser Y = ax + b et d appliquer le théorème précédent. Le résultat s obtient alors immédiatement en utilisant la propriété de linéarité de la somme ou de l intégrale. Définition 5.1.8 (Moments par rapport à l origine). Soit X une variable aléatoire réelle. On appelle n-ième moment de X par rapport à l origine la quantité si elle existe E(X n ) (i) Si X est discrète E(X n ) = x g x n P (X = x) (ii) Si X est continue de densité f E(X n ) = + x n f(x)dx

5. ESPÉRANCE MATHÉMATIQUE 51 Remarque 5.1.9. Le n-ième moment de X par rapport à l origine est l espérance mathématique de la variable aléatoire Y = X n. Définition 5.1.1 (Moments centrés). Soit X une variable aléatoire réelle. On appelle n-ième moment centré de X la quantité si elle existe E[(X E(X)) n ] (i) Si X est discrète E[(X E(X)) n ] = x (x E(X)) n P (X = x) (ii) Si X est continue de densité f E[(X E(X)) n ] = + (x E(X)) n f(x)dx Remarque 5.1.11. Si l on pose µ = E(X) alors le n-ième moment centré de X est l espérance mathématique de la variable aléatoire Y = g(x) avec g : R R x (x µ) n Remarque 5.1.12. Très souvent pour passer d une variable discrète à une variable continue il suffit de changer une somme finie en une somme infinie. 5.2 Espérance d une somme de variables aléatoires Théorème 5.2.1. Soit (Y 1, Y 2,..., Y n ) un n-uplet de variables aléatoires réelles qui possèdent des espérances mathématiques alors S = n Y i possède une espérance mathématique et on a : E(S) = n E(Y i ) Exemple 5.2.2. Soit (Y 1,..., Y n ) un n-uplet de variables de loi de Bernoulli de paramètre p alors : 5.3 Variance Covariance E( n Y i ) = n E(Y i ) = n p = np Définition 5.3.1 (Variance d une variable aléatoire réelle). Soit X une variable aléatoire réelle. On appelle variance de X la quantité si elle existe : V ar(x) = E[(X E(X)) 2 ] Remarque 5.3.2. La variance est en fait le moment centré d ordre deux. Remarque 5.3.3. La variance est une mesure de l écart moyen entre la variable aléatoire X et son espérance mathématique. Nous aurions pu prendre comme mesure E( X E(X) ), mais cette quantité est plus difficile à manipuler. La variance a la dimension du carré de la variable aléatoire aussi, pour avoir une grandeur de la dimension de la variable, on définit la quantité suivante. Définition 5.3.4 (Écart type). Soit X une variable aléatoire réelle. On appelle écart type de X la quantité si elle existe : σ(x) = V ar(x) Théorème 5.3.5. La variance d une variable aléatoire réelle existe si et seulement si le moment d ordre deux de X existe et on a la relation suivante : V ar(x) = E(X 2 ) (E(X)) 2

52 CHAPITRE 3. PROBABILITÉS Démonstration Nous n allons démontrer que la formule ci-dessus sans démontrer totalement le théorème. Posons µ = E(X) Exemple 5.3.6. Soit X et Y de lois V ar(x) = E[(X µ) 2 ] = E[X 2 2µX + µ 2 ] = E(X 2 ) 2µE(X) + µ 2 = E(X 2 ) µ 2 P (X = 1) = 1 2 P (X = 1) = 1 2 P (Y = 1) = 1 2 alors E(X) = E(Y ) = et P (Y = 1) = 1 2 V ar(x) = E(X 2 ) = 1 2 1 2 + ( 1)2 1 2 = 1 V ar(y ) = E(Y 2 ) = 1 2 1 2 + ( 1)2 1 2 = 1 Cet exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X et Y ont la même espérance mathématique mais la dispersion des valeurs par rapport à cette espérance mathématique est plus grande pour Y que pour X. Théorème 5.3.7. Soit X une variable aléatoire réelle qui possède une variance alors Y = ax + b a une variance pour tout (a, b) R 2 et on a : V ar(y ) = a 2 V ar(x) Théorème 5.3.8. Soit (X, Y ) un couple de variables aléatoires réelles indépendantes alors E(XY ) = E(X)E(Y ) Remarque 5.3.9. Il faut bien faire attention à la signification de l égalité ci-dessus. (X, Y ) est un couple de variables aléatoires réelles, c est-à-dire que (X, Y ) : Ω R 2 et XY est la variable aléatoire réelle Z = g (X, Y ) où ω (X(ω), Y (ω)) g : R 2 R (x, y) g(x, y) = xy En d autre terme Z est la variable aléatoire réelle suivante : E(XY ) n est alors que E(Z). Z : Ω R ω Z(ω) = X(ω)Y (ω) Remarque 5.3.1. La réciproque du théorème précédent est fausse, on peut avoir E(XY ) = E(X)E(Y ) sans avoir des variables indépendantes. Définition 5.3.11 (Covariance). Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques. On appelle covariance de X et de Y la quantité, si elle existe définie par : Remarque 5.3.12. On a V ar(x) = Cov(X, X). Cov(X, Y ) = E[(X E(X))(Y E(Y ))]

5. ESPÉRANCE MATHÉMATIQUE 53 Théorème 5.3.13. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques. La covariance de X et de Y existe si et seulement si E(XY ) existe et on a la relation suivante : Cov(X, Y ) = E(XY ) E(X)E(Y ) Corollaire 5.3.14. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques. Si X et Y sont indépendantes alors : Cov(X, Y ) = Démonstration Cela provient de l application directe des théorèmes (5.3.8) et (5.3.13). Théorème 5.3.15. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques et des variances. Alors la variance de X + Y et la covariance de X et Y existent et on a la relation suivante : Démonstration V ar(x + Y ) = V ar(x) + V ar(y ) + 2Cov(X, Y ) V ar(x + Y ) = E[(X + Y E(X + Y )) 2 ] = E[((X E(X)) + (Y E(Y ))) 2 ] = E[(X E(X)) 2 ] + E[(Y E(Y )) 2 ] + E[2(X E(X))(Y E(Y ))] = V ar(x) + V ar(y ) + 2Cov(X, Y ) Corollaire 5.3.16. Sous les mêmes hypothèses que précédemment et si de plus les variables aléatoires sont indépendantes alors : V ar(x + Y ) = V ar(x) + V ar(y ) Démonstration Immédiate Remarque 5.3.17. Les résultat précédents se généralisent sans difficultés au cas d un n-uplet de variables aléatoires : (i) V ar( n Y i ) = (ii) Si les variables sont indépendantes deux à deux V ar( n V ar(y i ) + 2 i<j n Y i ) = n V ar(y i ) Cov(Y i, Y j ) Exemple 5.3.18. Considérons le cas d un n-uplet de variables aléatoires de loi de Bernoulli de paramètre p indépendantes. n n n V ar( Y i ) = V ar(y i ) = pq = npq Théorème 5.3.19. Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances. Nous avons alors : Cov(X, Y ) σ(x)σ(y ) Définition 5.3.2 (Corrélation). Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances non nulles. On appelle corrélation de X et Y la quantité : ρ(x, Y ) = Cov(X, Y ) σ(x)σ(y ) Remarque 5.3.21. On a toujours, lorsque la corrélation est définie : 1 ρ(x, Y ) +1 Définition 5.3.22 (Variables non corrélées). Deux variables aléatoires réelles X et Y pour lesquelles la corrélation existe sont dites non corrélées si et seulement si leur corrélation est nulle.

54 CHAPITRE 3. PROBABILITÉS 6 Théorèmes limites 6.1 Introduction Les théorèmes limites constituent sans doute les résultats théoriques parmi les plus importants de la théorie des probabilités. Ces théorèmes sont répartis en deux grandes classes : les lois des grands nombres d une part, les théorèmes centraux limites d autre part. Les lois des grands nombres énoncent des conditions sous lesquelles la moyenne d une suite de variables aléatoires de même loi converge (dans un sens à définir) vers leur espérance mathématique commune, ceci implique notamment la convergence de la fréquence d apparition d un événement vers sa probabilité. Les théorèmes centraux limites par contre déterminent sous quelles hypothèses la somme de variables aléatoires converge (ici encore dans un sens à définir) vers la distribution normale ; ceci permet d approximer la somme d un grand nombre de variables aléatoires à une loi normale et c est ce type de théorème qui justifie de façon théorique l utilisation (parfois abusive) de la loi normale en statistique. Dans toute cette section nous considérerons des variables aléatoires réelles définies sur un même espace (Ω, E). 6.2 Lois des grands nombres Théorème 6.2.1 (Loi faible des grands nombres). Soient Y 1, Y 2,... une suite de variables aléatoires indépendantes et identiquement distribuées, d espérance mathématique commune finie (E(Y i ) = µ) et de variance commune finie (V ar(y i ) = σ 2 ). Alors pour tout ε > on a : ( ) Y 1 + Y 2 + + Y n P µ n > ε n + Démonstration Nous ne démontrerons le résultat que lorsque la variance (commune) des Y i σ 2 est finie. Comme n 1 E( n Y i) = 1 n E(Y i ) = µ n et V ar( n Y i ) = nσ2 n 2 = σ2 n Il résulte de l inégalité de Thebychev que ( ) Y 1 + Y 2 + + Y n P µ n > ε On en déduit immédiatement le résultat. σ2 nε 2 Remarque 6.2.2. La loi faible des grands nombres fut établie pour la première fois par Jacques Bernoulli pour le cas particulier où les variables sont de loi de Bernoulli. L énoncé de ce théorème et la démonstration qu il en donne figurent dans son ouvrage : Ars Conjectandi publié en 1713 par son neveu Nicolas Bernoulli huit ans après sa mort. Il faut savoir qu à cette époque on ne connaissait pas l inégalité de Tchebychev, et Bernoulli dut développer une démonstration extrêmement ingénieuse pour établir ce résultat. Théorème 6.2.3 (Loi forte des grands nombres). Soient Y 1, Y 2,... une suite de variables aléatoires indépendantes et identiquement distribuées, d espérance mathématique commune finie (E(Y i ) = µ) et de variance commune finie (V ar(y i ) = σ 2 ). Alors on a Démonstration Admise. ( (i.e. P lim n + Y 1 + + Y n µ n n + ) = µ = 1) Y 1 + + Y n n Remarque 6.2.4. On a souvent, au début, du mal à saisir la différence entre la loi faible et la loi forte des grands nombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y 1 + + Y n )/n est probablement très voisines de µ. Elle n assure pas cependant que (Y 1 + + Y n )/n devra rester dans un voisinage étroit de µ. Il

6. THÉORÈMES LIMITES 55 est donc possible qu il y ait de larges écarts entre (Y 1 + + Y n )/n et µ pour une infinité d événements, infinité dont la probabilité collective est très faible cependant. La loi forte des grands nombres exclut cette situation. Elle assure en particulier qu avec une probabilité de 1 et pour toute valeur de ε > la valeur de l expression ci-dessous ne sera supérieure à ε qu un nombre fini de fois. n Y i n µ Exemple 6.2.5. Supposons que l on réalise une série d épreuves indépendantes. Soit A un événement donnée relatif à l expérience ainsi répétée et P (A) sa probabilité, constante au cours des épreuve. On pose : { Yi = 1 si A survient au cours de l épreuve numéro i Y i = sinon La loi forte des grands nombres établit qu avec une probabilité 1 on a : Y 1 + + Y n n E(X) = P (A) quand n + (3.1) Comme Y 1 + + Y n représente le nombre d occurrences de l événement A au cours des n premières épreuves (3.1) peut donc recevoir l interprétation suivante : La fréquence relative d apparition de l événement A converge, avec une probabilité de 1, vers la probabilité d apparition de l événement A P (A). Exemple 6.2.6. Soit X une variable aléatoire réelle continue de loi f. Soit y 1, y 2,..., y N N réalisations indépendantes de X. On trace alors l histogramme suivant :.5.45.4.35.3.25.2.15.1.5 2.7 2.1 1.5.9.3.3.9 1.5 2.1 2.7 x La loi des grands nombres dit que : Fig. 3.3 Histogramme et fonction de densité A x i+1 x i f(x)dx n + En d autres termes l histogramme converge vers la fonction de densité lorsque n tend vers l infini et l intervalle de classe tend vers. Théorème 6.2.7 (Théorème de limite centrale). Soient Y 1, Y 2,... une suite de variables aléatoires réelles indépendantes et identiquement distribuées, d espérance mathématique µ et de variance σ finies. Alors la distribution de Z n = Y 1 + + Y n nµ σ n tend vers la distribution normale réduite quand n tend vers +, c est-à-dire que : Démonstration Admise. P (Z n a) 1 2π a n + e x2 2 dx = φ(a)

56 CHAPITRE 3. PROBABILITÉS.25.2.15.1.5 5 1.25.2.15.1.5 5 1.25.2.15.1.5 5 1.25.2.15.1.5 5 1 Fig. 3.4 5 données d une loi uniforme sur [,12].25.2.15.1.5 5 1.25.2.15.1.5 5 1.25.2.15.1.5 5 1.25.2.15.1.5 5 1 Fig. 3.5 Convergence de l histogramme vers la fonction de densité (n=1,5,1,5) Exemple 6.2.8. Lorsque les Y i sont des variables de Bernouilli de paramètre p, le théorème précédent nous donne : ( ) Y1 + + Y n np P β φ(β) npq n + Pour n assez grand ceci nous permet de calculer : ( P α Y ) 1 + + Y n np β φ(β) φ(α) npq La valeur de n à partir de laquelle on peut confondre les deux quantités dépend de la valeur du paramètre p, mais si p est compris entre,1 et,9 alors on peut pratiquement faire l approximation à partir de n = 3. Exemple 6.2.9. Soit X une variable aléatoire continue uniforme sur [, 12]. On définit alors : et Ȳ n : Ω n R ω = (ω 1,..., ω n ) Ȳn(ω) = 1 n Y i (ω) = 1 n n n X(ω i ) Z n = Ȳn µ σ/ n avec µ = E(X) = 2.5 et σ 2 = V ar(x) = 12 alors Z n Z : N (, 1) n +

6. THÉORÈMES LIMITES 57.1.1.5.5 9 1 11 9 1 11.1.1.5.5 9 1 11 9 1 11 Fig. 3.6 5 données d une loi N (1, 25).1.1.5.5 9 1 11 9 1 11.1.1.5.5 9 1 11 9 1 11 Fig. 3.7 Convergence de l histogramme vers la fonction de densité (n = 1, 5, 1, 5) Ȳ n Z : N (µ, σ2 n ) n +.15.2.1.5 5 1.15.1.5 5 1.3.3.2.2.1.1 5 1 5 1 Fig. 3.8 Théorème limite centrale dans le cas d une loi uniforme sur [, 12] (n = 1, 2, 3, 5). Remarque 6.2.1. Ce théorème, comme nous l avons déjà dit en introduction de cette section, est la justification théorique de l emploi fréquent de la loi normale. Lorsque l on étudie par exemple le rendement d une céréale, ce rendement est en fait une moyenne et cette moyenne suit approximativement une loi normale.

58 CHAPITRE 3. PROBABILITÉS 1.8.6.4.2 5 1 1.8.6.4.2 5 1 1.8.6.4.2 5 1 Fig. 3.9 Théorème limite centrale dans le cas d une loi uniforme sur [, 12] (n = 1, 2, 5).

Chapitre 4 Théorie de l échantillonnage 1 Modélisation des variables 1.1 Introduction L objet de cette section est la modélisation des données. Il faut ici entendre le terme modélisation dans le sens de la modélisation mathématique ou de la formalisation mathématique 1. On s intéresse donc à l art de représenter à l aide d objets mathématiques des situations concrètes. Nous n aborderons ici la modélisation mathématique que dans le cadre très restreint de l estimation et de la théorie des tests statistiques 2. Le premier point à aborder concerne donc le passage de la question de départ à son écriture mathématique ; par exemple comment écrivons nous le problème de l estimation d un taux de germination et par quel objet mathématique représentons nous ce taux de germination. 1.2 Variable aléatoire Exemple 1.2.1. Taux le germination Considérons l exemple d un taux de germination. Soit donc T une variété fixée de tournesol. Le taux de germination est le pourcentage de graines qui germent quand on met à germer les graines de cette variété T. Il nous faut pour définir rigoureusement ce taux de germination bien définir la population G sur laquelle nous travaillons. En effet les conditions dans lesquelles on met à germer les graines comme la température, l éclairage,... peuvent influencer ce taux de germination. Définir G, c est donc non seulement définir rigoureusement la variété, mais aussi les conditions expérimentales. Cette population est a priori infinie car on peut considérer les graines qui existent aujourd hui, mais aussi celle à venir dans un an, dans 2 ans,... Une fois la population G définie, on peut écrire la fonction de G à valeurs dans {, 1} suivante : X : G {, 1} g si g ne germe pas g 1 si g germe. Cette fonction est une variable aléatoire de loi de Bernoulli de paramètre p = P (X = 1) = E(X) où p exprimé en pourcentage n est autre que le taux de germination. On peut donc définir le taux de germination, exprimé comme un nombre dans l intervalle [, 1], comme étant l espérance mathématique, c est-à-dire la valeur moyenne, de la variable aléatoire X. Estimer un taux de germination, c est donc trouver une valeur approchée du paramètre p de la loi de Bernoulli de la variable aléatoire X. Exemple 1.2.2. Le 29 mai 25 les électeurs français seront appelés à se prononcer pour ou contre le projet de traité établissant une constitution pour l Europe 3. Si notre objectif est de savoir si la constitution sera acceptée ou non, il faut considérer comme population l ensemble des bulletins exprimés, c est-à-dire l ensemble des bulletins oui 1 Le terme de modélisation mathématique est, à notre grand regret, souvent galvaudé. Il signifie souvent l utilisation de modèles déjà établis. Mais l art de la modélisation, c est-à-dire l art de construire des modèles mathématiques, est difficile. Newton a dû, pour trouver la loi de la gravitation universelle, construire la notion de dérivée! 2 La modélisation mathématique intervient aujourd hui dans tous les domaines scientifiques : l environnement, la science du climat, la biologie, l économie,... Elle utilise des notions mathématiques très variées et parfois très complexes : équations différentielles ordinaires et stochastiques, équations aux dérivées partielles, chaînes de Markov,... La modélisation étudiée ici est donc un cas très particulier. 3 Nous avons fini de rédiger ce chapitre une semaine avant le référendum 59

6 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE ou non 4. Soit P cette population, nous pouvons alors définir la variable aléatoire X suivante : X : P {, 1} b si le bulletin b est non b 1 si le bulletin b est oui. X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentage des électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors de connaître la valeur de ce paramètre et plus précisemment de savoir si cette valeur est supérieure ou inférieure à 1/2. Remarque 1.2.3. Dans l exemple précédent, nous avons considéré le cas d un référendum et non celui d un sondage d opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenues à partir de bulletins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En effet, on n est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu elles pensent et on ne sait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nous n avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante en pratique qu il faut toujours garder à l esprit. Nous n aborderons pas cette question dans ce cours, question qui est totalement dépendante du domaine d application. La collecte des données pour un référendum ou celle pour l étude de la pollution d une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par un spécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables. Exemple 1.2.4. Considérons maintenant un cas d école qui nous sera très utile pédagogiquement. La population U étudiée est une urne remplie de boules blanches et noires. On définit alors la variable aléatoire suivante X : U {, 1} b si b est noire b 1 si b est blanche. X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage de boules blanches dans l urne. On voit donc ici qu estimer un taux de germination, un pourcentage de réponses par oui à un référendum ou un pourcentage de boules blanches dans une urne contenant des boules blanches et noires, sont des problèmes identiques. Exemple 1.2.5. On s interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminée P, par exemple la population française. On définit alors la variable aléatoire X : P {marron,noir, bleu,vert,autre} 1 individu la couleur de ses yeux. Ce qu on désire connaître c est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert et autre, c est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), et P (X = autre). Exemple 1.2.6. On s intéresse au rendement exprimé en quintaux à l hectare d une variété fixée de tournesol T. Définissons la variable aléatoire suivante : X : P R une culture le rendement de cette culture. Il faut là encore bien définir la population P. On doit en autre préciser : la variété T ; le type de terrain ; 4 En France les bulletins blancs sont considérés comme des bulletins nuls et ne sont donc pas des suffrages exprimés. Ceci n est pas le cas dans tous les pays.

1. MODÉLISATION DES VARIABLES 61 la taille des parcelles, leurs expositions,... ; les conditions de cultures ;... Le rendement est alors définie comme l espérance mathématique de cette variable : µ = E(X). Estimer un rendement, c est donc encore trouver une valeur approchée de l espérance mathématique d une variable aléatoire. Nous supposerons en pratique pour cela que la loi de cette variable aléatoire (qui est une loi de probabilité sur R) est normale de paramètre µ et σ. On écrira que X suit une loi N (µ, σ 2 ) (attention nous mettons la variance σ 2 et non l écart type dans N (µ, σ 2 )). Ceci n est bien sûr qu un modèle. En effet, un rendement est toujours positif et donc on sait que P (X < ) =. Or, si X suit une loi normale, cette quantité est ègale à 1 2πσ e (x µ)2 /(2σ 2) dx, qui est strictement positif. Cependant, cette dernière quantité sera en pratique extrêment faible (voir l exercice 6.1.2). Elle ne remettra donc pas en cause le modèle choisi. Remarque 1.2.7. Le choix d une loi de probabilité d une variable aléatoire comme le rendement n est pas toujours évident. Il se fait en pratique à partir de la connaissance que l on peut avoir a priori. La justification théorique de l emploi de la loi normale vient du théorème limite central. On peut en effet penser que le rendement obtenu est le résultat moyen d un grand nombre de variable indépendantes (de variances majorées). Le théorème limite central nous dit alors que la loi de probabilité qui en résulte est très proche d une loi normale. Nous mettons cependant en garde le lecteur sur l utilisation parfois abusive de cette loi normale. Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l année 25 les variables suivantes : le sexe, la taille, la couleur des yeux, et leurs ressources annuelles. On définit en fait ici le vecteur aléatoire de dimension 5 suivant : X : P {M, F } R R {marron,noir,bleu, vert,autre} R un étudiant (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles). Les applications composantes de X définissent cinq variables aléatoires X 1, X 2, X 3, X 4, X 5 qui sont définies sur le même espace de départ que X : P et qui représentent respectivement les variables sexe, taille, poids, couleur des yeux et ressources. La variable couleur des yeux s écrit par exemple X 4 : P {marron,noir,bleu, vert,autre} un étudiant la couleur de ses yeux. On peut donc parler ici de l indépendance ou non de ces variables aléatoires (X 1, X 2, X 3, X 4, X 5 ). Ces exemples montrent clairement que l on formalise toujours les variables étudiées par des variables aléatoires. Il faudra toujours en pratique bien préciser ces variables aléatoires, c est-à-dire la population de départ et l application elle même. En effet les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillon de la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle on a extrait l échantillon et uniquement celle-ci. Précisons aussi que les termes de population et d individu sont à prendre dans leur sens statistique. Ainsi, dans l exemple 1.2.6 un individu est en fait une culture sur une parcelle. On parle aussi parfois d unité expérimentale au lieu d individu. On emploie aussi le terme de caractère au lieu de variable. En conclusion une variable sera en fait une variable aléatoire X : P C ω X(ω), où la population P est en terme de probabilité un espace fondamental ; un individu ω est un élément de la population P ; C est l ensemble des valeurs que peut prendre la variable aléaloire. Ce que l on souhaite connaître en pratique c est la loi de cette variable aléatoire, ou la valeur de certain de ses paramètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En effet, une variable aléatoire X de P à valeurs dans C est en fait une fonction parfaitement déterninée qui permet de transposer une probabilité d un espace probabilisé dans un autre. Une variable aléatoire n est donc pas une variable dans le sens mathématique du terme puisque c est une fonction ; et cette fonction est parfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu une variable aléatoire, c est comme le Saint Empire Romain Germanique : il n était pas saint, ce n était pas un empire et il n était pas romain!!!

62 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE 2 Introduction à la théorie de l échantillonnage 2.1 Modélisation des données On considère les données de la tables 4.1, [5]. Ces données, notées (y 1,..., y n ) sont des longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile. Ces 5 données sont 5 réalisations ou 5 observations de la variable aléatoire X : P C une gélinotte la longueur de sa rectrice centrale. où P est la population des gélinottes huppées mâles juveniles. Il s agit d un premier point de vue. C est celui-ci qui est pris en considération lorsque l on représente graphiquement les données (voir la figure 4.1). 153 165 16 15 159 151 163 16 158 149 154 153 163 14 158 15 158 155 163 159 157 162 16 152 164 158 153 162 166 162 165 157 174 158 171 162 155 156 159 162 152 158 164 164 162 158 156 171 164 158 Tab. 4.1 Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile Mais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C est ce deuxième point de vue qui est pris en considération lorsque l on fait une estimation ou un test statistique et que nous allons présenter maintenant. Pour cela, on considère le vecteur aléatoire suivant : Y = (Y 1,..., Y 5 ) : Ω R 5 g = (g 1,..., g 5 ) Y (g) = (X(g 1 ),..., X(g 5 ), où l ensemble Ω est l ensemble de tous les échantillons de taille 5 extraits de la population P, c est-à-dire que Ω = {g = (g 1,..., g 5 ) P 5 g i g j pour i j}. Y (g) est donc un vecteur contenant les 5 longeurs de la rectrice centrale des 5 gélinottes de l échantillon g. Les données de la table 4.1 sont alors une réalisation (ou une observation) de ce vecteur aléaloire Y. En résumé les deux points de vues modélisant les données sont : l échantillon (y 1,..., y n ) représente n observations de la variable aléatoire X ; l échantillon (y 1,..., y n ) représente une onservation du vecteur aléatoire Y. Nous allons maintenant voir ce que permet ce deuxième point de vue. 2.2 Exemple de l urne Nous commençons par l étude du cas d école d une urne rempli de boules blanches et noires. L intérêt de cet exemple, outre sa simplicité, est de bien comprendre la différence entre ce que nous appellerons un échantillonnage avec remise et un échantillonnage sans remise. Tirage avec remise Considérons l expérience qui consiste à tirer avec remise n boules d une urne contenant 5 boules blanches et 15 boules noires. Nous nous intéressons maintenant à la variable aléatoire suivante : Ȳ : U n {, 1/n, 2/n,..., n/n} b = (b 1, b 2,..., b n ) (le nombre de boule blanches parmi {b 1, b 2,..., b n })/n.

2. INTRODUCTION À LA THÉORIE DE L ÉCHANTILLONNAGE 63 2 1.5 1 1.5 14 15 16 17 18 longueur 14 15 16 17 longueur.8.6.4.2 15 16 17 longueur Fig. 4.1 Données, boîte à moustaches et histogramme Nous allons écrire Ȳ comme la moyenne de n variables aléatoires de loi de Bernoulli indépendantes. Nous en déduirons alors la loi de Ȳ. Pour cela on considère la variable aléatoire X de loi de Bernoulli de paramètre p = 5/2 = 1/4 X : U {, 1} une boule si la boule est noire une boule 1 si la boule est blanche. On construit alors le vecteur aléatoire Y de dimension n Y = (Y 1,..., Y n ) : U n {, 1} n b = (b 1,..., b n ) Y (b) = (Y 1 (b),..., Y n (b)) = (X(b 1 ),..., X(b n )). Ainsi Y est le vecteur aléatoire de dimension n qui associe à chaque tirage le n-upplet de et de 1 suivant la couleur des boules tirées. La i-ème composante de Y, Y i, représente quant à elle, l application qui a un échantillon associe 1 si la i-ème boule tirée est blanche et si elle est noire. Cette variable aléatoire Y i s écrit alors Y i : U {, 1} (4.1) b Y i (b) = X(b i ). (4.2) (4.3)

64 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE On considère maintenant la fonction M définie par M : R n {, 1/n,..., n/n} y = (y 1,..., y i ) M(y) = ȳ = 1 n y i. n On peut alors écrire la variable aléatoire Ȳ comme la composée des fonctions M et Y : Ȳ = M Y = M(Y ). Ce qui donne ici : Ȳ = 1 n Y i n Le tirage étant avec remise, les variables aléatoires (Y i ) ont la même loi que X et sont indépendantes. Par suite nȳ = n Y i suit une loi binômiale de paramètre n et p = 1/4 et la loi de Ȳ est donnée par P (Ȳ = k/n) = P (nȳ = k) = Ck n(1/4) k (3/4) n k. Remarque 2.2.1. (i) Rappelons que dire que les variables aléatoires (Y i ) i et X ont la même loi signifie que les lois de probalilités définies par ces variables aléatoires sur leur espace d arrivée, ici sur {, 1} sont identiques. Cela ne signifie en aucun cas que ces variables aléatoires sont égales (si tel était le cas elles ne pourraient pas être indépendantes). (ii) Les variables aléatoires Y i et Y sont toutes définies sur le même espace de départ. C est l espace d échantillonnage, l ensemble de tous les tirages avec remise de n boules ici, c est-à dire U n. L écriture Ȳ = (1/n) n Y i a donc bien un sens ; il s agit de l égalité de deux fonctions. Les théorèmes de la théorie des probabilités nous permet alors d obtenir simplement l espérance mathématique et la variance de Ȳ. E(Ȳ ) = 1 n E(Y i ) = 1 n p = p n n ( V ar(ȳ ) = 1 n ) n 2 V ar Y i = 1 n n 2 V ar(y i ) = 1 n 2 n pq = pq n car les (Y i ) i sont indépendantes Tirage sans remise On considère maintenant le cas où le tirage est sans remise. Le nombre de boules n tirées est alors bien évidemment inférireur au nombre N = 2 de boules totales dans l urne. Dans ce cas, nous avons les mêmes expressions pour les variables aléatoires Y, (Y i ) i et Ȳ excepté que l espace de départ, c est-à-dire l espace déchantillonnage, n est plus U n mais est Ω = {b = (b 1,..., b n ) U b i b j pour tout i j}. Les (Y i ) i ont toujours la même loi que X, mais elles ne sont plus indépendantes. En effet la probabilité d avoir une boule blanche à la deuxième boule diffère suivant le résultat de la première boule. La loi de nȳ est alors la loi hypergéométrique de paramètre N = 2, n, p = 1/4. Par suite la loi de Ȳ est donnée par P ( Ȳ = k ) = Ck n 1Cn n k 2. n Nous avons toujours pour l espérance mathématique E(Ȳ ) = p, mais la variance n a plus la même valeur. On démontre qu elle est égale à : V ar(ȳ ) = N n pq N 1 n. La figure 4.2 représente les lois de Ȳ pour différentes valeurs de n et de p pour les échantillonnage avec remise et sans remise. C k N

2. INTRODUCTION À LA THÉORIE DE L ÉCHANTILLONNAGE 65.5.4 avec remise sans remise.3.2.1.2.2.4.6.8 1 1.2 k/n.5.4 avec remise sans remise.3.2.1.2.2.4.6.8 1 1.2 k/n Fig. 4.2 Loi de.5, N = 16) Ȳ pour l échantillonnage sans remise et avec remise (n = 5, p = 1/3, N = 15 et n = 4, p = 2.3 Exemple du référendum Reprenons l exemple 1.2.2. Notons N le nombre totale de suffrage exprimés et supposons que quelques instants après la fermeture des bureaux de vote on ait connaissance du résultat sur n bulletins exprimés pris au hasard dans la population P. On s intéresse alors à la variable aléatoire suivante : Ȳ : Ω {, 1/n, 2/n,..., n/n} b = (b 1, b 2,..., b n ) (le nombre de bulletin oui parmi les bulletins {b 1, b 2,..., b n })/n, où Ω = {b = (b 1,..., b n ) U b i b j pour tout i j}. Nous sommes donc exactement dans le cas d un échantillonnage sans remises car on a en pratique jamais dans un échantillon deux fois le même bulletin de vote. Nous avons donc comme précédemment pour nȳ une loi hypergéométriques de paramètre N, n et p, et l espérance mathématique et la variance de Ȳ ont pour valeurs E(Ȳ N n pq ) = p et var(ȳ ) = N 1 n. Un premier problème est qu en pratique N est inconnu. Fort heureusement n est très inférieur à N. Ceci a pour conséquence que l on peut considérer le tirage sans remise comme un tirage avec remise (une règle empirique est n < (N/1)). On peut donc considérer ici que nȳ suit une loi binômiale de paramètres (n, p). On peut de plus ici faire une deuxième approximation. En effet, lorsque p n est pas trop proche de ou de 1, on peut approximer la loi binômiale par une loi normale. La table 4.2 donne une règle pratique pour que cette approximation soit correcte.

66 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE Paramètre p Valeur minimale de n pour une approximation par la loi normale.5 3.4 5.3 8.2 2.1 6.5 14. poisson Tab. 4.2 Approximation d une loi binômiale par une loi normale Dans le cas d un référendum, nous sommes donc dans le cas favorable où l on peut considérer que Ȳ suit une loi N (p, pq/n). Or on sait (voir l exercice 6.1.2) que dans le cas d une loi normale on a P (µ 1, 96σ X µ + 1, 96σ) =.95 (4.4) Supposons maintenant que la proportion dans la population de oui soit exactement de 5%, nous avons alors p =.5, et supposons que n = 1. La formule 4.4 donne alors P (.497 Ȳ.53) =.95 (µ = p et σ = pq/n). Ceci signifie concrètement que l on a 95 chance sur 1 d avoir une proportion de oui dans l échantillon de taille n = 1 compris entre 49.7% et 5.3%. Remarque 2.3.1. (i) Le soir du référendum, les estimations sont données dès la fermeture des bureaux de vote des grandes villes. Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommes donc pas en réalité dans le cas exposé ici où l échantillon est supposé être pris totalement au hasard dans la population. Une deuxième différence est qu en pratique c est le nombre total d électeurs dans chaque commune test qui est fixé au départ, et non pas le nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteur intéressé pourra consulter les ouvrages suivants [1] et [6]. (ii) Si n = 1 l intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur des effectifs inférieurs à 1 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines que l échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données et le nombre d indécis déjà mentionnées, est plus proche de ±5%, voir plus! À notre avis, les journalistes et commentateurs politiques feraient mieux d utiliser les temps d antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n apportent que peu d informations. Les résultats obtenus sur cet exemple peuvent être schématisés par le schéma 4.3. X : P : {, 1} de loi B(p) p = proportion de oui dans la population P Échantilonnage Y = (Y 1,..., Y n ) : P n {, 1} n Statistique M Ȳ = M(Y ) : P n R Ȳ : N (p, pq/n) Fig. 4.3 Échantillonnage de la moyenne pour un référundum L objet de la théorie de l échantillonnage est d étudier ce schéma et les propriétés des variables aléatoires M(Y ) lorsque M est la moyenne ou une autre fonction.

3. ÉCHANTILLONNAGE 67 Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n. Leur objectif est alors d en déduire de l information sur le paramètre p. Ce problème d estimation, qui sera traité au chapitre sur l estimation, est le processus inverse de celui de l échantillonnage vu ici. En effet la théorie de l échantillonnage part de la population pour étudier ce qui se passe sur l ensemble de tous les échantillons de taille n alors que la théorie de l estimation part d un échantillon pour obtenir des informations sur la population. 3 Échantillonnage 3.1 Échantillon D une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans un ensemble C qui modélise la variable que l on désire étudier. On construit ensuite le vecteur aléatoire Y suivant : Y = (Y 1,..., Y n ) : Ω C n ω = (ω 1,..., ω n ) Y (ω) = (Y 1 (ω),..., Y n (ω)) (4.5) = (X(ω 1 ),..., X(ω n )), où Ω est l espace déchantillonnage. Ω = P n si l échantillonnage est avec remise et si l échantillonnage est sans remise. Ω = {ω = (ω 1,..., ω n ) P ω i ω j pour tout i j}, (4.6) Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire de la variable aléatoire X le vecteur aléatoire Y = (Y 1,..., Y n ). Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une observation (y 1,..., y n ) du n-échantillon aléatoire. Remarque 3.1.3. Un n-échantillon n est pas autre chose que les données relatif à la variable étudiée. Remarque 3.1.4. (i) Comme nous l avons déjà mentionné, les variables aléatoire (Y i ),n sont définies sur le même espace Ω que le n-échantillon aléatoire Y. Nous pouvons donc parler de l indépendance ou de la non indépendance de ces variables aléatoires (Y i ) i. (ii) Les variables aléatoires (Y i ) i sont à valeurs dans le même ensemble que la variable aléatoire X et leurs lois sont identiques à celle de X. (iii) Nous avons en fait la relation suivante Y i (ω) = X(ω i ), (4.7) où l indice i est à gauche sur la vecteur aléatoire Y et à droite sur l argument de la variable aléatoire X. Définition 3.1.5 (Échantillon aléatoire simple Échantillon Bernoullien). On appelle échantillon aléatoire simple ou échantillon Bernoullien tout n-échantillon aléatoire d une variable aléatoire X où les variables aléatoires (Y i ) i sont indépendantes. Lorsque l échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n est plus le cas si l échantillonnage est sans remise. Cependant si la taille déchantillon n est très petite devant la taille de la population N (en pratique si (n/n) <.1) alors on peut approximer l échantillonnage sans remise par un échantillonnage avec remise. Dans ce cas des théorèmes de la théorie des probabilités nous permet, connaissant la loi de X, de déterminer la loi de Y. Théorème 3.1.6. Soit P une population et X une variable aléatoire (X : P C) sur cette population. Soit (Y 1,..., Y n ) un n-échantillon Bernoullien, alors les n variables aléatoires Y 1,..., Y n ont pour loi la loi de X, sont indépendantes et Y = (Y 1,..., Y n ) est une variable aléatoire à n dimensions : de loi : (i) Si X est discrète : P C n(y = (y 1,..., y n )) = Y : Ω C n n P C (Y i = y i ) = n P C (X = y i ). (4.8) (ii) Si X est continue de fonction de densité f(x), Y a pour densité : n g(y) = f(y i ) ; où y = (y 1,..., y n ). (4.9)

68 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE 3.2 Schéma général Dans toute cette section la variable aléatoire sera réelle. Définition 3.2.1 (Statistique). Soit X une variable aléatoire réelle définie sur une population P. Soit Y = (Y 1,..., Y n ) un n-échantillon aléatoire. On appelle statistique toute variable aléatoire S de R n à valeurs dans R, la loi de probabilité sur R n étant la loi du n-vecteur aléatoire Y. Ω. Si S est une statistique alors S Y = S(Y ) est une variable aléatoire reélle définie sur l espace d échantillonnage Exemple 3.2.2. Si nous reprenons l exemple des tirages d une urne (voir la sous section 2.2) ou d un référendum (voir la sous section 2.3), la variable aléatoire M définie sur R n et à valeurs dans R est la fonction qui à n nombres réels (y 1,..., y n ) associe leur moyenne M(y) = ȳ = (1/n) i y i est une statistique et M(Y ) = Ȳ. D une façon générale nous avons donc le schéma 4.4 X : P R Échantilonnage Y = (Y 1,..., Y n ) : Ω R n ω = (ω 1,..., ω n ) Y (ω) = (Y 1 (ω),..., Y n (ω)) (X(ω 1 ),..., X(ω n )) Statistique S S Y = S(Y ) : Ω R ω S(Y (ω)) Fig. 4.4 Schéma général Définition 3.2.3 (Distribution déchantillonnage). On appelle distribution d échantillonnage d une statistique S la loi de probabilité de la variable aléatoire S. Si on connaît la loi de probabilité du n-échantillon aléatoire Y, on peut espérer en déduire des caractéristiques comme l espérance mathématique ou la variance, voire la loi, de la statistique S pour certaines fonction S. Ceci est l objet des sous-sections suivantes pour des fonctions qui interviennent souvent en statistique. 4 Distribution d échantillonnage de certaines statistiques 4.1 Distribution déchantillonnage de la moyenne On considère dans cette sous section la statistique On a donc et la loi de M est celle de Ȳ. M : R n R y = (y 1,..., y n ) M(y) = ȳ = 1 n n y i. M(Y ) = 1 n Y i = n Ȳ, (4.1)

4. DISTRIBUTION D ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 69 Théorème 4.1.1. Supposons que le caractère X admettent une espérance mathématique µ et un écart-type σ fini alors : (i) E(Ȳ ) = µ. (ii) Si l échantillon est Bernoullien alors V ar(ȳ ) = σ2 n. (iii) Si l échantillon est sans remise et que la taille de la population est N alors : Démonstration V ar(ȳ ) = N n σ 2 N 1 n. (i) La linéarité de l espérance mathématique implique immédiatement : E(Ȳ ) = E ( 1 n (ii) Les propriétés de la variance impliquent : ) n Y i = 1 n V ar(ȳ ) = V ar ( 1 n n E(Y i ) = 1 n n µ = µ. ) n Y i = 1 n n 2 V ar( Y i ). De plus les (Y i ) i sont indépendants. Par suite nous avons : V ar(ȳ ) = 1 n 2 n V ar(y i ) = σ2 n. (iii) admise Théorème 4.1.2. Si X suit une loi normale N (µ, σ 2 ) et si l échantillon est Bernoullien alors normale N (µ, σ 2 /n). Ȳ suit une loi Démonstration Cela provient du théorème précédent et du fait qu une somme de variables aléatoires de lois normales indépendantes est une variable aléatoire de loi normale. Théorème 4.1.3. Soit X une variable aléatoire de moyenne µ et de variance σ 2 finie et soit (Y 1,..., Y n ) un n-échantillon Bernoullien. Alors Ȳ suit asymptotiquement une loi normale. Démonstration D après le théorème centrale limite la loi de la variable aléatoire Z n = Y 1 + + Y n nµ σ n = Ȳ µ σ n converge lorsque n tend vers + vers la loi normale réduite. Par suite Ȳ = σ n Z n + µ a asymptotiquement le même comportement qu une loi N (µ, σ2 n ). Remarque 4.1.4. Le théorème précédent signifie concrètement que pour n grand (n 3 en pratique) on peut σ2 approximer la loi de Ȳ par la loi normale N (µ, n ).

7 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE 4.2 Distribution d échantillonnage de la variance On considère dans cette sous section la statistique que nous appellerons variance déchantillon et que nous noterons S 2 S 2 : R n R y = (y 1,..., y n ) S 2 (y) = 1 n où ȳ est la moyenne arithmétique des y 1,..., y n. On peut alors voir que n (y i ȳ) 2, S 2 (Y (ω)) = 1 (Y i (ω) n Ȳ (ω))2 = 1 (X(ω i ) n Ȳ (ω))2. (4.11) i Théorème 4.2.1. Supposons que X admette des moments centrés jusqu à l ordre 4 finis. Alors : (i) Si l échantillon est Bernoullien : E(S 2 ) = n 1 n σ2, V ar(s 2 ) = µ 4 σ 4 2(µ 4 2σ 4 ) n n 2 + µ 4 3σ 4 n 3, Cov(M, S 2 ) = Cov(Ȳ, S2 (Y )) = n 1 n 2 µ 3. (ii) Si l échantillon est sans remise et que la taille de la population est N alors : E(S 2 ) = N n 1 N 1 n σ2. (iii) Si X suit une loi normale N (µ, σ 2 ) et si l échantillon est Bernoullien alors : Ȳ et S 2 (Y ) sont indépendantes. V ar(s 2 2(n 1) ) = n 2 σ 4 et ns 2 /σ 2 suit une loi du χ 2 à n 1 degrés de liberté. Démonstration (i) On admettra le resultat pour V ar(s 2 ). Quant à la covariance il suffit d écrire : E(S 2 (Y )) = E ` P 1 n n (Yi P µ + µ Ȳ )2 1 = n n E((Yi µ)2 ) + 1 P n n E((Ȳ µ)2 ) 2 n E(P n (Yi µ)(ȳ µ)) = σ 2 σ + 2 n 2 n E((Ȳ µ)(nȳ nµ)) n 1 = n σ2 Cov(Ȳ, S2 (Y )) = E((Ȳ µ)(s2 n 1 n σ2 )) = E((Ȳ µ)s2 ) n 1 n σ2 E(Ȳ µ)! = E((Ȳ µ) 1 nx (Y i µ) 2 (Ȳ n µ)2 1 nx nx = n E( (Y 2 i µ) (Y i µ) 2 ) 1 n (E( X n (Y 3 i µ)) 3 ) = µ3 n µ3 n = n 1 2 n µ3, 2 car les Y i sont indépendants et donc Cov(Y i, Y j) = si i j. (ii) admise. (iii) On déduit de (i) que si X est normale alors Cov(Ȳ, S2 (Y )) = car le moment centré d ordre 3 d une loi normale est nul. Mais ceci ne montre pas que les variables aléatoires Ȳ et S2 (Y ) soient indépendantes. Nous admettrons ici ce résultat. Pour démontrer la suite il suffit d écrire : ns 2 (Y ) 1 nx = σ 2 σ ( (Y 2 i µ) 2 n(ȳ µ)2 ) = P «! n Yi µ 2 2 Ȳ µ σ σ n = S 1 S 2 i

4. DISTRIBUTION D ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 71 Or si X suit une loi normale de paramètres (µ, σ), (Y i µ) σ suit une loi normale réduite et donc, puisque l échantillon (Y 1,..., Y n) est Bernoullien, S 1 suit une loi du χ 2 à n degrés de liberté. De plus S 2 suit aussi une loi du χ 2 à 1 degré de liberté et S 2 et S 2 sont indépendantes. Une propriété des lois du χ 2 permet alors de conclure. Une conséquence immédiate de ce résultat est alors que et donc que V ar( ns2 ) = 2(n 1) σ2 V ar(s 2 ) =! 2 σ2 2(n 1). n Pour illustrer la loi de ns 2 /σ 2 lorsque l échantillonnage est Bernoullien à l aide de la simulation, nous générons 5 échantillons de taille n = 6, y k1,..., y k6 pour k = 1,..., 5, provenant d une loi normale N (6, 12). Pour chacun de ces 5 échantillons nous calculons la quantité s 2 k = ns2 (y k1,..., y k6 ) 12 6 = (y ki ȳ k. ) 2 12 Les 5 valeurs s 2 k sont alors 5 observations de la variable aléatoire ns2 (Y )/σ 2. Nous effectuons une deuxième simulation de façon identique sauf que la loi de départ est une loi uniforme sur [, 12]. La figure 4.5 montrent les histogrammes pour chaque simulation de toutes les données génerées ainsi que des 5 valeurs (s 2 1,..., s 2 5). Nous avons rajouté sur ces graphiques les lois de départ pour les données et la loi du χ 2 à ν = n 1 = 5 degrés de liberté pour les valeurs simulées. Nous pouvons observer que lorsque la loi de départ est normale, l histogramme colle très bien à la fonction de densité de la loi du χ 2 à 5 ddl, ce qui n est plus le cas lorsque la loi de départ est une loi uniforme..15 Données: N(6,12).1 Données: U([,12]).8.1.6.5.4.2.2 5 1 15 SCE/sigma²: Loi du Khi 2 à 5ddl 5 1 SCE/sigma²: Non loi du Khi 2 à 5ddl.2.15.15.1.1.5.5 5 1 5 1 Fig. 4.5 Simulation loi du χ 2 à 5 ddl (5 échantillons). Statistique : ns 2 /σ 2

72 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE 4.3 Distribution d échantillonnage de T Dans les théorèmes précédents on a vu que si la variable aléatoire X suit une loi normale et si l échantillon est Bernoullien alors la variable aléatoire Ȳ µ σ n suit une loi normale centrée réduite. L approximation étant encore valable si X adment une espérance mathématique µ et une variance σ 2 finies et si n est grand (n 3 en pratique). Mais dans la réalité nous ne connaissons pas σ et il est donc logique de ce demander ce qui ce passe si on renplace σ par n n 1 S2 (Y ). C est ce que nous allons étudier maintenant. Théorème 4.3.1. Si (Y 1,..., Y n ) est un échantillon Bernoullien et si X suit une loi normale de paramètre (µ, σ), alors la statistique : T = M µ S 2 suit une loi de Student à (n 1) degrés de liberté. Démonstration On a : avec T = n 1 q U, Z ν U = M µ σ n de loi N (, 1), Z = ns2 σ 2 de loi χ 2 ν=n 1 degrés de liberté, et U et Z indépendantes. Par suite T suit une loi de Student à n 1 degrés de liberté. 4.4 Distribution d échantillonnage du rapport de variance Nous allons maintenant nous intéresser à la distribution d échantillonnage du rapport de variance. Théorème 4.4.1. On considère deux caractères X 1 et X 2 de loi normale respectivement N (µ 1, σ1) 2 et N (µ 2, σ2). 2 Soient deux échantillons Bernoullien indépendants (Y 11,..., Y 1n1 ) et (Y 21,..., Y 2n2 ). Si S1 2 (respectivement S2) 2 est la statistique S1(y) 2 = 1 n1 n 1 (y 1i ȳ 1 ) 2 (respectivement S2(y) 2 = 1 n2 n 2 (y 2i ȳ 2 ) 2 ) alors la statistique : F = n 1 S 2 1 (n 1 1)σ 2 1 n 2 S 2 2 (n 2 1)σ 2 2 suit une loi de Fischer-Snedecor à n 1 1 degrés de liberté au numérateur et à n 2 1 degrés de liberté au dénominateur. Démonstration D après le théorème (4.2.1) n 1 S2 1 σ 1 2 (respectivement n 2 S2 2 σ 2 2 ) suit une loi du χ 2 à n 1 1 (respectivement n 2 1) degrés de liberté et les hypothèses du théorème impliquent que ces variables aléatoires sont indépendantes. On en déduit alors immédiatement le résultat en considérant la définition d une loi de Fisher-Snedecor. La figure 4.6 donne une illustration, via la simulation d une loi de Fisher à ν 1 = 5 ddl au nuérateur et ν 2 = 3 ddl au dénominateur. 4.5 Distribution d échantillonnage d une fréquence Nous allons terminer cette section en rappelant la distribution d échantillonnage d une proportion. Théorème 4.5.1. Soit X une variable aléatoire de Bernoulli de paramètre p et soit (Y 1,..., Y n ) un n-échantillon aléatoire. Posons S(y) = n y i et M(y) = 1 n n y i, alors : (i) si l échantillon est avec remise ou si la population est infinie S suit une loi binômiale de paramètre (n, p) et : E(S) = np V ar(s) = npq E(Ȳ ) = p V ar(ȳ ) = pq n

5. PRINCIPALES LOIS DE PROBABILITÉ 73.15 Données: N(2,9).2 Données: N(1,4).1.15.1.5.5 5 5 1 F: Loi Fisher à (5,3) ddl 5 5.6.4.2 2 4 6 8 Fig. 4.6 Simulation loi de Fisher à (5,3) ddl (5 échantillons). Statistique F (ii) si l échantillon est sans remise et si la population est finie (de taille N) S suit une loi hypergéométrique de paramètre (N, n, p). et E(S) = np V ar(s) = npq N n N 1 E(Ȳ ) = p V ar(ȳ ) = pq n N n N 1 Démonstration Cela provient tout simplement des définitions des lois binômiale et hypergéométrique. 5 Principales lois de probabilité Nous donnons dans les tableaux ci-après les principales lois de probabilités utilisées dans la pratique. Les 5 premières lois sont des lois discrètes et les suivantes sont continues. Pour chacune d entres elles nous donnerons tout d abord la définition ou un mécanisme permettant d obtenir une variable aléatoire suivant cette loi. Ensuite nous donnerons un exemple d utilisation de cette loi, puis la forme analytique de cette loi, c est-à-dire les quantités P (X = k) pour les lois discrètes et la fonction de densité f(x) pour les lois continues. Nous donnerons enfin les valeurs de leur principaux paramètres et nous visualiserons ces lois.

74 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE Nom et notation de la v.a. Définition ou mécanisme de construction Loi de Bernoulli : B(p) C est la loi d une variable aléatoire à valeur dans {, 1} Loi binômiale : B(n, p) Somme de n v.a.r. de loi de Bernoulli indépendantes. Loi Hypergéométirque : H(N, n, p) Nombre d individus possédant une propriété donnée parmi n prélevés au hasard (sans remise) dans une population générale de N individus dont n1 = Np jouissent de la dite propriété. Exemples de v.a. suivant la loi 1) Résultat du lancé d une pièce 2) Réponse à une question par oui ou non Nombre d individus possédant un caractère donné parmi n prélevés au hasard, avec remise, dans une population générale. nombre d individus ayant répondus oui à une question dans un échantillon de taille n provenant d une population de taille N dont la proportion de réponses oui est p dans toute la population. Définition analytique de la loi Valeur des paramètres de la distribution P (X = 1) = p P (X = ) = q p + q = 1 E(X) = p V ar(x) = pq P (X = k) = E(X) = np C n k pk q n k V ar(x) = npq P (X = k) = C k n1 Cn k N n1 C N n avec n1 = pn E(X) = np V ar(x) = n n 1 N 1 (1 p) 1 n N Représentation graphique P (X = k) q p 1 k n = 5 p =, 25 P (X = k).4 1 2 3 4 k N = 2 n = 5 p =, 25 P (X = k).44 1 2 3 4 k

5. PRINCIPALES LOIS DE PROBABILITÉ 75 Nom et notation de la v.a. Définition ou mécanisme de construction Loi multinômiale : C est la loi jointe de M(n, p1,..., pl) X(X1,..., Xl) où les Xi sont des v.a. binômiales de paramètres (n, pi). Loi de poisson : P(λ) C est la loi du nombre d apparitions pendant une unité de temps d un événement dont la réalisation ne dépend pas du nombre de réalisations passées et n influe pas sur les futures ; les épreuves se déroulant dans des conditions stationnaires. Exemples de v.a. suivant la loi Répartition d un échantillon exhaustif de taille n provenant d une population constituée de l classes C1,..., Cl 1) Nombre de personnes arrivant pendant une unité de temps à un guichet. 2) nombre de sinistres pendant une unité de temps dans une population donnée. Définition analytique de la loi P (X1 = k1,..., Xl = kl) = n! k1!... kl! pk 1 1... pk l l P (X = k) = λk k! e λ k =, 1, 2,... Valeur des paramètres de la distribution E(Xi) = npi E(X) = t (E(X1),..., E(Xl)) V ar(xi) = npiqi Cov(Xi, Xj) = npipj i j E(X) = λ V ar(x) = λ Représentation graphique Nous ne pouvons pas représenter graphiquement cette loi car il faudrait faire un dessin dans R l+1 λ =, 5 P (X = k).61.3.8 1 2 3 k

76 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE Nom et notation de la v.a. Définition ou mécanisme de construction Loi normale ou de Gauss : Les valeurs de la v.a. N (µ, σ2) résulte de l influence d un grand nombre de facteurs indépendants agissant sous forme additive, de façon telle que chaque cause partielle ait une variance faible par rapport à la variance résultante Loi normale de dimension n : N (µ, Γ) Loi lognormale : LN (µ, σ) Une v.a. suit une loi lognormale si son logarithme népérien suit une loi normale. Exemples de v.a. suivant la loi 1) taille d un individu 2) Rendement Définition analytique de la loi f(x) = 1 e 2πσ (x µ)2 2σ 2 1) (taille d un individu, poids d un individu). 2) Erreur de tir. f(x) = 1 (2π) n p 2 det(γ) t (x µ)γ 1 (x µ) e 2 où µ R n et Γ est une matrice carrée (n, n) réelle symétrique définie positive. Salaire (ln x ln µ)2 d un employé prélevé dans une population générale f(x) = 1 2πσx e 2σ 2 < x < + Valeur des paramètres de la distribution E(X) = µ V ar(x) = σ 2 E(X) = µ Γ = (γij)ij γij = Cov(Xi, Xj) σ 2 E(X) = µe 2 V ar(x) = µ 2 e σ2 (e σ2 1) Représentation graphique.4 f(x).35.3.25.2.15.1.5 3 2 1 1 2 3 n = 2, µ = Γ = 2 1 1 5 ««.6.5.4.3.2.1 2 4 6 5.7 f(x).6.5.4.3.2.1 1 2 3 4 5 4 2 x x 5

5. PRINCIPALES LOIS DE PROBABILITÉ 77 Nom et notation de la v.a. Définition ou mécanisme de construction Loi du Khi-2 à ν degrés de Une variable aléatoire liberté : χν réelle suit une loi de Khi-2 à ν degrés de liberté si elle est la somme de ν carrés de variables aléatoires réelles de loi normale réduite (i.e. N (, 1)) indépendantes. Loi de Student à ν degrés de liberté : tν Loi de Fisher à (ν1, ν2) degrés de liberté : Fν1,ν2 Soient Y une variable aléatoire de loi normale réduite et Z une variable aléatoire de loi du Khi-2 à ν degrés de liberté indépendantes. Alors la variables X = Y Z/ν suit une loi de Student à ν degrés de liberté. Soient X1 et X2 deux variables réelles de loi du Khi-2 à respectivement ν1 et ν2 degrés de liberté indépendantes. Alors X = (X1/ν1) (X2/ν2) suit une loi de Fisher à ν1 degrés de liberté au numérateur et à ν2 degré de liberté au dénominateur. Exemples de v.a. suivant la loi 1) Variance empirique d un échantillon de taille ν + 1 dont on ne connaît pas la moyenne. 2) Mesure de l écart entre des lois théorique et empirique Mesure normalisée de l écart de deux moyennes empiriques calculées sur deux échantillons indépendants d une population normale. Rapport de deux variances empiriques construites sur deux échantillons indépendants extraits d une population normale. Définition analytique de la loi ν f(x) = cx 2 1 e x 2 < x < + f(x) = c(1 + x2 ν )(ν+1)/2 f(x) = x ν1 2 1 (ν1x + ν2) (ν 1 + ν2) 2 Valeur des paramètres de la distribution E(X) = ν V ar(x) = 2ν E(X) = V ar(x) = ν ν 2 si ν > 2 E(X) = ν 2 ν2 2 si ν2 > 2 V ar(x) = 2ν 2 2 (ν 1 + ν2 2) ν1(ν2 2) 2 (ν2 4) Représentation graphique ν = 4.2 f(x).15.1.5 2 4 6 8 1 12 14 16 ν = 4.4 f(x).35.3.25.2.15.1.5 5 4 3 2 1 1 2 3 4 5 ν1 = 4 et ν2 = 6.7 f(x).6.5.4.3.2.1 1 2 3 4 5 x x x

78 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE 6 Exercices 6.1 Exercices avec corrigés Exercice 6.1.1 (Loi normale centrée réduite). L objectif de cet exercice est le calcul de probabilités dans le cas d une variable aléatoire U de loi normale centrée réduite N (, 1) en utilisant la table de cette loi. (i) Calculer P (1 U 2, 5). (ii) On note φ(u) = P (U u) = u f(x)dx la fonction de répartition de la loi normale centrée réduite. Démontrer que φ( u) = 1 φ(u). On utilisera le fait que la fonction de densité f(x) = (1/ 2π)e x2 est paire, c est-à-dire que f( x) = f(x) pour tout x. (iii) Calculer P (U 1). (iv) Calculer P (U [ 1, 2[). (v) Encadrer P (U 6). (vi) On note u p = φ 1 (p) le réel défini par (i) P (U u p ) = p Donner u.999. On cherchera cette valeur dans la table de la loi normale centrée réduite et dans la table de Student. correction. Voir la figure 4.7 P (1 U 2.5) = 2.5 1 f(x)dx = φ(2.5) φ(1) =.9938.8413 =.1525 = A.4.3 f(x).2.1 A 3 1 2.5 +3 x Fig. 4.7 Visualisation de la probabilité (ii) Graphiquement (voir la figure 4.8) la parité de la fonction de densité f(x) donne A 1 = φ( u) = P (U u) = P (X > u) = A 2 = 1 P (X u) = 1 φ(u) Montrons maintenant que A 1 = u f(x)dx = A 2. Pour cela on fait le changement de variable y = x dans l intégrale. On obtient alors u + A 1 = f( y)dy = f(y)dy = A 2 + u (iii) P (X 1) = φ( 1) = 1 φ(1) = 1.8413 =.1587 (iv) P (X [ 1, 2[) = φ(2) φ( 1) =.97725.1587 =.81855

6. EXERCICES 79.4.3 f(x).2.1 A 1 A 2 3 u u +3 x Fig. 4.8 Visualisation Φ( u) = 1 φ(u) (v) P (X 6) = + 6 f(x)dx = 1 φ(6). Or la fonction de répartition φ est strictement croissante de vers 1. Par suite on a φ(3.99) < φ(6) < 1 On en déduit 1 1 < 1 φ(6) < 1 φ(3.99) < 1 φ(6) < 1.99997 =.3 (vi) On a u.999 = 3.9. Remarque. La table de la loi normale centrée réduite donne la fonction de répartition φ(u p ) = p alors que la dernière ligne de la table de Student (degré de liberté égale à + ) donne la fonction inverse de la fonction de répartition φ 1 (p) = u p. Exercice 6.1.2 (Loi normale de paramètre µ et σ). L objectif de cet exercice est le calcul de probabilités dans le cas d une variable aléatoire X de loi normale N (µ, σ 2 ). On utilisera le fait que U = (X µ)/σ suit alors une loi normale centrée réduite. Soit X la variable aléatoire réelle X représentant le rendement d une céréale C. On suppose que X suit une loi normale de paramètres µ = 5q/ha et σ 2 = 5(q/ha) 2 (voir 1.2.6). (i) Formaliser cette variable aléatoire. (ii) Calculer P (X < ). Commentaires (iii) Calculer P (48 X 5) et représenter graphiquement cette probabilité. (iv) Quelle signification a la quantité ci-dessus? (v) Calculer P (µ 1, 96σ X µ + 1, 96σ). correction. (i) voir l exemple 1.2.6 (ii) (iii) P (X < ) = P ( X 5 5 < 5 5 ) = φ( 22.36) La vraie valeur de cette probabilité est car il est impossible d avoir un rendement négatif. Le calcul ici donne une valeur strictement positive, mais très faible. Le modèle considéré est donc rigoureusement faux. Cependant, l erreur faite est tout-à-fait négligeable. ( ) 48 5 5 5 P (48 X 5) = P U 5 5 ( = φ() φ 2 ) ( ( )) 2 = φ() 1 φ 5 5 Voir la figure 4.9. = φ() (1 φ(.89)) =.5 1 +.8133 =.3133

8 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE.18.16.14.12 f(x).1.8 A.6.4.2 44 46 48 5 52 54 56 x Fig. 4.9 P (48 X 5) = A =.3133 (iv) On a environ 31 chances sur 1 lorsque l on fait une culture dans les conditions expérimentales définies par la population P d avoir un rendement compris entre 48 et 5 q/ha. (v) En résumé on a donc ( (µ 1.96σ) µ P (µ 1, 96σ X µ + 1, 96σ) = P U σ Ceci est visualisé sur la figure 4.1 = P ( 1.96 U 1.96) = φ(1.96) φ( 1.96) = 2φ(1.96) 1 =.95 ) (µ + 1.96σ) µ σ P (µ 1, 96σ X µ + 1, 96σ) =.95 (4.12).18.16.14.12.1 A=.95 f(x).8.6.4.2 mu 1.96sigma mu mu+1.96sigma x Fig. 4.1 Visualisation de l équation 4.12 Exercice 6.1.3. On considère une urne U constituée de n 1 2 boules blanches et n 2 2 boules noires. On note N = n 1 + n 2 le nombre totale de boules dans l urne et p = n 1 /N. Soit X la variable aléatoire X : U {, 1} b si b est noire b 1 si b est blanche. On considère Y = (Y 1, Y 2 ) le 2-échantillon aléatoire de X et Ȳ = (1/2)(Y 1 + Y 2 ). (i) On suppose que l échantillonnage est avec remise (a) Quelles valeurs peut prendre Y.

6. EXERCICES 81 (b) Donner la loi de Y. (c) Quelles sont les lois de Y 1 et Y 2. (d) Écrire la variable aléatoire Ȳ. (e) Écrire Ȳ = M(Y ) (on précisera M). (f) Calculer, à partir de la loi de Y la loi de Ȳ. (g) Calculer, à partir de la loi de Ȳ l espérance mathématique et la variance de Ȳ. (ii) On suppose l échantillonnage sans remise (a) Quelles valeurs peut prendre Y. (b) Donner la loi de Y. (c) Quelles sont les lois de Y 1 et Y 2. (d) Écrire Ȳ = M(Y ) (on précisera M). (e) Calculer, à partir de la loi de Y la loi de Ȳ. (f) Calculer, à partir de la loi de Ȳ l espérance mathématique et la variance de Ȳ. correction. (i) (a) Le 2-échantillon aléatoire est défini par Y = (Y 1, Y 2 ) : U 2 {, 1} {, 1} b = (b 1, b 2 ) Y (b) = (Y 1 (b), Y 2 (b)) = (X(b 1 ), X(b 2 )). (b) Donc les valeurs possibles de Y sont (, ), (, 1), (1, ) et (1, 1). P (Y = (, )) = P (Y 1 = et Y 2 = ) = P (Y 1 = )P (Y 2 = ) = q 2 car Y 1 et Y 2 sont indépendantes P (Y = (, 1)) = pq P (Y = (1, )) = qp P (Y = (1, 1)) = p 2 (c) Les lois de Y 1 et de Y 2 sont identiques à celle de X. Ce sont donc des lois de Bernoulli de paramètres p. (d) Ȳ : U 2 {, 1/2, 1} b = (b 1, b 2 ) Ȳ (b) = (1/2)(Y 1(b) + Y 2 (b)) On peut écrire Ȳ = (1/2)(Y 1 + Y 2 ) ou encore Ȳ = M(Y ) avec M : R 2 R y = (y 1, y 2 ) M(y) = (1/2)(y 1 + y 2 ) (e) Remarquons tout d abord que : la loi de probabilité de Y est une probabilité sur son espace d arrivé C Y = {, 1} 2 ; la loi de probabilité de Ȳ est une probabilité sur son espace d arrivé CȲ = {, 1/2, 1}. P CȲ (Ȳ = ) = P C Y (Y = (, )) = P CY (Y 1 = et Y 2 = ) = q 2 P CȲ (Ȳ = 1/2) = P C Y (Y = (, 1) ou Y = (1, )) = 2pq P CȲ (Ȳ = 1) = P C Y (Y = (1, 1)) = q 2

82 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE (f) (ii) E(Ȳ ) = q2 + (1/2)2pq + 1p 2 = p(p + q) = p V ar(ȳ ) = E(Ȳ 2 ) E(Ȳ )2 = 2 q 2 + (1/2) 2 2pq + 1 2 p 2 p 2 = pq 2 On retrouve bien pour 2Ȳ la loi binômiale et les valeurs de E(Ȳ ) et de V ar(ȳ ) pour un tirage avec remise. (a) idem cas avec remise. (b) P (Y = (, )) = n 2 n 2 1 N N 1 P (Y = (, 1)) = n 2 n 1 N N 1 P (Y = (1, )) = n 1 N P (Y = (1, 1)) = n 1 N n 2 N 1 n 1 1 N 1 (c) (d) P (Y 1 = 1) = P (Y = (1, ) ou Y = (1, 1)) = n 1n 2 + n 1 (n 1 1) N(N 1) = n 1 N = p P (Y 1 = ) = 1 P (Y 1 = 1) = 1 p Donc Y 1 suit la même loi de Bernoulli que X Idem pour Y 2. Ȳ : Ω {, 1/2, 1} = n 1(n 1 + n 2 1) N(N 1) b = (b 1, b 2 ) Ȳ (b) = (1/2)(Y 1(b) + Y 2 (b)) avec Ω = {b = b 1, b 2 ) U 2 b 1 b 2 }. On peut écrire Ȳ = (1/2)(Y 1 + Y 2 ) ou encore Ȳ = M(Y ) avec M : R 2 R y = (y 1, y 2 ) M(y) = (1/2)(y 1 + y 2 ) (e) (f) P (Ȳ = ) = P (Y = (, )) = n 2(n 2 1) N(N 1) P (Ȳ = 1/2) 2n 1 n 2 N(N 1) P (Ȳ = 1) = n 1(n 1 1) N(N 1) E(Ȳ ) = 1 2n 1 n 2 2 N(N 1) + 1n 1(n 1 1) N(N 1) = n 1(n 1 + n 2 1) = p N(N 1)

6. EXERCICES 83 V ar(ȳ ) = ( 1 2 ) 2 2n 1 n 2 N(N 1) + 12 n 1(n 1 1) N(N 1) p2 = n 1n 2 + 2n 1 (n 1 1) 2p 2 N(N 1) 2N(N 1) n 1 N = (n 2 + 2n 1 2 2p(N 1)) 2(N 1) = p(n 2 2 + 2p) 2(N 1) p(n 2)q = 2(N 1) (N n) pq = N 1 n où n = 2. On retrouve bien les résultats du théorème 4.1.1 6.2 Exercices avec indications Exercice 6.2.1 (Taux de germination). On s intéresse dans cet exercice au taux de germination, donc au paramètre p de la loi de Bernoulli de la variable aléatoire X : G {, 1} g si g ne germe pas g 1 si g germe. (voir l exemple 1.2.1) On considère un n-échantillon aléatoire Y = (Y 1,..., Y n ) de X. L échantillonnage est bien sûr sans remise (on ne peut pas mettre à germer une graine deux fois!). On définit les statistiques et M = (1/n)Y. S : R n {, 1,..., n} n y = (y 1,..., y i ) S(y) = (i) Quelles sont les espaces de départ et d arrivée de S(Y ) et de M(Y ). (ii) Écrire S(Y ) et Ȳ = M(Y ) en fonction des variables aléatoires (Y i) i (iii) On suppose que la taille de la population G est N, quelle est la loi de S (iv) On suppose que N = +, quelle est la loi de S. (v) On suppose que N = + et qu on peut approximer la loi de Ȳ par une loi normale N (µȳ, σ 2 Ȳ ). (a) Donner µ Ȳ et σ Ȳ en fonction de n et p. (b) Déterminer n en fonction de p pour avoir P (µ Ȳ.25 < Ȳ < µȳ +.25) =.95 (c) On prend p =.5, calculer n. Que signifie ce résultat? Indications. Penser à l urne et l échantillonnage avec et sans remise. Pour (vb), utiliser l équation 4.4 Exercice 6.2.2. Soit X : P {, 1} une variable aléatoire de loi de Bernoulli de paramètre p et Y = (Y 1,..., Y n ) un n-échantillon Bernoullien de X On considère la statistique S 2 suivante S 2 : R n {, 1,..., n} y = (y 1,..., y i ) S 2 (y) = 1 n (y i ȳ) 2 n y i

84 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE (i) On prend n = 2 (a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y )? (b) Écrire S(Y ) en fonction de Y 1 et de Y 2. (c) Donner la loi de S 2 (Y ). (d) Calculer l espérance mathématique et la variance de S 2 (Y ). (e) les variables aléatoires Ȳ et S2 (Y ) sont-elles indépendantes? (ii) On prend n = 3 (a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y )? (b) Donner la loi de S 2 (Y ). (c) Calculer l espérance mathématique et la variance de S 2 (Y ). Indications. Pour les espérances mathématiques et variances on doit trouver les mêmes résultats que dans le théorème 4.2.1 Exercice 6.2.3. Soit X : P R une variable aléatoire de loi normale N (µ, σ 2 ) et Y = (Y 1,..., Y n ) un n- échantillon Bernoullien de X On considère les statistiques suivantes S : R n R y = (y 1,..., y i ) S(y) = 1 n σ 2 (y i µ) 2, et K = SCE/σ 2. (i) Quelle est la loi de S(Y )? (ii) Quelle est la loi de K(Y )? SCE : R n R y = (y 1,..., y i ) SCE(y) = 1 n σ 2 (y i ȳ) 2, (iii) On prend n = 1 et on note χ p l unique réel vérifiant P (K χ p ) = p. En vous aidant de la table de la loi du χ 2 donner les valeurs de χ.25 et de χ.975. (iv) Vérifier que P (χ.25 < K < χ.975 ) =.95. (v) En déduire la valeur de (vi) Que signifie 4.13 P ( [ SCE(Y ) σ 2 ; SCE(Y ) ]). (4.13) χ.975 χ.25 Indications. On écrira S(Y ) comme le carré de n variables aléatoires de loi normale centrée réduite indépendantes. 6.3 Exercices sans indications Exercice 6.3.1. Soit X la variable aléatoire définie sur P, à valeurs dans {, 1, 4} et de loi P (X = ) = 1/4 P (X = 1) = 1/2 P (X = 4) = 1/4 On considère Y = (Y 1, Y 2 ) un 2-échantillon Bernoullien de X et Ȳ = (1/2)(Y 1 + Y 2 ). (i) Quelles sont les valeurs possibles de Ȳ? (ii) Calculer la loi de Y. (iii) Calculer la loi de Ȳ. Exercice 6.3.2. Soit X la variable aléatoire rendement de loi normale N (5, 5) définie à l exercice 6.1.2. Soit Y = (Y 1,..., Y n ) un n-échantillon Bernoullien de X (On suppose la population infinie et on peut donc considérer que l échantillonnage avec remise se confond avec l échantillonnage sans remise).

6. EXERCICES 85 (i) On définit la statistique U suivante U : R n R y = (y 1,..., y n ) U(y) = ȳ 5, 5/n où ȳ désigne toujours la moyenne arithmétique des (y i ). (a) (b) Écrire U(Y ) (espace de départ, espace d arrivé et fonction). Écrire U(Y ) en fonction de Ȳ. En déduire la loi de U. (c) Calculer et donner son interprétation. P (Ȳ [5 1.96( 5/n); 5 + 1.96 5/n]) (ii) On suppose maintenant que la variance de X est inconnue. La loi de X est donc N (5, σ 2 ). On définit alors les statistiques suivantes et SCE : R n R y = (y 1,..., y n ) SCE(y) = T : R n R y = (y 1,..., y n ) T (y) = n (y i ȳ) 2 ȳ 5 SCE(y)/(n(n 1)). (a) Écrire T (Y ) (espace de départ, espace d arrivé et fonction). (b) Écrire T (Y ) en fonction de Ȳ et de S2. En déduire la loi de T. (c) On suppose que n = 1, donner l unique réel t.975 vérifiant P (T < t.975 ) =.975 (voir les tables statistiques). En déduire P (Ȳ [5 t.975( SCE(Y )/(n(n 1))); 5 + t.975 SCE(Y )/(n(n 1))]) et donner son interprétation.

86 CHAPITRE 4. THÉORIE DE L ÉCHANTILLONNAGE

Chapitre 5 Tests statistiques : principes généraux 1 Introduction Le but d un test statistique est de répondre à une question simple, par exemple savoir laquelle de deux variétés de Tournesol A et B donne le meilleur taux d une protéine fixée. Pour cela, nous collecterons des données pour les deux variétés, puis nous ferons un calcul à partir de ces données et en fonction de la valeur du résultat nous validerons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs : choisir A quand c est B qui est meilleure ; choisir B quand c est A qui est meilleure. Par suite un test de statistique ne donnera jamais de réponse complètement déterministe, et comme dans tout processus de prise de décision, il y aura toujours des risques d erreur. L un des gros apports des tests statistiques est la connaissance, en terme de probabilités, des risques pris. L objectif de ce chapitre est donc de bien comprendre la définition de ces risques et d assimiler toute la démarche logique d un test statistique. Ceci est fondamental si l on désire utiliser cet outil correctement. 2 Exemple 2.1 Problème Un industriel vient de mettre au point un nouveau procédé de fabrication d ampoules électriques. Il désire savoir si ce nouveau procédé est meilleur que celui utilisé actuellement dans le sens où les ampoules fabriquées avec ce nouveau procédé ont une durée de vie plus longue. Des études antérieures ont montré que la durée de vie d une ampoule fabriquée par le procédé classique suit une loi normale de paramètres µ = 14 heures et σ = 12 heures. On suppose que le nouveau procédé ne modifie pas la loi, ni la variance. On note A (respectivement A ) la population, supposée de taille très grande, des ampoules fabriquées avec le nouveau procédé (respectivement l ancien procédé). Nous pouvons alors définir les deux variables aléatoires suivantes : X : A R 1 ampoule sa durée de vie X : A R 1 ampoule sa durée de vie Les informations données nous permettent alors de dire que la loi de la variable aléatoire X (respectivement X ) est une loi normale N (µ, 12 2 ) (respectivement N (14, 12 2 )). La question est donc de savoir laquelle des deux hypothèses ci-dessous est la bonne pour le nouveau procédé. µ 14; µ > 14. Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypothèses de la façon suivante H : µ = 14; H 1 : µ > 14. Pour effectuer le choix entre ces 2 hypothèses on fait des mesures sur n =1 ampoules fabriquées avec le nouveau procédé. On obtient les données de la table 5.1 dont les représentations graphiques sont données aux figures 5.1 et 5.2. 87

88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX Tab. 5.1 Donnés de l exemple ampoules en milliers d heures 1.7152 1.662 1.7944 1.5417 1.5712 2.19 1.7514 2.755 1.738 1.788.......... 1.6244 1.7249 1.691 1.6524 1.7898 1.5812 1.7976 1.517 1.8235 1.812 4 x 1 3 3.5 3 2.5 2 1.5 1.5 1 12 14 16 18 2 22 durées de vie Fig. 5.1 Histogramme des données de l exemple ampoule. La question est maintenant de choisir, à partir de ces données, entre les deux hypothèses. Si nous appelons ȳ la moyenne le l échantillon, il semble logique ici de prendre la règle de décision suivante : Si ȳ > l alors on rejettera l hypothèse nulle H Si ȳ < l alors on acceptera l hypothèse nulle H l sera la valeur critique du test. Cette règle de décision induira deux types de risques : le risque de décider de rejeter l hypothèse nulle H quand elle est vraie et le risque de décider d accepter l hypothèse nulle H quand elle est fausse. Nous allons maintenant dans un cas simple calculer ces risques. 2.2 Cas simplifié On considère, dans une premier temps, le cas simplifié où les seules valeurs que peut prendre la moyenne µ sont 14 et 145. Ce cas n est pas, bien évidemment, réaliste. Nous le considérons uniquement pour des raisons pédagogiques. Les hypothèses nulles H et alternatives H 1 deviennent donc H : µ = 14 ; H 1 : µ = 145. La population A étant supposé très grande, on peut considérer que les données sont une observation du 1- échantillon aléatoire Bernoullien. (Y 1,..., Y 1 ) : A 1 R 1 1 ampoules (durée de vie de l ampoule 1,..., durée de vie de l ampoule 1) a = (a 1,..., a 1 ) Y (a) = (X(a 1,..., X(a 1 )) Nous pouvons alors définir la statistique M : R 1 R (y 1,..., y 1 ) ȳ = 1 1 1 y i. Nous avons donc défini la variable aléatoire Ȳ = M(Y ) = (1/n) i Y i. Le chapitre 4 sur la théorie de l échantillonnage nous dit alors que si l hypothèse nulle H est vraie alors Ȳ suit une loi N (14, 122 /1) ;

2. EXEMPLE 89 2 19 durée de vie 18 17 16 15 1 échantillons Fig. 5.2 Boîte à moustaches des données de l exemple ampoules. si l hypothèse H 1 est vraie alors Ȳ suit une loi N (145, 122 /1). On suppose enfin que la valeur limite l est fixée à 143. Ceci nous définit alors deux événements : accepter H = Ȳ 143 ; accepter H 1 = Ȳ > 143. Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de première et de deuxième espèce. α = Probabilité de l événement rejeter H quand H est vraie = P H (rejeter H ) ( ) = P H (Ȳ > 143) avec Ȳ : N 14, 122 1 = 1 P H (Ȳ < 143) (Ȳ 14 = 1 P H < 12 = 1 φ(2.5) =.621 ) 143 14 12 β = Probabilité de l événement accepter H quand H est fausse = Probabilité de l événement accepter H quand H 1 est vraie = P H1 (accepter H ) ( = P H1 (Ȳ 143) avec Ȳ : N 145, 122 1 = P H1 (Ȳ 145 12 = φ( 1.67) = 1 φ(1.67) =.4746 Ces risques α et β sont visualisés sur la figure 5.3. ) 143 145 12 ) 2.3 Cas général En réalité lorsque l hypothèse nulle H est fausse, on ne connaît pas la vraie valeur de la moyenne µ. Aussi l hypothèse alternative H 1 sera µ > 14. Le risque de deuxième espèce sera alors fonction de la valeur de cette moyenne. Une autre différence avec la démarche utilisée en pratique est que l on se fixe la valeur du risque de première espèce α. On calculera alors la valeur limite l que l on appelera valeur critique et que l on notera ici Ȳcrit.

9 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX.4.35.3.25.2 Loi de M si H est vraie Loi de M si H 1 est vraie.15.1.5 β α 138 14 142 l 144 146 148 Fig. 5.3 Risque α de première espèce et β de deuxième espèce pour l exemple des ampoules. Fixons le risque de première espèce α =.5, cela donne Par suite, nous obtenons α = P H (rejeter H ) ( ).5 = P H (Ȳ > Ȳcrit) avec Ȳ : N 14, 122 1 = 1 P H (Ȳ (Ȳ Ȳcrit) ) 14 = 1 P H Ȳcrit 14 12 12 ) (Ȳcrit 14 = 1 φ. 12 ) (Ȳcrit 14 φ 12 =.95 Ȳcrit 14 = 1.645 12 Ȳcrit = 1419.74 Nous pouvons alors maintenant calculer le risque de deuxième espèce β. β = P H1 (accepter H ) ( ) = P H1 (Ȳ < Ȳcrit) avec Ȳ : N µ, 122 1 = P H1 (Ȳ µ < Ȳcrit µ ) 12 ) 12 (Ȳcrit µ = φ 12 On définit la puissance d un test comme la probabilité de l événement accepter H 1 quand H 1 est vraie. La puissance est donc égale à 1 β. 1 β = Probabilité de l événement accepter H 1 quand H 1 est vraie = P H1 (accepter H 1 ) Remarque 2.3.1. La puissance est la probabilité de mettre en évidence une différence qui existe. µ. La table 5.2 donne le risque β et la puissance (visualisée par la figure 5.4) pour différentes valeurs de la moyenne

3. PRINCIPES GÉNÉRAUX 91 µ 138 139 1394 1396 1398 14 141 142 143 144 145 146 1419.74 µ 3.31 2.48 2.14 1.98 1.81 1.64.81 -.2 -.855-1.69-2.52-3.36 12 β 1..99.98.98.96.95.79.49.2.5.. 1 β..1.2.2.4.5.21.51.8.95 1. 1. Tab. 5.2 Risque β et puissance en fonction de la moyenne µ 1.9.8.7.6 Puissance.5.4.3.2.1 138 139 14 141 142 143 144 145 146 µ Fig. 5.4 Fonction puissance pour l exemple ampoules : 1 β(µ). Remarque 2.3.2. Pour calculer la valeur critique d un test, on doit parfaitement connaître la loi de la statistique de décision quand l hypothèse nulle H est vraie. Ceci justifie le fait que l on ait écrit dans cet exemple cette hypothèse nulle sous la forme d une égalité : H : µ = 14 et non pas sous la forme d une inégalité. La question de départ étant de savoir si le nouveau procédé était meilleur que l ancien, on a comme hypothèse alternative H 1 : µ > 14. La fonction puissance 5.4 nous montre que la probabilité de l événement accepter H 1 est proche de 1 pour les valeurs de µ très supérieures à 1 et proche de pour les faibles valeurs de µ ; ce qui est bien ce que nous désirions. Remarque 2.3.3. Il ne faut pas confondre les hypothèses nulle H et alternative H 1 avec les événements accepter H et accepter H 1. L événement accepter H est en pratique l ensemble des valeurs de la statistique de décision qui conclura à accepter l hypothèse nulle H. Cet événement s écrit dans notre exemple Ȳ Ȳcrit et est égale à l intervalle ], Ȳcrit] sur l axe des abscisses de la figure 5.3 3 Principes généraux 3.1 Logique générale d un test statistique Le tableau suivant donne le schéma général d un test statistique

92 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX Situation concrète Formalisation mathématique Exemple ampoules Question de départ H : hypothèse nulle H : µ = 14 H 1 : hypothèse alternative H 1 : µ > 14 Variable étudiée variable aléatoire X : P R X : A R 1 ampoule sa durée de vie Connaissance de départ loi de X X : N (µ, 12 2 ) Collecte de données n- échantillon aléatoire Bernoullien (y 1,..., y n) (Y 1,..., Y n) : P n R n (Y 1,..., Y 1) : A 1 R 1 ω = (ω 1,..., ω n) (Y 1(ω),..., Y n(ω)) ω = (ω 1,..., ω n) (X(ω 1),..., X(ω n)) 1 ampoules (durée de vie de l ampoule 1,.., durée de vie de l ampoule 1) Calcul de S obs = S(y 1,..., y n) Statistique de décision P n (Y 1,...,Yn) R n S R Ȳ : A 1 R 1 ampoules moyenne des durées de vie des 1 ampoules (a 1,..., a n) 1 (X(a1) + + X(an)) n M : R 1 R (y 1,..., y 1) ȳ = 1 X1 y i 1 Règle de décision. On se donne α le risque de première espèce. On en déduit la zone de rejet de l hypothèse nulle Si H est vraie alors S suit une loi connue. α étant fixé 122 on en déduit la zone de rejet de l hypothèse nulle. Si H est vraie alors Ȳ suit une loi N (14, 1 ) α étant fixé, on en déduit Ȳcrit telle que P (Ȳ > Ȳcrit) = α. On en déduit alors la règle de décision Remarque 3.1.1. Le choix de la statistique S peut paraître parfois mystérieux. Il est, bien évidemment, en lien direct avec le problème. Cette statistique est souvent une distance entre les données et l hypothèse nulle. Si S obs = S(y 1,..., y n ) est grand alors il y a peu de chance que les données viennent d une population où l hypothèse nulle est vraie, si S obs est faible on ne peut pas rejeter l hypothèse nulle. (i) C est dans la démonstration du calcul de la loi de la statistique S qu interviennent les hypothèses sur la loi de X et le fait que (Y 1,..., Y n ) soit un échantillon Bernoullien. Le terme hypothèse étant déjà utilisé pour les hypothèses nulle H et alternative H 1 nous utiliserons ici le terme de postulats 1. (ii) Lorsque (Y 1,..., Y n ) est un n-échantillon Bernoullien, les (Y i ),,n sont indépendantes et de même loi que X. Ce sont ces dernières propriétés qui interviennent dans la démonstration de la loi de la statistique S et nous écrirons souvent dans les postulats : (Y i ),,n i.i.d. pour indépendantes et identiquement distribuées. (iii) Dans la construction d un test c est le risque de première espèce α qui joue un rôle particulier. La symétrie entre les deux risques est de fait rompue. (iv) Lorsque nous acceptons l hypothèse nulle, le risque de faire une erreur est le risque de deuxième espèce. Nous dirons cependant que l on accepte l hypothèse nulle au risque α. Ceci est dû au fait que c est le risque de première expèce qui permet de construire la règle de décision et qu en pratique le risque de deuxième espèce dépend de l hypothèse alternative qui n est jamais complètement définie. Nous présenterons un test statistique de la façon suivante. (i) Définition du problème : (a) question de départ ; (b) définition des populations, variables aléatoires ; (c) hypothèses nulle et alternative ; (d) description des données. 1 Il y a en anglais deux termes pour hypothèse : asumption et hypothesis.

3. PRINCIPES GÉNÉRAUX 93 (ii) Description du test : (a) postulats ; (b) statistique utilisée (variable de décision). (iii) Mode opératoire. 3.2 Définitions Définition 3.2.1 (Risques de première et de deuxième espèce, puissance). On appelle risque de première espèce et on note α la probabilité de l événement rejeter l hypothèse nulle quand elle est vraie : α = Probabilité de l événement rejeter H quand H est vraie = P H (rejeter H ) On appelle risque de deuxième espèce et on note β la probabilité de l événement accepter l hypothèse nulle quand elle est fausse : β = Probabilité de l événement accepter H quand H est fausse = P H1 (accepter H ) On appelle puissance la probabilité de l événement accepter l hypothèse alternative quand elle est vraie : 1 β = Probabilité de lévénement accepter H 1 quand H 1 est vraie = P H1 (accepter H 1 ) On peut résumer ces définitions par le tableau suivant : Décision : réalité H H 1 H 1 α β H 1 α 1 β Remarque 3.2.2. (i) Le risque de première espèce est aussi la probabilité de conclure à une différence qui n existe pas en réalité. (ii) Le risque de deuxième espèce est aussi la probabilité de ne pas déceler une différence qui existe. (iii) La puissance du test est la probabilité de déceler une différence qui existe. C est un critère de précision, de qualité d un test. Définition 3.2.3 (Test unilatéral, test bilatéral). Un test est dit unilatéral si sa zone de rejet, c est-à-dire lévénement accepter H 1, est continue. Il est dit bilatéral si elle est en deux morceaux. Exemple 3.2.4. Dans l exemple introductif il n y avait qu une seule zone de rejet et l hypothèse alternative était H 1 : µ > 14. Nous avions donc un test unilatéral. Si on désirait comparer 2 procédés de fabrication pour savoir lequel des 2 était le meilleur nous aurions écrit l hypothèse alternative de la façon suivante : H 1 : µ < 14 ou µ > 14. Nous aurions alors eu 2 zones de rejet. Le test aurait été bilatéral. Définition 3.2.5 (test non paramétrique). On appelle test non paramétrique tout test où dans les postulats il n est pas fait mention de lois. Le test est dit paramétrique dans le cas contraire. Remarque 3.2.6. Dans un test paramétrique les hypothèses nulles et alternative s expriment par des relations sur des valeurs de paramètres, d où la terminologie. En anglais on parle de distribution free test ce qui est à notre avis plus clair. Exemple 3.2.7. Dans l exemple introductif le test est un test paramétrique. Exemple 3.2.8. Si on désire tester l hypothèse nulle H : le caractère suit une loi de poisson ; le test sera un test non paramétrique. Définition 3.2.9 (Robustesse). Un test est dit robuste s il est peu sensibles à la loi de distribution du caractère étudié. Remarque 3.2.1. Nous aurons parfois le choix entre plusieurs tests pour une question donnée. Nous choisirons en pratique parmi ceux qui vérifient les postulats celui qui aura la puissance la plus forte.

94 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX 4 Test bilatéral 4.1 Puissance d un test bilatéral Exemple 4.1.1. 2 Un acheteur souhaite acquérir un lot de dindes. Ces dindes doivent avoir un poids moyen de 6.5kg et l acheteur désire que le poids moyen ne soit ni trop faible ni trop élevé. Un vendeur est candidat pour ce marché qui doit porter sur 6 dindes. Afin de s assurer que la spécification imposée est bien vérifiée, l acheteur va prélever un échantillon simple et aléatoire de 64 animaux qu il pèse. Des résultats antérieurs permettent de penser que le poids suit une loi normale et on admettra que l écart-type est connu et est σ = 2 kg. Nous allons ici donner la règle de décision puis la fonction de puissance de ce test. Formalisons tout d abord cette expérience. Le caractère de départ est ici : X : P R 1 dinde son poids. A chaque lot de 64 animaux l acheteur obtiendra 64 poids y 1, y 2,... y 64. La taille des échantillons (n = 64) étant faible par rapport à la taille de la population P (N = 6), on peut approximer l échantillonnage sans remise par un échantillonnage avec remise. On peut donc définir le n-échantillons Bernoullien : Y = (Y 1,..., Y 64 ) : P 64 R 64 1 lot de 64 dindes (y 1, y 2,... y 64 ) L énoncé nous dit que nous avons les postulats suivants : (Y i ) i.i.d. Y i de loi N (µ, σ 2 ) avec σ 2 = 4 Les hypothèses nulle et alternative sont : H : µ = 6.5 ; H 1 : µ 6.5 (µ < 6.5 ou µ > 6.5). Il s agit donc d un test bilatéral. La statistique utilisée sera : M(Y ) = Ȳ = 1 64 64 Y i. Si l hypothèse nulle est vraie alors Ȳ suit une loi normale N (6.5,.625). Nous rejetterons l hypothèse nulle si la valeur de la variable aléatoire Ȳ sur l échantillon Ȳobs = M(y 1,..., y n ) est très grande ou très petite. Nous aurons ici deux zones de rejet. Nous avons donc P H (m 1 Ȳ m 2) = 1 α. Par suite si nous prenons le même risque à droite et à gauche nous aurons : P H (m 1 < Ȳ ) = 1 α/2, P H (Ȳ < m 2) = 1 α/2. Soit si nous prenons α =.5 P H m 1 6.5.25 < Ȳ µ σ 2 n =.975 ( P H Ȳ < m ) 2 6.5 =.975.25 D où m 1 6.5 = 1.96.25 m 2 6.5 = 1.96.25 { m1 = 6.1 m 2 = 6.99 La règle de décision est donc : Si Ȳobs = M(y 1,..., y 64 ) [6.1; 6.99] alors on accepte l hypothèse nulle d égalité de la moyenne à 6.5 kg au risque α de 5% 2 Données provenant du cours de biométrie de l INAPG de R. Tomassone, juillet 1986, chapitre 5 page 34.

4. TEST BILATÉRAL 95 µ 5.25 5.5 5.75 6. 6.25 6.5 6.75 7. 7.25 7.5 7.75 6.1 µ 3.4 2.4 1.4.4 -.96-1.96-2.96-3.96-4.96-5.96-6.96.25 6.99 µ 6.96 5.96 4.96 3.96 2.96 1.96.96 -.4-1.4-2.4-3.4 (.25 ) 6.1 µ φ 1..98.85.52.17.2..... (.25 ) 6.99 µ φ 1. 1. 1. 1. 1..98.83.48.15.2..25 β(µ)..2.15.48.83.95.83.48.15.2. P uis(µ) 1..98.85.52.17.5.17.52.85.98 1. Tab. 5.3 Risque β et puissance en fonction de la moyenne µ Si Ȳobs = M(y 1,..., y 64 ) / [6.1; 6.99] alors on rejette l hypothèse nulle d égalité de la moyenne à 6.5 kg au risque α de 5% Calculons maintenant la puissance de ce test en fonction de µ. Si H 1 est vraie alors Ȳ suit une loi normale N (µ,.625) Nous avons donc : P uis(µ) = 1 β(µ) = 1 P H1 (m 1 Ȳ m 2) = 1 P H1 m 1 µ Ȳ µ m 2 µ.25 σ 2.25 = ( ) n( ) m2 µ m1 µ 1 φ + φ.25.25 Le tableau 5.3 et le graphique 5.5 donnent les résultats pour diférentes valeurs de µ 1 Exemple de puissance pour un test bilatéral.9.8.7 Puissance.6.5.4.3.2.1 5 5.5 6 6.5 7 7.5 8 mu Fig. 5.5 Puissance d un test bilatéral : exemple dindes α =.5, n = 64. 4.2 Puissance et paramètres α, σ 2 et n Comme nous l avons vu sur les deux exemples traités dans ce chapitre, la puissance dépend de la vraie valeur du paramètre µ. Mais elle dépend aussi du risque de première espèce, de la variance et du nombre de mesures. Nous allons maintenant voir sur le deuxième exemple des dindes comment évolue cette puissance en fonction de chacun de ces trois paramètres (les 2 autres restant fixes). Puissance et risque de première espèce Comme le montre le graphique (5.3) plus le risque de première espèce augmente, plus la zone d acceptation de l hypothèse nulle diminue et donc plus le risque de deuxième espèce diminu. Par suite la puissance augmente. Le graphique (5.6) donne la puissance P uis(µ) pour différente valeur du risque de première espèce.

96 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX 1.9.8.7 Puissance.6.5.4.3.2.1 4.5 5 5.5 6 6.5 7 7.5 8 8.5 mu Fig. 5.6 Puissance, exemple des dindes pour α =.1,.1, 5 et.1 (σ 2 = 4 et n = 64). Puissance et variance Plus la variance est faible, plus la puissance est grande. Ce résultat est logique. En effet plus nous aurons une variabilité faible, plus facile sera la mise en évidence d une différence qui existe. Le graphique (5.7) donne les courbes de puissance pour différentes valeurs de la variance. 1.9.8.7 Puissance.6.5.4.3.2.1 4.5 5 5.5 6 6.5 7 7.5 8 8.5 mu Fig. 5.7 Puissance, exemple des dindes pour σ 2 = 2, 4, 6 et 8 (α =.5 et n = 64). Puissance et nombre de données Le nombre de données n intervient, pour un risque α fixé, dans le calcul de la valeur critique et dans le calcul σ2 de la puissance. En effet la variance de la statistique Ȳ est égale à. Par suite plus le nombre de données sera n grand plus la variance de Ȳ sera faible et plus la puissance sera forte. L influence du nombre de données est inverse de celle de la variance des données. Le graphique (5.8) donne les courbes de puissance pour différentes valeurs de n. 1.9.8.7 Puissance.6.5.4.3.2.1 4.5 5 5.5 6 6.5 7 7.5 8 8.5 mu Fig. 5.8 Puissance, exemple des dindes pour n = 5, 1, 15 et 2 (α =.5 et σ 2 = 4).

5. CONCLUSION 97 4.3 Tests multiples Sur l exemple précédent des dindes on définit le test T suivant : (i) On réalise le test unilatéral à droite T d avec un risque α suivant : H : µ = 6.5 H 1 : µ > 6.5 On réalise le test unilatéral à gauche T g avec un risque α suivant : H : µ = 6.5 H 1 : µ < 6.5 (ii) On réalise alors le test global suivant : H : µ = 6.5 H 1 : µ 6.5 où on rejette l hypothèse nulle si et seulement si on a rejetté l hypothèse nulle du test unilatéral à droite T d ou du test unilatéral à gauche T g. Le test T est alors un test bilatéral mais attention avec un risque de première espèce de 2α. Le fait de réaliser des tests multiples avec une même finalité sur un même ensemble de données augmente implicitement de risque de première espèce. 5 Conclusion 5.1 Présentation et conclusion d un test Nous tenons ici à rappeler que la première chose à faire lorsque l on a des données est de les visualiser à l aide des outils de la statistique descriptive. Ceci permet, en particulier de visualiser la variabilité de la variable étudiée. La réalisation pratique d un test comprendra donc : (i) la définition de la question posée ; (ii) la méthode de collecte des données ; (iii) la visualisation des données ; (iv) le choix du test statistique ; (v) la réalisation des calculs ; (vi) la conclusion. 5.2 Risque de troisième espèce Nous reprenons ci-dessous le texte de l introduction du livre Techniques statistiques moyens rationnels de choix et de décision de Georges Parreins paru aux éditions Dunod en 1974 page v et vi de l introduction Citons un exemple, paraît-il authentique, mais même s il n l est pas nous pensons qu il restera présent à l esprit des lecteurs et nous souhaitons dans tous les cas ne rapeller aucun mauvais souvenir aux lectrices de ce livre. Afin de prouver la nécessité d avoir un médecin au moment d un accouchement, on questionna des mamans : pour 5 accouchements avec médecin on constata 4 complications, ce nombre était de 3 pour un groupe de même importance qui avait accouché sans le secours d un praticien. Ce résultat déplut aux organisateurs de l enquête, ils la soumirent à un statisticien, qui très rapidement déclara que ces résultats n étaient pas significatifs et que pour une conclusion sérieuse il faudrait opérer sur des effectifs beaucoup plus importants. On recueillit donc des observations. Sur deux séries de 5 accouchements on trouva 47 complications dans le premier groupe avec médecins et 19 dans l autre. Le même statisticien déclara que dans ce cas les résultats étaient hautement significatifs : on pouvait affirmer avec un risque très faible de se tromper de l ordre de 1 sur dix mille qu il y avait beaucoup moins de complications en l absence de médecin. Devant ce résultat quelque peu inquiétant, notre statisticien étudia les modalités de l échantillonnage : l enquête avait été faite à la campagne, on appelait surtout le médecin quand la venue au monde du nouveau bébé se présentait mal. Il est à peu près évident que si on avait obtenu les résultats inverses, personne ne se serait posé de questions et cela aurait constitué une lourde faute. Les expérimentateurs doivent toujours concerver le même esprit critique, devant les résultats quels qu il soient et ne pas se demander comment les observations ont été faites uniquement quand on arrive à un résultat déplaisant. Relisons Claude Bernard l expérimentateur doit toujours douter, fuir les idées fixes et garder toujours sa liberté d esprit Il faut bien comprendre, qu il est en général possible de faire dire aux statistiques tout et uniquement ce que l on désire, sous réserve d éviter de dire comment elles ont été établies. C est par ce biais que s explique les

98 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX critiques très justifiées souvent adressées à ces techniques. Les échantillons non significatifs, c est-à-dire mal prélévés, sont la cause d un grand nombre de conclusion erronées. L erreur qui a été faite dans cet exemple concerne la définition des populations. Il s agit au fond de la même erreur lorsque l on dit que le lit est plus dangereux que l automobile car il est prouvé statistiquement que l on meurt plus souvent dans un lit que dans une automobile. Cette dernière assertion est tout-à-fait exacte, mais la conclusion est bien évidemment fausse. Le lit n est pas la cause de déces, mais lorsque l on est gravement malade, on est souvent alité. Il s agit là de ce que nous appellerons du risque de troisième espèce qui est de nature très différente des risques de première et de deuxième espèce ; mais on aurait tord de penser qu il est le moins grave. Ce risque sera évité le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.

6. EXERCICES 99 6 Exercices 6.1 Exercices avec corrigés Exercice 6.1.1. 3 On sait que les conditions habituelles d élevage de bovins conduisent à un poids moyen à un âge donné de 3 kg avec un écart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau régime et on désire savoir si ce régime est meilleur que l ancien. Pour cela on teste ce régime sur 64 animaux. On suppose que ni la loi de la variable aléatoire, ni sa variance σ 2 ne sont modifiées par le nouveau régime. (i) Définissez les variables aléatoires X poids ancien régime et X poids nouveau régime. (ii) On suppose que les populations étudiées sont de très grandes tailles et on peut donc considérer le 64-échantillon Bernoullien Y = (Y 1,..., Y n ) : P 64 R 64 b = (b 1,..., b 64 ) Y (b) = (X(b 1 ),..., X(b 64 )). On considère la statistique M M : R 64 R (y 1,..., y 64 ) ȳ = 1 64 et on définit Ȳ = M(Y ). Quelle loi suit la variable aléatoire Ȳ. (iii) Quel test peut-on effectuer? On précisera : l hypothèse nulle H. s il s agit d un test unilatéral ou bilatéral, on précisera l hypothèse alternative H 1. (iv) On prend comme risque de première espèce α =, 5. (a) Donner la règle de décision du test. (b) Calculer la puissance de ce test en fonction de la vraie valeur de la moyenne µ pour µ = 28; 29; 295; 297.5; 3; 32.5; 35; 37.5; 31; 32 et tracer cette fonction. (c) Quelle information vous donne la puissance si la vraie valeur de µ est 37.5? correction. (i) On considère P (respectivement P ) la population des bovins nourris avec le nouveau régime (respectivement avec l ancien régime). Les variables aléatoires X et X sont alors X : P R 64 1 bovin son poids X : P R 1 bovin son poids (ii) Ȳ suit une loi normale N (µ, 242 /64), où µ est l espérance mathématique de X. (iii) H : µ = 3 ; H 1 : µ > 3. Le test est unilatéral à droite car on désire savoir si le nouveau régime est meilleur que l ancien. (iv) (a) α = P H (rejeter H ) y i. = P H (Ȳ (Ȳ > Ȳcrit) ) 3 = P H > Ȳcrit 3 3 3 (Ȳ ) 3 φ = 1 α =.95 3 3 Ȳcrit = 1.645 3 Ȳcrit = 34.935 3 Données provenant du cours de biométrie de l INAPG de R. Tomassone, juillet 1986, chapitre 5 page 36.

1 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX (b) Le risque de deuxième espèce β est β = P H1 (accepter H ) = P H1 (Ȳ (Ȳ < Ȳcrit) ) µ = P H1 < Ȳcrit µ 3 3 ) (Ȳcrit µ = φ 3 et la puissance est P H1 (accepter H 1 ) = 1 β(µ). La table 5.4 donne les valeurs numériques du risque de deuxième espèce et de la puissance pour les valeurs demandées et la figure 5.9 visualise la fonction puissance. µ 28. 29. 295. 297.5 3. 34.935 µ 3 8.311 4.978 3.311 2.478 1.645 β(µ) 1. 1..999.993.95 1 β(µ)...1.7.5 µ 32.5 35. 37.5 31. 32. 34.935 µ 3.811 -.22 -.855-1.689-5.22 β(µ).791.491.196.46. 1 β(µ).29.59.84.954 1. Tab. 5.4 Risque de deuxième espèce et puissance 1.9.8.7.6 Puissance.5.4.3.2.1 29 295 3 35 31 315 32 mu Fig. 5.9 Fonction puissance (c) Pour µ = 37.5 l expérience avec 64 bovins conclura que l hypothèse alternative H 1 est vraie, c est-à-dire que le nouveau régime est meilleur que l ancien, avec une probabilité de.84. Exercice 6.1.2. On désire savoir si un juge reconnaît le différence entre 2 produits A et B. Pour cela on lui présente 3 produits dont 2 sont identiques et on lui demander de désigner celui qui est différent. On considère donc la variable aléatoire X suivante : X : Ω {, 1} 1 triplet 1 si le juge reconnaît le produit différent 1 triplet si le juge ne reconnaît pas le produit différent où Ω est l ensemble des triplets possibes des deux produits A et B, deux produits étant identiques. X est une variable aléatoire de loi de Bernoulli de paramètre p. On désire savoir si le juge répond totalement au hasard ou s il reconnaît le produit différent. Pour cela, on fait n fois l expérience. On obtient alors un n-échantillon qui est une

6. EXERCICES 11 observation du n-échantillon Bernoullien Y = (Y 1,..., Y n ) de la variable aléatoire X. On Définit alors la variable aléatoire suivante : Z : Ω n {, 1,..., n} ω = (ω 1,..., ω n ) nombre de bonnes réponses (i) On considère les hypothèses nulle et alternative suivantes : H : le juge répond totalement au hasard ; H 1 : le juge ne répond pas totalement au hasard. Écrire les hypothèses nulle et alternative du test à l aide du paramètre p. (ii) écrire Z = S(Y ) (on donnera S), et en déduire la loi de Z. (iii) On prend n = 25 et α =.5 et on donne pour p = 1/3 et pour p = 2/3 k 1 11 12 13 14 15 16 17... Cnp k k q n k.126.86.5.25.11.4.1.... (a) Calculer la valeur critique du test. k 13 14 15 16 17 18 19 Cnp k k q n k.5.86.126.158.167.149.11 k 2 21 22 23 24 25 Cnp k k q n k.66.31.11.3.. (b) Calculer le risque de deuxième espèce et la puissance pour p = 2/3. (c) Visualiser le risque de deuxième espèce et la puissance pour p = 2/3. (d) Calculer le risque de deuxième espèce et la puissance pour p = 1/3. (e) Donner la forme de la fonction puissance en fonction de p. correction. (i) Si le juge choisi au hasard p est égal à 1/3. Si le juge ne répond pas au hasard c est que p > 1/3 (si p < 1/3, c est que le juge répond de façon pire que s il répondait totalement au hasard!). Le test est donc un test unilatéral à droite. Par suite les hypothèses nulle et alternative sont H : p = 1/3 ; H 1 : p > 1/3. (ii) S est S : R n R (y 1,..., y n ) S(y) = Donc Z = S(Y ) = i Y i. Par suite Z suit une loi binômiale de paramètre (n, p). (iii) Attention, il faut ici lorsqu on définit les événemants accepter H et accepter H 1, bien préciser si on prend des inégalités large ou strict car la loi de la variable aléatoire de décision est discrète. On a α = P H (rejeter H ) = P H (Z Z crit ) n = P H (Z = Z crit ) + P H (Z = Z crit + 1) + + P (Z = n) n = k=z crit C k np k q n k y i La table ci-après donne pour différentes valeurs de Z crit les valeurs de α obtenus. (a) Z crit 12 13 14 15 16 17... α.91.41.16.5.1.... On en déduit que pour avoir α le plus proche de.5 tout en étant inférieur il faut prendre Z crit = 13.

12 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX (b) Pour p = 2/3 β = 12 k= = 1 P (Z = k) 25 k=13 P (Z = k) = 1.5 +.86 +.126 +.158 +.167 +.149 +.11 +.66 +.31 +.11 +.3 = 1.957 =.43.18.16 β puissance.14.12 Loi de Z.1.8.6.4.2 5 1 15 2 25 k Fig. 5.1 Risque de deuxième espèce et puissance (c) (d) Pour p = 1/3 on a β = P H1 (accepter H ) = 1.41 =.939 1.9.8.7.6 Puissance.5.4.3.2.1.1.2.3.4.5.6.7.8.9 1 p Fig. 5.11 Puissance en fonction de p (e)

6. EXERCICES 13 6.2 Exercices avec indications Exercice 6.2.1. 4 La législation en vigueur impose aux aéroports certaines normes concernant les bruits émis par les avions au décollage et à l atterrissage. Ainsi pour les zones habitées proches d un aéroport, la limite tolérée se situe à environ 8 décibels. Au delà de cette limite, l aéroport doit indemniser les riverains. Les habitants d un village proche d un aéroport assurent que le bruit au dessus du village atteint la valeur limite de 8 décibels en moyenne, pour un certain type d avions (les plus bruyants). L aéroport affirme qu il n est que de 78 décibels. Des experts sont convoqués pour trancher entre les deux parties en présence. Ils admettent que l intensité du bruit causé par un avion de ce type suit une loi normale d espérance µ et de variance σ 2 = 49. Ils enregistrent l intensité du bruit provoqué par le passage de ces avions sur un échantillon de taille n = 1. On définit la variable aléatoire suivantes : Ȳ : P 1 = {échantillons de 1 avions} R On considère les 2 cas suivants : E 1 = (avion 1,..., avion 1 ) moyenne des bruits des 1 avions Test 1 les hypothèses nulle et alternative sont les suivantes : H : µ = 8 H 1 : µ < 8 Test 2 les hypothèses nulle et alternative sont les suivantes : H : µ = 78 H 1 : µ > 78 (i) Quelle est la loi de Ȳ? (ii) On prend comme risque de première espèce α =.5. Donner la règle de décision du test 1. (iii) On suppose que µ = 78, Calculer le risque de deuxième espèce β et la puissance du test 1. (iv) On prend comme risque de première espèce α =.5. Donner la règle de décision du test 2. (v) On suppose que µ = 8, Calculer le risque de deuxième espèce β et la puissance du test 2. (vi) Dans le cas du test 1 on veut que le risque de première espèce soit égal au risque de deuxième espèce lorsque µ = 78. Quelle est la règle de décision et la valeur des risques. (vii) Trouver n pour que dans le cas précédent le risque de première espèce soit égal à.5. (viii) Conclusion (i) Indications. Attention à la position de l événement rejeter H. (ii) Pour le Test 1 la valeur critique Ȳcrit est 78.8485. (iii) β =.113. (iv) Pour le Test 2 la valeur critique est Ȳcrit est 79.155 (v) β =.113. (vi) Ȳcrit = 79. (vii) n 133. Exercice 6.2.2. 5 La quantité d acide nitrique (en micro-grammes) dans un mélange chimique doit être égale à 1. Cependant, des erreurs de manipulation font en sorte que cette quantité suit une loi normale de moyenne µ et de variance σ 2 =.9. On décide de tester les hypothèses H : µ = 1 contre H 1 : µ 1 à l aide de résultats d observations de 2 mélanges prélevés au hasard et de rejeter l hypothèse nulle H si ȳ < 9.8 ou ȳ > 1.2 où ȳ est la quantité moyenne d acide nitrique dans les 2 mélanges. On pose Ȳ : P 2 R 2 observations ȳ 4 Problème provenant du livre de R. Céhessat Exercices commentés de statistique et informatique appliquées. Dunod 1976, page 176 5 Exemple issu de l ouvrage Statistique concepts et méthodes Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.

14 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX (i) Quelle est la loi de Ȳ ; (ii) Le test sera-t-il un test unilatéral ou bilatéral? (iii) Calculer et visualiser l erreur de première espèce ; (iv) Calculer et visualiser l erreur de deuxième espèce et la puissance dans les cas où µ = 9.9 et µ = 1.1 ; (v) Tracer la forme générale de la fonction de puissance en fonction de µ ; (vi) Comment évolue cette fonction quand le nombre d observations n augmente (le risque de première espèce restant le même). (i) (ii) Indications. (iii) α =.288. (iv) β =.93 pour les deux valeurs de µ. 6.3 Exercices sans indications Exercice 6.3.1. 6 Le poids de paquets de poudre de lessive, à l issue de l empactage, est une variable aléatoire réelle X : X : P R un paquet son poids On suppose que X suit une loi normale N (µ, σ 2 ) avec σ = 5g. Le poids marqué sur les paquets est 7g. On désire savoir si la machine de remplissage est bien réglée. Nous allons donc réaliser un test statistique. En pratique on prélève 1 paquets de lessive et on mesure le poids moyen de ces 1 paquets de lessive. On suppose la population des paquets de lessive est très grande, on peut donc définir la variable aléatoire suivante : Ȳ : P 1 R 1 paquets de lessive le poids moyen Enfin on ne veut léser ni le client, ni l entreprise. On suppose que la variance ne bouge pas. (i) Donner les hypothèses nulles et alternatives du test. On précisera si le test est unilatéral ou bilatéral. (ii) Quelle est la loi de Ȳ. (iii) On prend un risque de première espèce de, 5. On a obtenu sur un échantillon une valeur du poids moyen ȳ = 71, quelle sera la conclusion? (iv) Visualiser pour µ = 75 le risque de première espèce, de deuxième espèce et la puissance du test. (v) Calculer la puissance de ce test quand µ = 69; 695; 7; 75; 71. Tracer la forme de la courbe de puissance en fonction de µ. (vi) On veut, pour µ = 75 une puissance de, 99. Donner l équation que doit vérifier n : le nombre de paquets de lessive qu il faut prendre. Exercice 6.3.2. Le cahier des charge entre un semencier et un agriculteur stipule que le taux de contamination des semences ne doit pas dépasser 2%. Afin de s assurer que cela est bien le cas le semencier décide de faire un test statistique. Pour cela il prélève un lot de n semences provenant de l agriculteur, effectue les tests biologiques sur ce lot et définit la procédure suivante : Si dans le lot, il y a plus de 2% de semences contaminées alors on rejette la production ; Si dans le lot, il y a moins de 2% de semences contaminées alors on accepte la production. 6 Exercice construit à partir de l exercice 1 du chapitre théorie des tests de Statistique, exercices corrigés avec rappels de cours, J-P Lecoutre, S. Legait-Maille et P. Passi.

6. EXERCICES 15 Cette expérience se formalise de la façon suivante. On définit la population P des semences produites par l agriculteur et la variable aléatoire X de loi de Bernoulli de paramètre p. X : P {, 1} 1 semence 1 si la semence est contaminée 1 semence si la semence n est pas contaminée On suppose que la population P est de très grande taille et on définit Ȳ : P n R 1 lot de semences de taille n (le nombre de semences contaminées dans le lot)/n (i) On suppose que l on peut approximer la loi de Ȳ par une loi normale. Donner les paramètres de cette lois en fonction de p et n. (ii) On définit les deux test suivants : Test 1 H : p =.2 ; H 1 : p >.2. et Test 2 H : p =.2 ; H 1 : p <.2. (a) Donner pour ces deux tests le risque de première espèce et donner leur signification concrète. (b) On suppose que n = 1. Calculer pour ces deux tests le risque de deuxième espèce pour p =.1;.2 et.3. (iii) En fait le semencier veut avoir une forte probabilité de rejeter la production si le taux de contamination est effectivement de 2% et l agriculteur veut lui avoir une forte probabilité que sa production soit acceptée si le taux de contamination est de 1%. On étudie pour cela le test : H : p =.2 ; H 1 : p =.1. (a) Donner la règle de décision pour avoir α = β. (b) Calculer n pour avoir α = β =.5. Exercice 6.3.3. Un semencier a mis au point une variété OGM d une plante résistante à un herbicide. Il désire savoir si, dans des conditions de culture normales il peut y avoir transfert du gène de résistance aux plantes rudérales à une distance donnée (1 km par exemple). Il met en place sur le terrain l expérimentation suivante :

16 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX Parcelle de rudérales 1 km Parcelle émettrice de pollen On prélève dans la parcelle rudérales n graines et on réalise un test biologique sur ces graines pour savoir s il y a eu transfert de gène. On définit la variable aléatoire suivante : X : G {, 1} 1 graine si la graine n est pas transformée 1 graine 1 si la graine est transformée On suppose que la population G est très grande et on note p la proportion dans G de graines transformées. On définit Y = (Y 1,..., Y n ) le n-échantillon Bernoullien de X et on considère la statistique S(Y ) est alors la variable aléatoire S(Y ) : G n R S : R n R y = (y 1, y 2,..., y n ) S(y) = g = (g 1, g 2,..., g n ) le nombre de graines transformées parmi les n graines (i) Quelle est la loi de la variable aléatoire X (ii) Quelle est la loi de la variable aléatoire S(Y ) (iii) Écrire la variable S(Y ) comme somme de n variables aléatoires de loi de Bernoulli indépendantes. (iv) On considère le test suivant : H : il n y a aucun transfert de gène ; H 1 : il y a transfert de gène. avec la règle de décision suivante : Si S(y) = alors on accepte l hypothèse nulle ; Si S(y) > alors on rejette l hypothèse nulle ; (a) Écrire les hypothèses nulle et alternative à l aide du paramètre p du test. (b) Quel est le risque de première espèce α? (c) Donner la puissance du test en fonction de n et p. n y i

6. EXERCICES 17 (d) Application numérique : n = 1 et p =.1;.2 et.1. (e) Visualiser le risque de deuxième espèce et la puissance du test lorsque p =.2. (f) On veut une puissance de.95 pour p =.1. Calculer n. (v) En supposant que la loi de S(Y ) puisse être approximée par une loi normale donner les paramètres de cette loi. (vi) On supposera que l on peut approximer la loi de S(Y ) par une loi normale et on prendra n = 1. On désire réaliser le test statistique suivant : H : p =.1 H 1 : p >.1 (a) Le test est-il un test unilatéral ou bilatéral? (b) On prend α =.5. Donner la règle de décision. (c) Calculer la puissance du test pour p =.5;.1;.11. (d) Visualiser sur un graphique les risques α, β, et la puissance pour p =.11. (e) Donner l allure de la fonction puissance en fonction de p pour n fixé.

18 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

Chapitre 6 Estimation 1 Introduction 1.1 Exemples Exemple 1.1.1. 1 Le merle à plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairs et les buissons des montagnes, entre 15 mètres et 2 mètres d altitude. En 1968, à la station ornithologique du Col de la Golèze située dans les Alpes à 17 mètres d altitude, 48 merles à plastron ont été capturés au filet japonais durant 89 jours d ouverture de la station. Les données de la table (6.1) ont ainsi été obtenues. Jours 1 2... 88 89 Nombre de merles capturés 2... 1 Tab. 6.1 Données initiales La table (6.2) donne alors la distribution des fréquences absolues des captures obtenues. Nombres de merles capturés 1 2 3 4 5 6 Nombres de jours 56 22 9 1 1 Tab. 6.2 Tableau des fréquences absolues La représentation graphique du tableau des fréquences relatives associées est donc fournie par le diagramme en bâtons de la figure (6.1).7.6.5 Fréquences relatives.4.3.2.1 1 2 3 4 5 k Fig. 6.1 Diagramme en bâtons On suppose que la répartition dans le temps des captures de merles est aléatoires (i.e. qu une capture n influence pas une autre capture). La population des merles est supposée très grande. On peut modéliser cette expérience par la variable aléatoire suivante : 1 Exemple provenant de B. Scherrer [5] page 242 X : J N un jour nombre de merles capturés 19

11 CHAPITRE 6. ESTIMATION Nous pouvons supposer que cette variable aléatoire suit une loi de Poisson : P (X = k) = λ k! e λ Question : Comment à partir des résultats obtenir une estimation de ce paramètre λ? Nous pouvons penser à différentes solutions : (i) Nous avons P (X = ) = e λ, nous pouvons donc penser à la formule : e ˆλ nombre de jours où il y a eu captures = nombre total de jours ( ) 56 ˆλ = ln =.463 89 (ii) Nous avons aussi E(X) = λ et nous pouvons donc penser à la formule : ˆλ = ȳ = 22 + 2 9 + 3 + 5 89 =.551 = 56 89 (iii) Mais nous avons encore V ar(x) = λ et nous pouvons donc penser à une troisième formule : ˆλ = s 2 = 1 n n (y i ȳ) 2 1 Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les éléments ont été numérotés de 1 à N, par exemple lors d un concours, mais nous ne connaissons pas cette valeur. Nous extrayons de cette population un échantillon de taille 5 et nous relevons les 5 numéros : y 1 = 23; y 2 = 54; y 3 = 366; y 4 = 326; y 5 = 77. La question est comment estimer la valeur de N à partir de ces 5 données. Là encore nous pouvons penser à plusieurs formules : (i) max,...,5 (y i ) ; (ii) max,...,5 (y i ) + min,...,5 (y i ) 1 ; (iii) 2 ỹ i (2 fois la médiane des données). 1.2 Position du problème Les deux exemples ci-dessus posent le problème de savoir quelle est la meilleure formule pour une estimation. Il faut pour cela avoir un/des critères pour pouvoir choisir. Nous allons dans la section qui suit donner la définition d un problème d estimation et définir les bonnes propriétés que doit avoir un estimateur. Nous donnerons ensuite les estimateurs pour les paramètres les plus courants. 2 Principes généraux 2.1 Formalisme mathématique, définitions Considérons le problème de l estimation d un taux de germination d une variété fixée dans des conditions expérimentales bien définies. Appelons P la population des graines supposée de taille infinie. Estimer le taux de germination c est estimer le paramètre p de la loi de Bernoulli de la variable aléatoire X : P {, 1} une graine 1 si la graine germe et sinon Pour cela on réalise l expérience qui consiste à prendre n graines et à les mettre à germer. On estimera alors le paramètre p par la fréquence de graines qui auront germé dans l échantillon. Si nous répétons cette expérience une infinité de fois, nous définissons ainsi la variable aléatoire suivante : Ȳ : P n R un échantillon de n graines le nombre de graines qui germent dans l échantillon n 2 Exemple provenant de Tommassone [7] page 1

2. PRINCIPES GÉNÉRAUX 111 C est la théorie de l échantillonnage (et la théorie des probabilités) qui nous permet d avoir des résultats sur la variable Ȳ et en particulier sa loi. Schématiquement nous avons : G =ensemble de graines p =taux de germination échantillonnage G n =ensemble de tous les échantillons de taille n Loi de probabilité de Ȳ Information sur le taux de germination Estimation Résultats sur un échantillon de taille n D une façon générale nous aurons le schéma suivant : X : P R loi de X : f(x, θ) échantillonnage Y : P n R n T : R n R Loi de T (Y 1,..., Y n ) Information sur la valeur de θ Estimation Résultats sur un échantillon de taille n T (y 1,..., y n ) POSTULATS On supposera toujours dans la suite que l on a un n-échantillon Bernoullien et donc que les variables aléatoires (Y i ),...,n sont indépendantes et de même loi. Nous écrirons alors (Y i ),...,n i.i.d 3 Définition 2.1.1 (Problème d estimation). Soit X un caractère sur une population Ω de loi f(x; θ) si X est continue et p(x; θ) si X est discrète. Estimer θ c est déterminer à partir d un échantillon (y 1,..., y n ) une valeur approchée de θ. θ s appelle un paramètre et on notera (P e ) un problème d estimation. 3 indépendantes et identiquement distribuées

112 CHAPITRE 6. ESTIMATION Remarque 2.1.2. La définition ci-dessus est valable que θ soit un réel ou un vecteur. Si l on désire par exemple estimer les paramètres µ et σ pour une variable aléatoire de loi normale, on aura : θ = (θ 1, θ 2 ) = (µ, σ) R 2. Nous n étudierons dans cette section que le cas où la variable aléatoire sera à valeurs dans R et où le paramètre sera un réel. Définition 2.1.3 (Estimateur Estimation ponctuelle). Soit (P e )un problème d estimation. On appelle estimateur toute variable aléatoire T (Y 1,..., Y n ), où (Y 1,..., Y n ) est un n-échantillon aléatoire, ayant pour but d estimer le paramètre θ. On appelle valeur estimée ou estimation ponctuelle ou estimation par point ou encore estimation la quantité ˆθ = T (y 1,..., y n ) obtenue à partir d un n-échantillon (y 1,..., y n ). Définition 2.1.4 (Estimation par intervalle Intervalle de confiance). Soit (P e ) un problème d estimation où θ est réel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 α tout intervalle [ˆθ 1 ; ˆθ 2 ] tel que la probabilité que cette intervalle contienne la valeur du paramètre θ soit égale à 1 α. Remarque 2.1.5. (i) L avantage d avoir un intervalle de confiance est que l on a ainsi une idée de la précision de l estimation. (ii) Dire que l intervalle recouvre la valeur du paramètre θ, c est dire que θ est dans l intervalle. Nous pouvons donc prendre comme définition d un intervalle de confiance tout intervalle tel que : P (θ [ˆθ 1 ; ˆθ 2 ]) = 1 α (6.1) Par abus de langage nous dirons que θ appartient à l intervalle [ˆθ 1 ; ˆθ 2 ] au niveau 1 α. Il faut bien comprendre en effet que dans l équation ci-dessus θ est une constante (c est ce que l on cherche à estimer). C est l intervalle qui est ici aléatoire. Si l on désire par exemple avoir un intervalle de confiance d un taux de germination, nous réaliserons concrètrement l expérience consistant à mettre à germer n graines. A partir des résultats de cette expérience, nous construirons l intervalle de confiance du taux de germination (voir la sous section (3.3)). Si nous réalisons une nouvelle fois cette expérience nous obtiendrons un nouvel intervalle de confiance. C est donc bien cet intervalle qui varie et non pas le taux de germination qui est ce qu il est. Par conséquent écrire θ [ˆθ 1 ; ˆθ 2 ] au niveau 1 α n est pas très rigoureux car θ, qui est une constante soit appartient à cet intervalle, soit est hors de cet intervalle ; il ne peut y être avec une probabilité de 1 α. La bonne formulation serait de dire que l intervalle [ˆθ 1 ; ˆθ 2 ] recouvre la vraie valeur du paramètre θ avec la probabilié de (1 α). Mais l habitude veut que l on emploie la première formulation. Nous allons maintenant voir les propriétés que doit posséder tout bon estimateur. 2.2 Propriétés des estimateurs La première chose que l on demande à un estimateur est de ne pas faire d erreur systématique, c est-à-dire que l estimateur donne en moyenne la bonne valeur du paramètre recherché. C est la notion d estimateur sans biais. Définition 2.2.1 (Estimation sans biais). Soit (P e ) un problème d estimation. Un estimateur T est dit sans biais si et seulement si l espérance mathématique de T est égale à la valeur du paramètre θ cherchée : E(T ) = θ Définition 2.2.2 (Estimation asymptotiquement sans biais). Soit (P e ) un problème d estimation. Un estimateur T n est dit asymptotiquement sans biais si et seulement si l espérance mathématique de T n tend vers la valeur du paramètre θ cherchée quand n tend vers + : E(T n ) θ n + Exemple 2.2.3. Considérons le problème de l estimation d une variance σ 2 dans le cas où la variable aléatoire suit une loi normale. Soit donc (Y 1,..., Y n ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la variance. Considérons l estimateur T (Y 1,..., Y n ) = 1 n Nous avons alors vu au théorème (4.4.2.1) que l on a n (Y i Ȳ )2 = S 2 (Y ) E(T ) = E(S 2 ) = n 1 n σ2

2. PRINCIPES GÉNÉRAUX 113 Par suite S 2 n est pas un estimateur sans biais de σ 2. Pour obtenir un estimateur sans biais il faut en fait prendre : T (Y 1,..., Y n ) = 1 n (Y i n 1 Ȳ )2 = n n 1 S2 (Y ) En effet la propriété de linéarité le l espérance mathématique donne immédiatement : ( ) n E n 1 S2 = n n 1 E ( S 2) = σ 2 Illustrons ceci par la simulation. Construisons 5 échantillons de taille 5 de données provenant d une loi normale N (1, 25). Pour chacun des 5 échantillons nous calculons la quantité SCE/n. Nous obtenons ainsi 5 réalisations de la variable aléatoire S 2. Traçons alors l histogramme de ces 5 nombres. Nous obtenons le deuxième graphique de la figure (6.2). Si maintenant pour les mêmes 5 échantillons nous calculons les quantités SCE/(n 1), nous obtenons 5 réalisations de la variable aléatoire n/(n 1)S 2. L histogramme de ces 5 valeurs nous donne alors le troisième graphique de la figure (6.2)..1 Données.5 SCE/n.8.4.6.3.4.2.2.1 85 9 95 1 15 11 115 25 9.5 SCE/(n 1).4.3.2.1 25 9 Fig. 6.2 Echantillonnage de S 2 et de ns 2 /(n 1) Nous pouvons observer que la valeur moyenne obtenue pour le troisème graphique est bien la valeur de la variance σ 2 recherchée alors que sur le deuxième elle est inférieure (la valeur est de 4/5σ 2 ) Remarque 2.2.4. Nous tenons a rapeller ici que l illustration via la simulation informatique n est qu une illustration. Il faudrait en fait non pas prendre 5 échantillons, mais une infinité. Ce sont les théorèmes mathématiques qui nous permettent d affirmer que le résultat est bien exact. n 1 n S 2 n est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S 2 ) = σ2 tend vers σ 2 quand n tend vers +. Une deuxième propriété, qui est fondamentale, que doit avoir tout bon estimateur est que si l on a suffisamment de données la valeur de la variable aléatoire soit très proche de la valeur du paramètre recherché. Ceci ce traduit par le fait que l estimateur soit asymptotiquement sans biais et qu il fluctue peu autour de son espérance mathématique lorsque n est grand, c est-à-dire que sa variance soit petite pour n grand. Nous débouchons ainsi sur la notion d estimateur convergent. Définition 2.2.5 (Estimateur convergent). Soit (P e ) un problème d estimation. Un estimateur T n est dit convergent si et seulement si il est asymptotiquement sans biais et si sa variance tend vers quand n tend vers + : E(T n ) θ et V ar(t n ) n + n + Exemple 2.2.6. Considérons le problème de l estimation d une moyenne µ. Soit donc (Y 1,..., Y n ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la moyenne. Considérons l estimateur T n (Y 1,..., Y n ) = Ȳn = 1 n Y i n Nous savons alors que : E(Ȳn) = µ pour tout n. Par suite cet estimateur est sans biais et donc asympotiquement sans biais. Quand à la variance de cet estimateur elle est : V ar(ȳn) = σ2 n Par suite cet estimateur est un estimateur convergent.

114 CHAPITRE 6. ESTIMATION Exemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons déjà vu à l exemple 2.2.3 que n/(n 1)S 2 est un estimateur sans biais et le théorème (4.4.2.1) nous dit que V ar(n/(n 1)S 2 n) = 2 n 1 σ4 qui donc tend vers quand n tend vers +. Par suite n/(n 1)S 2 est un estimateur convergent de la variance. Illustrons le phénomène grâce à la simulation. Construisons 5 échantillons de taille 5 de données provenant d une loi normale N (1, 25). Pour chacun des 5 échantillons nous calculons la quantité SCE/(n 1). Nous obtenons ainsi 5 réalisations de la variable aléatoire n/(n 1)S 2. Traçons alors l histogramme de ces 5 nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce même graphique tracé la fonction de densité de la variable aléatoire n/(n 1)S 2. Les deuxième et troisième graphiques de cette même figure sont obtenus de façon similaire mais avec n = 2 et n = 5. Nous avons sur le dernier graphique mis les fonctions de densité théoriques. Nous observons bien ici le phénomène de convergence : plus n est grand, plus les valeurs de la variable aléatoire se concentrent autour de la vraie valeur de la variance recherchée..1 n=5.1 n=2.8.8.6.6.4.4.2.2 25 1 25 1.1 n=5.1.8.8.6.6.4.4.2.2 25 1 25 1 Fig. 6.3 Visualisation de la convergence de la statistique ns 2 /(n 1) Nous pouvons maintenant définir un critère pour choisir entre deux estimateurs sans biais : c est celui qui aura une dispersion minimale en terme de variance. Définition 2.2.8 (Estimateur efficace). Soit (P e ) un problème d estimation. Un estimateur sans biais T n est dit efficace si quel que soit l estimateur sans biais T n, on a : V ar(t n ) V ar(t n) Exemple 2.2.9. Considérons une variable aléatoire X de loi uniforme sur [; 12]. La simulation obtenue avec 1 échantillons de taille n montre que la moyenne est plus efficace que la médiane (cf. la figure 6.4)..1 Données.8.6.4.2 2 4 6 8 1 12.4 Moyennes.4 Médianes.3.3.2.2.1.1 5 1 5 1 Fig. 6.4 Efficacité de la moyenne par rapport à la médiane

3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 115 3 Estimations des principaux paramètres 3.1 Estimation d une variance Théorème 3.1.1. Soit (P e ) le problème d estimation de la variance θ = σ 2 où X est une variable aléatoire réelle continue. Alors n n 1 S2 (Y ) : P n R ω = (ω 1,..., ω n ) 1 n 1 n (X(ω i ) Ȳ (ω))2 (i) est un estimateur sans biais de σ 2. On notera ˆσ 2 l estimation ponctuelle. (ii) si X suit une loi normale, c est un estimateur convergent et asymptotiquement efficace. Démonstration Le point (i) a été vu à la section précédente et le point (ii) sera admis. Théorème 3.1.2. Soit (P e ) le problème d estimation de la variance θ = σ 2 où X est une variable aléatoire réelle continue de loi normale alors l intervalle de confiance au niveau (1 α) est donné par : [ ] σ 2 SCE χ 2 ; SCE 1 α/2 χ 2 au niveau (1 α) α/2 Corollaire 3.1.3. Sous les mêmes hypothèses que le théorème précédent l estimation ponctuelle de l écart type σ est ˆσ = ˆσ 2 et, si la loi de la variable aléatoire de départ X est normale, l estimation par intervalle est : [ ] SCE SCE σ χ 2 ; 1 α/2 χ 2 au niveau (1 α) α/2 Démonstration Cela provient du théorème (4.4.2.1) qui dit entre autre que la variable aléatoire : K(Y ) = ns2 (Y ) σ 2 : P n R ω = (ω 1,..., ω n ) 1 n σ 2 (X(ω i ) Ȳ (ω))2 suit une loi du Khi-2 à ν = (n 1) degré de liberté si l échantillon aléatoire est Bernoullien et si la variable aléatoire X suit une loi normale. Par suite, si nous définissons les valeurs de χ 2 α/2 et χ2 1 α/2 par : P (K(Y ) < χ α/2 ) = α/2 et P (K(Y ) < χ 2 1 α/2 ) = 1 α/2 nous avons (cf. figure (6.5)) ( ) P χ α/2 < ns2 (Y ) σ 2 < χ 2 1 α/2 ( ) ns 2 (Y ) P < σ 2 < ns2 (Y ) χ 1 α/2 χ 2 α/2 = 1 α = 1 α Or à partir des données nous avons une observation de la variable aléatoire ns 2 qui est donnée par la somme des carrés des écarts SCE. D où le résultat. Exemple 3.1.4. Reprenons les données de la table 4.1 où l on s intéressait à la longueur de la rectrice centrale de la gélinotte huppée mâle, juvénile. On désire ici avoir une estimation de la variance. La variable aléatoire étudiée est : X : Ω R une gélinotte la longueur de sa rectrice

116 CHAPITRE 6. ESTIMATION.45.4.35.3.25.2.15.1.5 α/2 α/2 1 2 2 χ.25 χ.975 Fig. 6.5 Loi du Khi-2 à ν ddl L estimation ponctuelle de la variance est alors ˆσ 2 = SCE 1263647 5 158.862 = = 1822 n 1 49 49 = 37.18mm2 On peut supposer ici que la loi de la variable aléatoire est une loi normale et on peut donc calculer l intervalle de confiance à 95% de la variance : [ ] SCE χ 2 ; SCE [ ] 1822 1 α/2 χ 2 = α/2 7.222 ; 1822 = [25.95; 57.74] 31.555 L intervalle de confiance de l écart type est alors : [5.1; 7.6] au niveau.95 Remarque 3.1.5. (i) Si la loi de départ n est plus une loi normale, la formule n est plus valable car la variable aléatoire K = ns2 σ ne suit plus une loi du Khi 2 (cf la figure 4.5). 2 (ii) L intervalle de confiance n est pas symétrique : ˆσ 2 n est pas le milieu de l intervalle. (iii) On démontre que l estimation de l écart type est biaisée mais qu elle elle est asymptotiquement sans biais. 3.2 Estimation d une moyenne Théorème 3.2.1. Soit P e un problème d estimation où X est une variable aléatoire continue et θ = E(X) = µ. Alors Ȳ = 1 n n Y i (i) est un estimateur sans biais et convergent de µ ; (ii) est un estimateur efficace si X suit une loi normale. Démonstration Le (i) est immédiat et a déjà été démontré dans le chapitre de la théorie de l échantillannage. Le (ii) est admis. Théorème 3.2.2 (Intervalle de confiance de la moyenne). Soit P e un problème d estimation où X est une variable aléatoire de loi normale et θ = E(X) = µ alors l intervalle de confiance est : (i) si la variance σ 2 est connue ] σ σ µ [ȳ u 1 α/2 n ; ȳ + u 1 α/2 n au niveau (1 α) (ii) si la variance σ 2 n est pas connue ] ˆσ ˆσ µ [ȳ t 1 α/2 n ; ȳ + t 1 α/2 n au niveau (1 α) Démonstration (i) Si σ est connue alors la théorie de l échantillonnage nous dit que la variable aléatoire Ȳ suit une loi normale N (µ, σ2 n ). Nous avons donc : ( ) σ P µ u 1 α/2 n Ȳ µ + u σ 1 α/2 = 1 α n

3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 117 où u 1 α/2 est défini par P (U < u 1 α/2 ) = 1 α/2, U étant une variable aléatoire de loi normale centrée réduite. On en déduit alors que : ( ) σ P Ȳ u 1 α/2 n µ Ȳ + u σ 1 α/2 = 1 α n d où le résultat. (ii) Lorsque X suit une loi normale N (µ, σ 2 ), il est toujours vrai que U = Ȳ µ σ suit une loi normale centrée n réduite. Le problème est ici que σ est inconnue. L idée immédiate est de remplacer σ par son estimation ˆσ. Ceci nous conduit à construire le variable aléatoire suivante : T (Y ) : P n R ω = (ω 1,..., ω n ) T (ω) = Nous pouvons reécrire cette variable aléatoire de la façon suivante T (Y ) = Ȳ µ σ/ n ns 2 (Y ) σ 2 /(n 1) Ȳ (ω) µ Pn (X(ωi) Ȳ (ω))2 (n 1)n = U Z/ν où U est une variable aléatoire de loi normale centrée réduite, Z est une variable aléatoire de loi du Khi-2 à ν = n 1 degré de liberté, et ces deux variables aléatoires sont indépendantes. Par suite T suit une loi de Student à ν = (n 1) ddl. Par conséquent, si nous définissons t 1 α/2 par : P (T (Y ) < t 1 α/2 ) = 1 α/2 nous avons (cf. figure (6.6)) : P ( t 1 α/2 < T (Y ) < t 1 α/2 ) = 1 α.4.35.3.25.2.15.1.5 α/2 4 4 t.25 t.975 α/2 Nous en déduisons donc P ( P Fig. 6.6 Loi de Student à ν ddl t 1 α/2 < Ȳ µ S 2 (Y ) n 1 < t 1 α/2 Ȳ t 1 α/2 S 2 (Y ) n 1 < µ < Ȳ + ) S 2 (Y ) n 1 = 1 α = 1 α Nous avons à partir de nos données une observation de Ȳ t 1 α/2 S 2 (Y ) n 1

118 CHAPITRE 6. ESTIMATION qui est ȳ t 1 α/2 ˆσ 2 Nous avons le même type de résultat pour la deuxième borne de l intervalle. D où le résultat. Exemple 3.2.3. Reprenons les données de la table 4.1 où l on s intéressait à la longueur de la rectrice centrale de la gélinotte huppée mâle, juvénile. Calculons l intervalle de confiance de la moyenne. Nous supposons toujours ici que la loi de la vaviable aléatoire est normale. Nous avons obtenu à l exemple 3.1.4 ȳ = 158.86 et ˆσ = 6.979. Le nombre de données est n = 5, et donc ν = 49. Par suite nous avons t.975,ν=49 = 2.96. Ce qui nous donne comme intervalle de confiance à 95% : [ µ 158.86 2.96 6.979 ; 158.86 2.96 6.979 ] = [157.13; 16.59] au niveau.95 5 5 Le théorème précédent nous donne les résultats théoriques lorsque la loi de la variable aléatoire X est normale, mais on sait, grâce au théorème limite central que Ȳ suit asymptotiquement une loi normale, c est-à-dire que pour n grand, on peut approximer la loi de Ȳ par une loi normale. Il reste à savoir à partir de quand on est en droit d utiliser cette approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de départ sera disymétrique, plus n devra être grand. La proposition suivante donne une règle couramment utilisée. Proposition 3.2.4. Soit P e un problème d estimation où X est une variable aléatoire continue et θ = E(X) = µ alors l intervalle de confiance est : (i) si la variance σ 2 est connue et si n > 5 ] σ σ µ [ȳ u 1 α/2 n ; ȳ + u 1 α/2 n n au niveau (1 α) (ii) si la variance σ 2 n est pas connue et si n > 3 ] ˆσ ˆσ µ [ȳ u 1 α/2 n ; ȳ + u 1 α/2 n au niveau (1 α) Définition 3.2.5 (Erreur standard). 4 On appelle erreur standard l estimation ponctuelle de l écart type de la moyenne, c est-à-dire la quantité : ˆσ/ n Remarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d erreur standard. Nous pouvons utiliser maintenant les résultats précédents pour déterminer le nombre n de mesures nécessaires afin d obtenir une estimation avec une précision voulue. Considérons par exemple le cas où la variable aléatoire X suit une loi normale, alors l intervalle de confiance au niveau (1 α) est donné par : ] ˆσ ˆσ µ [ȳ t 1 α/2 n ; ȳ + t 1 α/2 n au niveau (1 α) Par suite si nous posons d = t 1 α/2 ˆσ n nous avons alors Nous en déduisons l équation suivante µ [ȳ d; ȳ + d] au niveau (1 α) n ( t1 α/2ˆσ d ) 2 = (6.2) Par suite si nous connaissons la valeur du rapport ˆσ/d, nous pouvons en déduire la valeur de n. Attention n apparaît deux fois dans l équation (6.2), il est en effet présent de façon implicite dans t 1 α/2 qui est en lien avec une loi de Student à (n 1) ddl. En pratique, pour avoir un ordre de grandeur de n on remplacera ce terme t 1 α/2 par u 1 α/2. 4 standard error en anglais

3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 119 Exemple 3.2.7. On se propose de déterminer la quantité d olives que l on doit prendre pour pouvoir estimer à une décimale près la teneur en huile (exprimée en pourcentage du poids frais). Comme nous n avons au départ aucune information, nous prenons, dans un premier temps 1 olives. On suppose que la variable aléatoire teneur en huile suit une loi normale. Après avoir analysé celles-ci, nous avons obtenu : ȳ = 28.5% et ˆσ = 5.7%. Nous prenons α =.5. L intervalle de confiance de µ au niveau.95 est alors de [ ] 5.7 5.7 28.5 t 1 α/2 ; 28.5 + t 1 α/2 = [28.5 1.12; 28.5 + 1.12] 1 1 n = 1 est donc trop petit. Déterminons maintenant la taille de l échantillon nécessaire. Nous conservons l estimation de σ obtenue lors de notre première expérience et nous remplaçons t 1 α/2 par u 1 α/2 dans l équation (6.2). Nous obtenons ainsi 1.96 5.7 d = =.1 n soit n 13 On vérifie a posteriori que la valeur de n est grande et donc que l approximation de t 1 α/2 par u 1 α/2 est correcte. Si n est faible, il faut itérer pour trouver la solution de l équation (6.2). 3.3 Estimation d une proportion Théorème 3.3.1. Soit P e un problème d estimation où X est une variable aléatoire de loi de Bernoulli B(p) alors (i) Ȳ est un estimateur sans biais et convergent du paramètre p et l estimation ponctuelle est donc donnée par ˆp = k obs n ; (ii) si l échantillonnage est avec remise l intervalle de confiance au niveau (1 α) est donné par p [p 1 ; p 2 ] où p 1 et p 2 sont déterminés par : et P (Ȳ k obs n ) = n i=k obs C i np i 2(1 p 2 ) n i = α/2 (6.3) P (Ȳ k kobs obs n ) = Cnp i i 1(1 p 1 ) n i = α/2 (6.4) Démonstration Cela provient tout simplement de la théorie de l échantillonnage et pour (ii) du fait que nȳ suit une loi binômiale. Les équations 6.3 et 6.4 sont difficiles à résoudre et on sait que l on peut souvent en pratique approximer une loi binômiale ou hypergéométrique par une loi normale d où la proposition suivante. Nous notons dans cette proposition ˆσ p l estimation de la variance de X qui est données par : (i) ˆσ p 2 = ˆpˆq si l échantillonnage est avec remise ; n 1 (ii) ˆσ p 2 = ˆpˆq N n si l échantillonnage est sans remise. n 1 N Proposition 3.3.2. Soit P e un problème d estimation où X est une variable aléatoire de loi de Bernoulli B(p). Si n est supérieur aux valeurs mentionnées dans la table 6.3 alors l intervalle de confiance est données par [ p ˆp u 1 α/2ˆσ p 1 2n ; ˆp + u 1 α/2ˆσ p + 1 ] au niveau (1 α) 2n Démonstration Puisque l on peut faire l approximation par une loi normale on obtient l intervalle en prenant l intervalle de confiance d une moyenne. Le terme 1 2n est un terme de correction de non continuité [3] Remarque 3.3.3. (i) Pour les valeurs de n inférieures à 1 et pour n/n <.1 on a construit des tables statistiques qu il suffit d aller consulter. (ii) pour les valeurs de p très proche de on peut aussi utiliser l approximation de la loi binômiale par une loi de poisson.

12 CHAPITRE 6. ESTIMATION p n.5 3.4 5.3 8.2 2.1 6.5 14 Tab. 6.3 valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l intervalle de confiance d une proportion (iii) Quand l échantillonnage est sans remise, ce qui est toujours le cas en pratique!!!, et quand n/n >.1, nous devons travailler avec la loi hypergéométrique, ce qui complique les calculs. Il faut pour répondre à la question alors se tourner vers les logiciels spécifiques. Exemple 3.3.4. 5 A la fin de l été et au cours de l automne 1975, une épidémie virale provoqua la mort d environ 1 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L analyse d un échantillon de 146 victimes, dont le sexe a pu être identifié, révéla que seulement 41 mâles dont 1 faons composaient l échantillon. Quel est l intervalle de confiance au niveau.95 du pourcentage de mâles morts de cette maladie lors de l épidémie de 1975? L échantillon se compose de 146 animaux et l estimation ponctuelle de la proportion est ˆp = 41 146 =.28 Comme cette valeur est proche de.3 et que l effectif de l échantillon n est supérieur à 8, nous pouvons utiliser l approximation normale. L effectif de la population est ici environ N = 1, donc ˆσ p =.28.72 145 1 146 1 =.344 par suite l intervalle de confiance est : [ p.28 1.96.34 1 ] 1 ;.28 + 1.96.34 + = [.21;.35] 292 292 au niveau (1 α) 4 Compléments 4.1 Lien entre intervalle de confiance et test L intervalle de confiance de la moyenne dans le cas où l on connaît la variance σ 2 et où la variable aléatoire X est normale est donnée par :» σ σ ȳ u 1 α/2 n ; ȳ + u 1 α/2 n au niveau 1 α Considérons maintenant, toujours sous les mêmes postulats, le test bilatéral suivant : H : µ = µ H 1 : µ µ Nous aurons alors» la règle de décision suivante : σ σ si ȳ µ u 1 α/2 n ; µ + u 1 α/2 n alors on accepte l hypothèse nulle H au risque α ;» σ σ si ȳ µ u 1 α/2 n ; µ + u 1 α/2 n alors on accepte l hypothèse alternative H 1 au risque α. Ce qui est equivalent» à : σ σ si µ ȳ u 1 α/2 n ; ȳ + u 1 α/2 n alors on accepte l hypothèse nulle H au risque α ;» σ σ si µ ȳ u 1 α/2 n ; ȳ + u 1 α/2 n alors on accepte l hypothèse alternative H 1 au risque α. En d autres termes, on peut considérer l intervalle de confiance comme l ensemble des valeurs de la moyenne µ pour lesquelles on accepterait l hypothèse nulle dans le test bilatéral. 4.2 Illustration Soit P e un problème d estimation où la loi de la variable aléatoire X est continue et où θ R. Soit T un estimateur de θ. Fixons θ dans R. Si nous connaissons la loi de T pour ce paramètre θ, nous pouvons déterminer les valeurs h 1(θ ) et h 2(θ ) telles que : 5 Exemple provenant de B. Scherrer [5] page 351 P (T < h 1(θ )) = α/2 P (T < h 2(θ )) = 1 α/2

4. COMPLÉMENTS 121 Nous avons ainsi défini deux fonctions h 1 et h 2. Nous avons aussi P (h 1(θ ) < T < h 2(θ )) = 1 α Si maintenant nous calculons à partir d un n-échantillon l estimation ponctuelle ˆθ = T (y 1,..., y n) nous avons la relation suivante : Par conséquent nous avons bien : ˆθ [h 1(θ ), h 2(θ )] θ [ˆθ 1; ˆθ 2] = [h 1 2 (ˆθ); h 1 1 (ˆθ)] P (θ [ˆθ 1; ˆθ 2]) = 1 α Nous retrouvons ici la vraie signification de l intervalle de confiance : la probabilité que l intervalle [ˆθ 1; ˆθ 2] recouvre la vraie valeur du paramètre θ est 1 α. C est l intervalle qui varie, non le paramètre θ. La figure (6.7) visualise ceci estimations paramètres Fig. 6.7 Intervalle de confiance 4.3 Estimation robuste nous avons vu que pour avoir un bon estimateur : estimateur sans biais, convergent et si possible efficace, nous avions souvent besoin du postulat de normalité. Or ceci n est pas toujours le cas en pratique. On peut donc aussi rechercher des estimateurs peu sensibles à la loi de probabilité. Un estimateur ayant cette propriété sera appelé un estimateur robuste. Par exemple, pour une loi symétrique, la médiane est un estimateur plus robuste de E(X) que la moyenne arithmétique. Il existe un deuxième type de robustesse. Elle concerne l insensibilité à des valeurs aberrantes. La encore la médiane sera plus robuste que la moyenne arithmétique. Les qualités de robustesse et d efficacité sont très souvent en opposition : on ne peut pas gagner sur tous les tableaux. En pratique, pour estimer une moyenne, on essaiera, à l aide des graphiques des boîtes à moustache par exemple, de détecter les valeurs aberrantes, puis on calculera l estimation de E(X) par la moyenne arithmétique sur les données restantes. L étude de la robustesse est hors de propos ici, mais il s agit d une propriété en pratique importante. 4.4 Représentation graphique La figure (6.8) montre comment nous pouvons visualiser l intervalle de confiance de la moyenne pour l exemple (3.2.3). Attention, certains auteurs visualisent l intervalle [ȳ es; ȳ + es] où es = ˆσ n est l erreur standard!!! 175 données 175 Box plot 17 17 165 165 16 16 155 Values 155 15 15 145 145 14 14.5 1 1.5 2 1 Column Number Fig. 6.8 Intervalle de confiance longueur de la rectrice centrale La figure (6.1) montre quant-à elle les différents intervalles de confiance de la moyenne à 95% pour les données des longueurs d ailes de mésanges noires selon leur âge et sexe. Remarque 4.4.1. Nous pouvons voir sur les graphiques des boîtes à moustaches qu il y a peut-être des données aberrantes. Les intervalles de confiances ont ici été calculés sur toutes les données car nous n avions aucune information nous permettant d exclure une de ces données.

122 CHAPITRE 6. ESTIMATION 68 67 66 65 Longueur d ailes en mm 64 63 62 61 6 59 58 1 2 3 4 Mâles adultes Mâles immatures Femelles adultes Femelles immatures Fig. 6.9 Boîtes à moustaches longueurs d ailes 68 67 66 65 Longueur d ailes en mm 64 63 62 61 6 59 58.5 1 1.5 2 2.5 3 3.5 4 4.5 Mâles adultes Mâles immatures Femelles adultes Femelles immatures Fig. 6.1 Données et intervalle de confiance longueurs d ailes 5 Exercices 5.1 Exercices avec corrigés Exercice 5.1.1. 6 Une biochimiste étudie un type de moisissure qui attaque les cultures de blé. La toxine contenue dans cette moisissure est obtenue sous la forme d une solution organique. On mesure la quantité de substance par gramme de solution. Sur 9 extraits on a obtenu les mesures suivantes : 1.2.8.6 1.1 1.2.9 1.5.9 1. On suppose que cette quantité de substance suit une loi normale. (i) Calculer les estimations ponctuelles de la moyenne et de la variance ; (ii) Calculer l intervalle de confiance à 9% de la variance ; (iii) Calculer les intervalles de confiance à 9% et à 99% de la moyenne. correction. (i) L estimation ponctuelle de la moyenne est ˆµ = ȳ = 1 (1.2 +.8 + + 1.) = 1.222 n (ii). n n SCE = (y i ȳ) 2 = yi 2 nȳ 2 = 9.96 9(1.222) 2 =.5556 6 Données provenant du livre de Stephan Morgenthaler, Introduction à la statistique, exercice 3 page 146

5. EXERCICES 123 L estimation ponctuelle de la variance est donc ˆσ 2 = SCE n 1 =.5556 =.694 8 Et l estimation ponctuelle de l écart type est ˆσ = σ 2 =.2635. Remarque. Suivant la précision avec lesquels on fait les calculs intermédiaires on obtiendra des résultats plus ou moins différents de ceux données ici. Nous n insisterons pas sur ce point dans la mesure ou aujourd hui les calculs sont fait sur l ordinateur. (iii) La loi étant supposée normale on a pour intervalle de confiance de la variance [ SCE σ 2 χ 2 ; SCE ].95 χ 2 à 9%.5 [.5556 σ 2 15.57 ;.5556 ] à 9% 2.733 σ 2 [.358;.233] à 9% (iv) La loi étant supposée normale on a comme intervalle de confiance pour la moyenne ] ˆσ ˆσ µ [ȳ t 1 α/2 n ; ȳ + t 1 α/2 n au niveau 1 α Ici α =.1 et ν = n 1 = 8 donc t 1 α = 1.86 et [ µ 1.222 1.86.2635 ; 1.222 + 1.86.2635 ] 9 9 µ [.8588; 1.1856] à 9%. à 9%. Pour α =.1, on a t 1 α/2 = 3.355 et on obtient µ [.7275; 1.3169] Remarque. On peut constater que plus le degré de confiance est grand, plus l intervalle est grand ; ce qui est logique. Exercice 5.1.2. 7 Le ministère de la construction désire connaître le nombre de garages qu il est souhaitables de construire avec une H.L.M., afin que les locataires puissent y ranger leur voiture. (i) Sur 1 ménages on en a trouvé 4 qui possédaient une voiture. Donner l intervalle de confiance à 95% de la proportion des ménages qui possèdent une voiture. On supposera que l approximation par la loi normale est correcte. (ii) On suppose connu la proportion p des ménages possédant une voiture. Exprimer n le nombre de ménages en fonction de p et de d que l on interroger pour être sûr à 97% que l estimation ponctuelle soit dans un intervalle [p d; p + d]. Pour d fixé quelle est la valeur de p la plus défavorable, c est-à-dire celle qui donne la valeur de n la plus grande. Calculer n pour d =.1;.5 et p =.4 (iii) On interroge 3238 ménages. On trouve parmi eux 971 possesseurs de voitures. (a) Donner l estimation ponctuelle de la proportion p. (b) Donner l intervalle de confiance à 99% de la proportion p. Remarque 5.1.1. Nous avons maintes fois fait l approximation d une loi binômiale par une loi normale. L intérêt de cette approximation est de permettre des calculs plus simple. Pour que cette approximation soit correcte il faut que n soit suffisamment grand et que p ne soit pas trop proche de ou de 1. Dans le cas où le paramètre p est très proche de la bonne approximation pour la loi binômiale est la loi de Poisson. Le tableau ci-dessous donne les limites de l approximation : 7 Exercice n 81 du livre de C. Labrousse Statistique exercices corrigés avec rappels de cours

124 CHAPITRE 6. ESTIMATION Paramètre p Valeur minimale de n pour une approximation par la loi normale.5 3.4 5.3 8.2 2.1 6.5 14. poisson Il ne s agit ici que de résultats empiriques que nous utiliserons très souvent. correction. (i) On a ˆp = 4/1 =.4 et ˆσ 2 p = Par suite l intervalle de confiance de p est ˆpˆq.4.6 = = 2.421 3 n 1 99 p [ˆp u 1 α/2ˆσ p 1/2n; ˆp + u 1 α/2ˆσ p + 1/2n] au niveau 1 α p [.4 1.96 2.421 3 1/2;.4 + 1.96 2.421 3 + 1/2] à 95% p [.298;.515] à 95% (ii) On est ici dans la théorie de l échantillonnage, en effet on suppose que l on connaît la valeur et p et on cherche n pour que l estimation ˆp soit suffisamment proche de p, c est-à-dire dans un intervalle [p d; p + d] avec une probabilité de.97. L estimateur est ici Ȳ et on sait que l on peut supposer que cette variable aléatoire suit une loi normale N (p, pq/n). Par suite on a P ( [ ]) pq pq Ȳ p u 1 α/2 n ; p + u 1 α/2 = 1 α n Par suite pour avoir P (Ȳ [p d; p + d]) =.97, il suffit de prendre α =.3 et pq d = u 1 α/2 n ( u1 α/2 ) 2 n = p(1 p) d avec ici u 1 α/2 = u.985 = 2.17. La fonction n(p) est donc une parabole concave (n (p) < ) et le maximum sur [; 1] est en.5 (unique point où n (p) = ). (voir la figure 6.11) 12 1 8 n 6 4 2.1.2.3.4.5.6.7.8.9 1 p Fig. 6.11 n en fonction de p Pour p =.4 et d =.1 on trouve n 1131 et pour p =.4 et d =.5 on trouve n 452. (iii) (a) ˆp = 971/3238 =.299.

5. EXERCICES 125 (b) u.995 = 2.576 donc [ ].299.71.299.71 p.299 2.576 ;.299 + 2.576 3237 3237 p [.28;.32] à 99% à 99% Exercice 5.1.3. 8 Les sondages sont largement utilisés dans le marketing direct : il arrive souvent, en effet, que l on estime par sondage le rendement d un fichier donné, que l on souhaite comparer les rendements de plusieurs fichiers, ou encore que, disposant de plusieurs fichiers, l on souhaite estimer par sondage le rendement global de l ensemble des fichiers. Dans cet exercice, on suppose l existence d un fichier de N =2 adresses. On note p le rendement inconnu du fichier à une offre d abonnement à prix réduit avec calculette offerte en prime ; c est donc la proportion d individus qui s abonneraient si l offre était faite à tous les individus du fichiers. On prélève au hasard, sans remise, n individus. On note : P la population des 2 individus ; f = n N ; σ 2 = pq ; Ȳ la variable aléatoire Ȳ : P n R nombre d individus qui s abonnent n individus n Nous pouvons dans ce cas approximer la loi de la variable Ȳ par une loi normale N (p, (1 f)σ2 ). (L échantillonnage n est sans remise et nous ne pouvons ici l approximer par un échantillonnage avec remise). (i) On suppose que p =.2. Quelle taille d échantillon doit-on prendre pour estimer p avec une précision absolue de.5% et un degré de confiance de 95% ; (ii) Même question pour des précisions de.3% et.1% ; (iii) Le test a porté sur 1 adresses, et on a noté 23 abonnements. Donner l intervalle de confiance à 95% de p et du nombre total d abonnements si l offre était faite sur l ensemble du fichier. correction. Remarque. Dans le cours, théorème 4.1.1, on dit que alors qu ici on a V ar(ȳ ) = N n σ 2 N 1 n (1 f) (1 σ2 n = n ) σ 2 N n = N n N La bonne formule est bien sûr celle du cours, mais ici N est suffisamment grand pour confondre N et N 1. (i) La variable de départ est ici X : P {, 1} 1 individu 1 s il s abonne σ 2 n 1 individu s il ne s abonne pas X suit une loi de Bernoulli de paramètre p et a donc pour variance pq. On cherche donc a estimer p et on nous dit que Ȳ peut être approximée par une loi normale de paramètre N (p, (1 f)pq/n). Nous pouvons donc écrire P (p u 1 α/2 (1 f) pq n Ȳ p + u 1 α/2 (1 f) pq ) = 1 α n Or ici on veut P (p d Ȳ p + d) = 1 α avec p =.2 ; d =.5 ; 8 Exercice 5 page 8 de l ouvrage Exercices de sondages A.N. Dussaix et J.M. Grosbras, Ed. Economica 1992

126 CHAPITRE 6. ESTIMATION α =.5. Nous pouvons maintenant exprimer n en fonction de d, N, p et α. On veut (ii) Application numérique ( d pq n = d = u 1 α/2 ( 1 n N u 1 α/2 ( d ) 2 ( = 1 n ) pq N u 1 α/2 Npqu2 1 α/2 ) + pq N = n = Nd 2 + pqu 2 1 α/2 ) pq n d.5.3.1 n 2967 83 5472 n = pq n pq N (iii) n = 1 et ˆp = 23/1 =.23. L intervalle de confiance est ˆpˆq p [p u 1 α/2 (1 f) n 1 1 ] 2n ; p + u ˆpˆq 1 α/2 (1 f) n 1 1 2n au niveau 1 α. Pour le calcul on peut ici négliger le terme en 1/2n p [p u 1 α/2 (1 f) ˆpˆq ] n ; p + u 1 α/2 (1 f) ˆpˆq n et on obtient comme intervalle de confiance sur le nombre d abonnés [.2N;.26N] = [4; 52] à 95%. 5.2 Exercices avec indications Exercice 5.2.1. 9 Intervalle de confiance du coefficient de corrélation linéaire On rappelle que le coefficient de corrélation linéaire d un couple de variable aléatoire (X, Y ) est donné par : L estimation ponctuelle est donnée par : ˆρ = ρ = cov(x, Y ) σ(x)σ(y ) cov(x, y) SP E(x, y) = s x s y SCE(x)SCE(y) Pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut que le couple de variable aléatoire (X, Y ) soit de loi normale de dimension 2. La distribution d échantillonnage est toutefois complexe. cependant Fisher a montré que la variable auxiliaire : Z = 1 ( ) 1 + R 2 ln 1 R obéissait à une loi très proche de d une loi normale de paramètres : E(Z) = 1 ( ) 1 + ρ 2 ln ; V ar(z) = 1 1 ρ n 3 Aussi pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut : 9 Exemple provenant du livre de Scherrer page 591 et suivantes

5. EXERCICES 127 (i) calculer (ii) Calculer l intervalle ẑ = f(ˆρ) = 1 ( ) 1 + ˆρ 2 ln ; 1 ˆρ 1 1 [ẑ u 1 α/2 n 3 ; ẑ + u 1 α/2 n 3 ] (iii) Calculer à l aide de la transformation de Fisher inverse, c est-à dire à f 1, les limites de l intervalle de confiance de ρ. Application Dans une étude sur la dynamique des populations naturelles de la tenthrède du pin (Diprion frutetarum) de Oliveira (1972) a observé la capacité de reproduction en fonction de différentes mesures du cocon et de l insecte adulte. La capacité de reproduction a été évaluée par le nombre y d oocytes (œufs) matures par cocon. Parmi les mesures prises sur le cocon figure la longueur x en millimètres de ce dernier. Les données relatives à ces observations sont les suivantes : x y x y x y 8.5 6 9.5 89 9.4 73 8. 27 7.8 37 8.9 68 9. 72 8.8 51 7.9 29 7.7 41 9.5 89 8.2 28 8.5 66 8.8 42 8.8 47 8. 46 9. 33 8. 46 9.1 57 9.4 65 9. 55 9. 99 7.8 42 8.5 47 9.3 85 8.6 57 8.9 85 8.4 48 7.8 48 8.7 72 9.5 86 9.1 85 8.8 67 8.2 47 9.7 77 8.8 6 9.5 93 9. 78 8.6 53 8.9 45 8.5 66 8.4 6 8.5 55 9. 71 9.4 32 9.1 79 9.2 67 8.8 69 8.5 61 8.8 85 9.5 98 8.5 77 7.8 48 9. 58 8.5 77 8.7 49 8. 43 8.9 43 9. 39 8.5 64 8.5 56 9.3 76 8.6 7 7.4 25 8.5 82 9.1 33 1. 56 9.8 48 8.8 57 On donne : i x i = 63.5mm i y i = 4139œufs i x2 i = i 5299.11mm2 y2 i = 271681œufs2 i x iy i = 36576.4 (i) Donner l intervalle de confiance à 99% du coefficient de corrélation linéaire. Indications. On trouve ˆρ =.54 et l intervalle de confiance à 99% est [.28;.73]. Exercice 5.2.2. Les montants de timbres ont été relevés sur un échantillon pris au hasard de 4 paquets traités par la poste d une zone de distribution un jour donné. On suppose que la population des paquets est grande et que la loi de la variable aléatoire modélisant le prix est normale. On donne ȳ = 4.7 euros et SCE = 38 (i) Donner une estimation ponctuelle ˆσ de l écart type de la variable aléatoire prix. (ii) Pouvez-vous donner l intervalle de confiance à 9% de cet écart type. Pour ν > 1 on peut approximer une loi du Khi-2 par (U+ 2ν 1) 2 2 où U suit une loi normale centrée réduite. (iii) Donner l intervalle de confiance à 9 % de la moyenne µ de la variable aléatoire prix. (iv) Calculer l intervalle [ȳ ˆσ n ; ȳ + ˆσ n ]. Quel niveau de confiance est associé à cet intervalle?

128 CHAPITRE 6. ESTIMATION (v) Si on tirait 1 échantillons de 4 paquets indépendamment les uns des autres, et si on calculait pour chacun d eux l intervalle de confiance à 9%, quelle proportion de ces 1 intervalles contenant effectivement la valeur inconnue de µ peut-on attendre? (vi) Sur quelle population cette expérience permet-elle de conclure? Indications. (i) ˆσ 2 = 7.72. (ii) (iii) σ 2 [6.9; 8.71] à 9% µ [4.47; 4.93] à 9% (iv) (1 α) =.6826 Exercice 5.2.3. Un économiste souhaite connaître la variabilité des revenus des habitants d une ville donnée. On sait, par des études antérieures, que l on peut considérer la loi de la variable aléatoire revenus est une loi log normale. Il collecte pour son étude 1 données et obtient les estimations suivantes à partir de ces données : ˆµ = 1 ; ˆσ 2 = 4. (i) Donner un intervalle de confiance à 99% de la moyenne. (ii) On désire, toujours avec un degré de confiance de 99%, une précision absolue pour l intervalle de confiance d = 1. Combien faut-il de données? (iii) Pouvez-vous donner un intervalle de confiance à 9% de la variance? (iv) Après avoir discuté avec l économiste, on s aperçoit que ces données on été obtenues en interrogeant les personnes dans la semaine et l après-midi par téléphone. Quels problèmes cela pose-t-il? Indications. (i) µ [99484.8; 1515.2] à 99% (ii) n 2654 (iii) Pensez aux hypothèses. 5.3 Exercices sans indications Exercice 5.3.1. Geissler a observé dans 5368 familles ayant 8 enfants, 22123 garçons et 28417 filles. (i) Donner l intervalle de confiance à 95% de la proportion de garçons dans la population. (ii) Commentaire. Exercice 5.3.2. 1 On a mesuré la quantité d alcool total (mesurée en g/l) contenue dans 1 cidres doux du marché. On suppose que la quantité d alcool des cidres suit une loi normale de moyenne µ et d écart-type σ. On a obtenu les valeurs suivantes : 5.42, 5.55, 5.61, 5.93, 6.15, 6.2, 6.79, 7.7, 7.37. (i) Déterminer l intervalle de confiance à 95% de la moyenne : (a) si l on suppose que σ =.6g/l ; (b) si σ est inconnu. (ii) Déterminer un intervalle de confiance de σ 2 à 95%. Exercice 5.3.3. On a pesé 15 poulpes mâles pêchés au large des côtes mauritaniennes. On suppose que pour cette espèce de poulpe, le poids suit une loi normale. On a obtenu les valeurs suivantes (en grammes) : 115, 15, 17, 18, 18, 185, 22, 27, 29, 3, 31, 35, 39, 4, 54 (i) Donner l intervalle de confiance de la moyenne à 95%. Donner l amplitude de cet intervalle. 1 www.cnam.fr/math/img/pdf/fiche8.pdf

5. EXERCICES 129 (ii) Si n désigne la taille d un échantillon, donner l amplitude de l intervalle de confiance en fonction de n. (iii) On souhaite construire un intervalle de confiance de la moyenne à 95% d une amplitude de 5g. Quelle taille d échantillon faut-il? Exercice 5.3.4. Cet exercice est difficile. 11 Un commissaire aux Comptes contrôle un stock composé de N = 2 références d une valeur totale V inconnue. Les documents comptables fournissent une valeur totale d inventaire de 544756 d Euros. On définit les deux variables aléatoires suivantes : X : S R un article sa valeur comptable d inventaire Y : S R un article sa valeur réelle On note µ X et µ Y les espérances mathématique des variables X et Y ; et σx 2 et σ2 Y les variances des variables X et Y. (i) Les variables aléatoires X et Y sont-elles a priori indépendantes? (On justifiera la réponse). (ii) Le commissaire fait tirer sans remise un échantillon de n = 16 références dans le stock afin d estimer V et V (valeur comptable moyenne par référence). On obtient ȳ = 275, 64 Euros et ˆσ y = 1527, 31 Euros. On suppose que l on peut approximer la loi de Ȳ par une loi normale N (µ, (1 n N )σ2 Y n ). (a) Donner un intervalle de confiance à 99% de µ Y. (b) Donner l estimation ponctuelle de V et un intervalle de confiance à 99% de V. (c) Conclusion. (d) On veut une précision absolue, c est-à-dire une demi longueur de l intervalle de confiance, de 1 pour la moyenne µ Y. Donner le nombre d articles qu il faut prendre. (e) Quelle est la valeur de µ X? (iii) On pose D = Y X, Y d = µ X + D et Ȳd = µ X + D (a) Calculer E(Ȳd) en fonction de µ Y. (b) On démontre que : V ar(ȳd) = ( 1 n ) V ar(yd ) N n On suppose que Ȳd suit une loi normale. Dans l échantillon on a trouvé : d = 1.67 Euros et ˆσ D = 41.82 Euros. Donner l intervalle de confiance à 99% de µ Y. (c) Commentaires 11 Exercice 7 de Exercices de sondages A-M. Dussaix et J-M Grosbras

13 CHAPITRE 6. ESTIMATION

Bibliographie [1] Gildas Brossier and Anne-Marie Dussaix. Enquêtes et sondages. Méthodes, modèles, applications, nouvelles technologies. Dunod, 1999. ISBN : 2 1 423 5. [2] Donald E. Catlin. Estimation, Control, and the Discrete Kaman Filter. Springer, 1989. [3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977. [4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in north western new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976. [5] Bruno Scherer. Biostatistique. Gaëtan Morin, 1984. [6] Yves Tillé. Théorie des sondages, échantillonnage et estimation en population finies. Cours et exercices corrigés. Dunod, 21. ISBN : 2 1 5484 8. [7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMÉTRIE, Modélisation de phénomènes biologiques. Masson, 1993. 131