Résumé de probabilités et inférence statistique. Cours de 2ème BAC aux FUNDP

Documents pareils
PROBABILITES ET STATISTIQUE I&II

Annexe commune aux séries ES, L et S : boîtes et quantiles

Loi binomiale Lois normales

TSTI 2D CH X : Exemples de lois à densité 1

Représentation d une distribution

Précision d un résultat et calculs d incertitudes

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Chapitre 3. Les distributions à deux variables

Probabilités sur un univers fini

TABLE DES MATIERES. C Exercices complémentaires 42

Lois de probabilité. Anita Burgun

Chapitre 3 : INFERENCE

TESTS D'HYPOTHESES Etude d'un exemple

VI. Tests non paramétriques sur un échantillon

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Séries Statistiques Simples

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Probabilités Loi binomiale Exercices corrigés

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cours de Tests paramétriques

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

La nouvelle planification de l échantillonnage

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Probabilités conditionnelles Loi binomiale

Programmes des classes préparatoires aux Grandes Ecoles

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Simulation de variables aléatoires

Table des matières. I Mise à niveau 11. Préface

4 Distributions particulières de probabilités

Fonctions de plusieurs variables

Probabilités sur un univers fini

Feuille d exercices 2 : Espaces probabilisés

Moments des variables aléatoires réelles

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Probabilités III Introduction à l évaluation d options

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Statistiques Descriptives à une dimension

Continuité et dérivabilité d une fonction

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Limites finies en un point

Statistique : Résumé de cours et méthodes

La simulation probabiliste avec Excel

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Image d un intervalle par une fonction continue

Continuité en un point

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Introduction à la Statistique Inférentielle

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

3. Caractéristiques et fonctions d une v.a.

Les devoirs en Première STMG

Probabilités conditionnelles Loi binomiale

Leçon N 4 : Statistiques à deux variables

Théorie des sondages : cours 5

Travaux dirigés d introduction aux Probabilités

Qu est-ce qu une probabilité?

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Raisonnement par récurrence Suites numériques

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Variables Aléatoires. Chapitre 2

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Projet de Traitement du Signal Segmentation d images SAR

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

BACCALAUREAT GENERAL MATHÉMATIQUES

Ressources pour le lycée général et technologique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Suites numériques 3. 1 Convergence et limite d une suite

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Résolution d équations non linéaires

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Modélisation des risques

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Programmation linéaire

LES GENERATEURS DE NOMBRES ALEATOIRES

Document d orientation sur les allégations issues d essais de non-infériorité

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

PRIME D UNE OPTION D ACHAT OU DE VENTE

CAPTEURS - CHAINES DE MESURES

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

3. Conditionnement P (B)

Chp. 4. Minimisation d une fonction d une variable

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Sondage de référence 2005 sur la satisfaction des clients du CRSH

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Hedging delta et gamma neutre d un option digitale

Transcription:

Résumé de probabilités et inférence statistique Cours de 2ème BAC aux FUNDP 01/06/2008

TABLE DES MATIERES PARTIE I : PROBABILITES PARTIE I : PROBABILITES... 5 CHAPITRE 1 : INTRODUCTION... 5 1. STATISTIQUE DESCRIPTIVE ET INFERENCE STATISTIQUE... 5 2. POPULATION ET ECHANTILLONS... 5 3. PROBLEMES D INFERENCE STATISTIQUE... 5 4. PARAMETRES ET STATISTIQUES... 6 5. MESURE DE TENDANCE CENTRALE... 6 6. MESURES DE DISPERSIONS... 6 7. CLASSIFICATION DES DONNEES... 7 CHAPITRE 2 : PROBABILITES... 8 CHAPITRE 3 : VARIABLES ALEATOIRES ET DISTRIBUTIONS DE PROBABILITE... 9 1. VARIABLE ALEATOIRE... 9 2. FONCTIONS DE REPARTITION... 9 3. VARIABLES ALEATOIRE DISCRETE... 9 4. ESPERANCE ET VARIANCE D UNE VARIABLE ALEATOIRE DISCRETE...10 5. DISTRIBUTION DISCRETES IMPORTANTES...10 LOI DE BERNOUILLI...10 LOI BINOMIALE...10 LOI GEOMETRIQUE...10 LOI DE POISSON...11 6. VARIABLE ALEATOIRE CONTINUE...11 7. ESPERANCE ET VARIANCE D UNE VARIABLE ALEATOIRE CONTINUE...12 8. DISTRIBUTIONS CONTINUES IMPORTANTES...12 9. DISTRIBUTION D UNE FONCTION D UNE VARIABLE ALEATOIRE...13 FONCTION D UNE VARIABLE ALEATOIRE DISCRETE...13 FONCTION D UNE VARIABLE ALEATOIRE CONTINUE : METHODE DE LA FONCTION DE REPARTITION...13 10. QUANTILES...13 11. PROPRIETES DE L ESPERANCE ET DE LA VARIANCE...13 CHAPITRE 4 : VARIABLES ALEATOIRES A PLUSIEURS DIMENSIONS...15 1. VARIABLES DISCRETES A DEUX DIMENSIONS...15 2. VARIABLES CONTINUES A DEUX DIMENSIONS...15 3. FONCTIONS DE REPARTITION D UNE VARIABLE ALEATOIRE A DEUX DIMENSIONS...16-2-

4. PROPRIETES DE L ESPERANCE ET DE LA VARIANCE...16 5. EXTENSION AU CAS DE PLUSIEURS VARIABLES ALEATOIRES...16 PLUSIEURS VARIABLES ALEATOIRES INDEPENDANTES...17 CAS PARTICULIER : PLUSIEURS VARIABLES ALEATOIRES INDEPENDANTES ET IDENTIQUEMENT DISTRIBUEES...17 PARTIE II: INFERENCE STATISTIQUE CHAPITRE 1 : ECHANTILLONNAGE...18 1. POPULATION ET ECHANTILLONS...18 2. UTILITE D UN ECHANTILLON...18 3. ERREUR ET BIAIS D ECHANTILLONNAGE...18 4. CHOIX D UN ECHANTILLON...18 5. DISTRIBUTION D UN ECHANTILLON...19 6. STATISTIQUES...19 7. DISTRIBUTION D ECHANTILLONNAGE D UNE STATISTIQUE...20 8. DISTRIBUTION D ECHANTILLONNAGE DE...20 ESPERANCE ET VARIANCE DE...20 DISTRIBUTION DE POUR UNE LOI BINOMIALE...20 DISTRIBUTION DE LORSQUE LA POPULATION N EST PAS NORMALE...20 APPLICATION DU THEOREME CENTRAL LIMITE. APPROXIMATION DE BINOMIALE PAR LA NORMALE...21 TAILLE D UN ECHANTILLON...21 CHAPITRE 2 : ESTIMATIONS...22 1. METHODE POUR TROUVER DES ESTIMATEURS...22 METHODE DES MOMENTS...22 METHODE DU MAXIMUM DE VRAISEMBLANCE...22 2. QUALITE DES ESTIMATEURS...22 ESTIMATEURS SANS BIAIS...22 ESTIMATEUR EFFICACE (DE VARIANCE MINIMALE)...23 EFFICACITE OU BIAIS...23 3. ESTIMATION PAR INTERVALLE DE CONFIANCE...23 EXEMPLE 2.7...24 CORRECTION POUR PETITS ECHANTILLONS...24 TAILLE D UN ECHANTILLON...24 CHAPITRE 3 : TEST D HYPOTHESES...25 1. TEST D HYPOTHESES A PARTIR D INTERVALLES DE CONFIANCE...25 2. TESTS D HYPOTHESES : -VALUE...25 3. TESTS D HYPOTHESES CLASSIQUES...25 4. TYPES D ERREUR...25 5. TESTS SIGNIFICATIFS...25-3-

CHAPITRE 4 : FONCTION GENERATRICE DES MOMENTS...26 1. DEFINITION ET PROPRIETES DE BASE...26 2. DISTRIBUTION OU DENSITE D UNE SOMME DE VARIABLES ALEATOIRES...26 3. QUELQUES APPLICATIONS...26 CHAPITRE 5 : DISTRIBUTIONS D ECHANTILLONNAGE COURANTES...27 1. DISTRIBUTION DE LA MOYENNE D ECHANTILLONNAGE, POPULATION NORMALE...27 2. DISTRIBUTION DE LA VARIANCE D ECHANTILLONNAGE, POPULATION NORMALE...27 3. DISTRIBUTION DE LA MOYENNE, POPULATION NORMALE, VARIANCE INCONNUE, PETIT ECHANTILLON...27 4. DISTRIBUTION DE LA MOYENNE D ECHANTILLONNAGE, VARIANCE INCONNUE, GRANDS ECHANTILLONS...28 5. DISTRIBUTION DE LA PROPORTION D ECHANTILLONNAGE (RAPPEL)...28 PETITS ECHANTILLONS...28 GRANDS ECHANTILLONS (LORSQUE ET ET )...28 6. DISTRIBUTION D UN RAPPORT DE VARIANCES, POPULATIONS NORMALES...28 7. DISTRIBUTION D UNE DIFFERENCE DE MOYENNE, ECHANTILLON PAR PAIRES, POPULATIONS NORMALES...28 8. DISTRIBUTION D UNE DIFFERENCE DE MOYENNES, ECHANTILLONS INDEPENDANTS, POPULATIONS NORMALES, VARIANCES CONNUES OU GRANDS ECHANTILLONS...29 9. DISTRIBUTION D UNE DIFFERENCE DE MOYENNES, ECHANTILLONS INDEPENDANTS, POPULATIONS NORMALES, VARIANCES INCONNUES, PETITS ECHANTILLONS...29 10. DIFFERENCE DE PROPORTIONS, GRANDS ECHANTILLONS...29 CHAPITRE 6 : METHODES NON PARAMETRIQUES...30 1. TEST MULTINOMIAL D AJUSTEMENT : GOODNESS OF FIT...30 2. TEST D INDEPENDANCE ENTRE DEUX CRITERES DE CLASSIFICATION : TABLE DE CONTINGENCE...30 3. AUTRES EXEMPLES...30 TEST DU SIGNE DANS UN ECHANTILLON PAR PAIRE...30 TEST DU RANG DE WILCOXON...30-4-

Partie I : Probabilités Chapitre 1 : Introduction 1. Statistique descriptive et inférence statistique Les méthodes statistiques sont toutes les procédures utilisées pour la collecte, la présentation, l analyse et l interprétation des données. Il existe deux catégories : La statistique descriptive comprend toutes les méthodes qui rassemblent et décrivent un ensemble de données pour en tirer une information pertinente. La statistique descriptive cherche à décrire au mieux l information sur les données recueilles et ne cherche aucunement à tirer des conclusions ou inférences sur un ensemble plus large (au contraire de l inférence statistique.) L inférence statistique comprend toutes les méthodes qui analysent un sous-ensemble de données pour arriver à des prévisions ou inférences sur l ensemble tout entier. Les généralisations effectuées en inférence statistique sont toujours sujettes à incertitudes puisqu elles se basent sur une information partielle (incomplète). 2. Population et échantillons Les méthodes d inférence statistique permettent de tirer des conclusions pour l ensemble des éléments à partir de l observation de quelques éléments seulement. Deux outils : Une population (de référence) est constituée de la totalité des éléments pris en considération et sur lesquels on désire obtenir certaines informations. Le nombre d observations dans la population en définit la taille. Il est souvent difficile, voire impossible d examiner toute la population. En conséquence, on est amené à considérer seulement une partie de celle-ci, l échantillon. C est l examen de cet échantillon qui doit permettre de tirer certaines conclusions. Un échantillon est un sous-ensemble de la population. Les conclusions que l on en retire seront d autant plus vraisemblables que l échantillon est représentatif (non biaisé) de la population de référence. Ex. : Les sondages d opinion Un échantillonnage aléatoire est un échantillonnage par lequel chaque individu (élément) de la population a exactement la même chance d être choisi. 3. Problèmes d inférence statistique -5-

L inférence statistique a pour objet, soit de donner une estimation de la valeur d un paramètre inconnu (par exemple le nombre de téléspectateurs français ayant regardé l émission Apostrophes) soit d arriver à confirmer ou infirmer des assertions (par exemple un nouveau vaccin est supérieur à l ancien), et ce sur base d un ensemble limité d observations. 4. Paramètres et statistiques Dans le traitement statistique des données, il importe de faire une distinction claire entre les données qui constituent une population et celles provenant d un échantillon choisi dans la population. Ainsi, on distingue : Conclusion : Toute valeur décrivant une caractéristique d une population est appelée paramètre. Un paramètre est une valeur fixe décrivant la population. Toute valeur numérique décrivant une caractéristique d un échantillon est une statistique. La valeur d une statistique peut évidemment être différente d un échantillon à l autre. L objet de l inférence statistique est de tirer des conclusions sur un paramètre de la population à partir de la valeur d une statistique déterminée, calculée sur les données d un échantillon aléatoire. Sachant que si on répète l échantillonnage aléatoire on obtient généralement d autres valeurs pour la statistique étudiée, les conclusions que l on peut tirer sont évidemment fonction de la distribution de probabilité de la statistique. 5. Mesure de tendance centrale Soit un ensemble de données non nécessairement toutes distinctes, représentant une population de taille N finie (resp. un échantillon fini de taille n) ; la moyenne ou espérance de la population (resp. la moyenne d échantillonnage) est (resp. ) La médiane (de la population ou de l échantillon) est la valeur qui sépare les observations de même taille (ou la moyenne des deux valeurs centrales si le nombre de données est pair). Le mode d un ensemble de données est la valeur qui apparait le plus fréquemment. 6. Mesures de dispersions L étendue (en anglais, range) d un ensemble de données est la différence entre la plus grande et la plus petite valeur de l ensemble. -6-

Soit un ensemble de données représentant une population de taille N (resp. un échantillon de taille n), la variance de la population (resp. la variance d échantillonnage) est (resp. ) démo page 8 7. Classification des données Lorsque les données d un échantillon sont des variables continues, il s avère très utile de procéder à une classification des données. Càd qu on regroupe les données dans différentes catégories. La fréquence avec laquelle une catégorie apparaît dans un échantillon est appelée la distribution de fréquence et est représenté graphiquement par un histogramme. La fréquence relative d une classe est le rapport entre le nombre d observations de la classe et le nombre total d observations. La fréquence cumulée d une classe donnée est égale à la somme des fréquences relatives pour les classes inférieures ou égales à la classe donnée. On peut réécrire la moyenne et la variance des données lorsqu elles sont par catégorie (page 12-13)! -7-

Chapitre 2 : Probabilités Les probabilités sont associées aux résultats de situations appelées expériences aléatoires. L espace des évènements élémentaires ou ensemble fondamental, représenté par S, est l ensemble des résultats possibles de l expérience aléatoire. Un évènement est un (groupe de) résultat(s) possible(s) de S. A tout évènement, la fonction de probabilité associe un nombre réel appartenant à l intervalle. PROPRIETES : (loi d addition) Si Probabilité conditionnelle : (loi de multiplication) Deux évènements sont indépendants en probabilité si Formule de Bayes : Soit B un évènement de probabilité non nulle. Soit une partition de S ; alors : et -8-

Chapitre 3 : Variables aléatoires et distributions de probabilité 1. Variable Aléatoire On appelle variable aléatoire une fonction aléatoire associe un nombre réel. qui, à chaque résultat s d une expérience 2. Fonctions de répartition Soit X une variable aléatoire. La fonction de répartition de X est la fonction, définie par : Notons que la fonction de répartition est un des seuls concepts qui se définisse de la même façon pour les variables aléatoires et continues! PROPRIETES de : F est croissante F est continue à droite mais pas nécessairement continue. Soit 3. Variables aléatoire discrète Une variable aléatoire discrète est une variable aléatoire qui ne prend que des valeurs isolées qui peuvent être énumérées. les diverses valeurs possibles de la variable discrète X. La fonction de probabilité (ou loi de probabilité, ou distribution de probabilité) de la variable aléatoire X, est la fonction f définie par : Elle est directement liée à la fonction de répartition : PROPRIETES de : -9-

4. Espérance et variance d une variable aléatoire discrète Soit une variable aléatoire discrète de distribution de probabilité. Alors l espérance de, mesure la tendance centrale (la valeur moyenne) et est définie par Pour toute fonction, est une variable aléatoire discrète dont l espérance vaut La variance d une variable aléatoire est définie comme l espérance de, soit L écart-type de est la racine positive de. EXERCICES page 22 5. Distribution discrètes importantes a. LOI DE BERNOUILLI Une variable de Bernouilli succès ou un échec. prend la valeur 1 ou 0 selon qu une épreuve (expérience) est un On peut en outre montrer que et. b. LOI BINOMIALE Si on considère une suite d expériences de Bernouilli indépendantes (càd avec la même distribution de probabilité et intéressons-nous au nombre de succès où est Bernouilli (p). La variable binomiale compte le nombre de succès obtenus en expériences. On montre que et Il existe des tables donnant la fonction de répartition de la binomiale (Annexe 3). c. LOI GEOMETRIQUE -10-

La variable géométrique (ou variable de Pascal) l obtention du premier succès. indique le nombre d expériences nécessaires à On montre que et d. LOI DE POISSON Une variable de Poisson prend les valeurs avec les probabilités On montre que Les distributions de Poisson s utilisent généralement dans deux contextes : Lorsque l on compte le nombre de fois que se produit un évènement à l intérieur d un intervalle donné (dans le temps ou dans l espace) ; λ représente alors la fréquence moyenne d arrivée de cet évènement dans des intervalles de même longueur que l intervalle considéré. Comme approximation d une distribution binomiale lorsque le paramètre est suffisamment grand et que le paramètre est suffisamment petit ; λ est alors égal à. 6. Variable aléatoire continue Lorsqu une variable aléatoire peut prendre n importe quelle valeur sur une échelle continue, on parle de variable aléatoire continue. Il n est donc plus possible de décrire la distribution de probabilité de chacune de ces valeurs possibles puisqu il y en a une infinité. Une variable aléatoire est dite continue s il existe une fonction non négative, appelée fonction de densité ou encore densité de telle que, pour tous réels a et b, avec, on a PROPRIETES de PROPRIETES de Une fonction est bien une densité, si est non négative et satisfait à l équation -11-

EXEMPLE page 28 7. Espérance et variance d une variable aléatoire continue L espérance d une variable aléatoire continue est L espérance est une mesure de la tendance centrale de la variable aléatoire. La variance est, en posant, EXEMPLE et EXERCICE page 32-33 8. Distributions continues importantes a. LOI UNIFORME Une variable continue uniforme fonction de densité de est (en supposant que ) : prend ses valeurs dans un intervalle de bornes a et b. La On montre que et que b. LOI EXPONENTIELLE La fonction de densité d une variable exponentielle de paramètre positif est définie par On montre que On rencontre les variables exponentielles principalement dans le contexte des processus de Poisson : si le nombre d arrivées d un certain événement pendant un intervalle de temps fixé obéit à une loi de Poisson, alors la durée entre deux arrivées successives de cet événement obéit à une loi exponentielle. -12-

c. LOI NORMALE La fonction de densité d une variable normale est définie par On montre que et que La formule suivante permet de relier une loi normale de paramètres quelconques à une loi normale : Si, alors 9. Distribution d une fonction d une variable aléatoire a. FONCTION D UNE VARIABLE ALEATOIRE DISCRETE De façon générale, soit une variable aléatoire de distribution. Soit une nouvelle variable aléatoire. Alors, la distribution de se calcule par b. FONCTION D UNE VARIABLE ALEATOIRE CONTINUE : Méthode de la fonction de répartition Soit une variable aléatoire de densité de distribution connue et une fonction connue de. ou La densité de s obtient en calculant ensuite la dérivée première de. EXEMPLES page 38-39 10. Quantiles On appelle quantile d ordre α,, d une variable aléatoire, un nombre réel qui satisfait à et Si est une variable aléatoire continue, les deux inégalités entrainent et donc est unique! Par contre, si est une variable aléatoire discrète, la quantile n est pas nécessairement unique. NB. : La médiane est la quantile d ordre 11. Propriétés de l espérance et de la variance -13-

-14-

Chapitre 4 : Variables aléatoires à plusieurs dimensions 1. Variables discrètes à deux dimensions Pour deux variables aléatoires discrètes et, on définit - La distribution de probabilité jointe : - Les distributions de probabilité marginales et : et - Les distributions de probabilité conditionnelles : et Deux variables aléatoires discrètes sont indépendantes si : pr tt ou ssi et EXEMPLE pages 42-44 2. Variables continues à deux dimensions Soit et des variables aléatoires continues. Alors, - La densité jointe est la fonction à valeurs positives ) telle que - Les densités marginales sont - Les densités conditionnelles sont et et Deux variables aléatoires continues sont indépendantes si : pr tt ou si et On remarquera que la définition de densité conditionnelle et des variables indépendantes est identique dans le cas discret et continu. EXEMPLES pages 45-47 -15-

3. Fonctions de répartition d une variable aléatoire à deux dimensions La fonction de répartition d une variable aléatoire à deux dimensions est la probabilité jointe : pour le cas discret pour le cas continu + FORMULES page 48 4. Propriétés de l espérance et de la variance L espérance d une fonction des variables aléatoires et s obtient à partir de la distribution ou de la densité jointe : ou Il est à noter que peut s obtenir à partir de la densité marginale de et que l espérance de conditionnellement à s obtient à partir de la densité (distribution) conditionnelle (page 49)! PROPRIETES : (SEULEMENT pour les variables aléatoires indépendantes!!) La covariance de et est l espérance de : et De plus, la variance d une somme est EXEMPLES pages 51-54 5. Extension au cas de plusieurs variables aléatoires Par extension, on définit la fonction de répartition jointe des variables aléatoires par et la distribution (cas discret) ou la densité (cas continu) correspondante -16-

a. PLUSIEURS VARIABLES ALEATOIRES INDEPENDANTES Résumé des propriétés que satisfont n variables aléatoires indépendantes: lorsqu elles sont vrai en général b. CAS PARTICULIER : plusieurs variables aléatoires indépendantes et identiquement distribuées En définissant on obtient également ainsi que Ces formules sont très utiles car elles correspondent à des propriétés d un échantillon aléatoire de n observations indépendantes et identiquement distribuées, c est-à-dire le type d échantillon le plus souvent utilisé en inférence statistique. EXEMPLES pages 56-58 -17-

Partie II : Inférence Statistique Chapitre 1 : Echantillonnage Le raisonnement déductif part du général et va vers le particulier. En inférence statistique, il est nécessaire d avoir recours au raisonnement inductif, qui part du particulier pour décrire le général. 1. Population et échantillons La population et l échantillon ont déjà été définis dans l introduction. Les observations concernent la caractéristique étudiée, pas les personnes ni les objets individuels qui sont appels individus. Une population est multidimensionnelle lorsqu on s intéresse à plusieurs caractéristiques d un même individu. La caractéristique discernée peut être quantitative (âge, taille, revenu) ou qualitative (sexe, nationalité) ce qui implique des méthodes statistiques différentes. 2. Utilité d un échantillon L utilisation d un échantillon, càd un nombre limité d observations et donc un risque d erreur, plutôt qu un recensement complet, a priori plus fiable, représente plusieurs avantages : avantage économique, facteur temps, population très large (quais infinie), population partiellement inaccessible, caractère destructeur du processus d observation et précision des résultats 3. Erreur et biais d échantillonnage Un statisticien doit choisir un échantillon au coût minimal tout en maintenant une représentation la meilleure possible. L échantillon doit être le miroir de la population. L erreur d échantillonnage est constituée des différences entre l échantillon et la population uniquement dues au hasard dans le choix des observations. L erreur d échantillonnage peut être réduite en augmentant la taille de l échantillon. Les erreurs liées à une mauvaise méthode d échantillonnage sont appelées biais d échantillonnage. Le biais d échantillonnage est une tendance à favoriser la sélection d individus ayant une caractéristique particulière (commune; ne reflétant pas la pop. entière) 4. Choix d un échantillon -18-

La méthode la plus à même d éviter les biais d échantillonnage est l échantillonnage aléatoire. Par échantillonnage aléatoire, chaque individu a exactement la même probabilité d être choisi (retenu). Il existe différentes méthodes d échantillonnage aléatoire : - Simple - Systématique : On choisit un individu au hasard, puis les suivants à intervalle régulier. - Stratifié : On choisit un échantillon aléatoire simple dans chaque strate de la population. L efficacité de cette méthode dépend de l homogénéité à l intérieur de chaque strate. - Par grappes : On choisit des grappes par tirage aléatoire simple. Chaque grappe choisie est complètement recensée. L efficacité de cette méthode dépend de l hétérogénéité à l intérieur des grappes. 5. Distribution d un échantillon La liste des échantillons est connue (même si elle peut être difficile à établir), l échantillon que l on va tirer est inconnu : ces deux caractéristiques font que l échantillon est aléatoire (dépend du hasard). PROPRIETES : - Dans un échantillon aléatoire, toute observation individuelle a la distribution de probabilité ou la densité de population. - Dans un échantillon aléatoire, les différentes observations sont indépendamment et identiquement distribuées selon la distribution de probabilité ou densité de la pop.. De ces propriétés, on appelle fonction de vraisemblance, dénotée distribution de probabilité ou densité jointe des observations d un échantillon aléatoire. On en déduit : la Où est la distribution ou densité de la population. 6. Statistiques Une statistique est une fonction des observations de l échantillon, qui ne dépend pas de paramètres inconnus. Les plus connus sont, notamment : - La moyenne d échantillonnage : - La variance d échantillonnage : - La médiane d échantillonnage : notée m, c est le point milieu (si n impair) ou la moyenne des deux valeurs milieu (si n pair) des observations rangées par ordre croissant des valeurs. - La proportion d observations de l échantillon ayant un certain attribut. -19-

7. Distribution d échantillonnage d une statistique En fonction de l échantillon choisi, une statistique donnée (par exemple ) prend différentes valeurs. En effet, le caractère aléatoire d une statistique découle directement du caractère aléatoire des observations. L ensemble des valeurs possibles, et leur probabilité, représente la distribution d échantillonnage de la statistique. 8. Distribution d échantillonnage de THEOREMES : a. ESPERANCE ET VARIANCE DE - Soit un échantillon aléatoire de taille n extrait d une population dont la densité (ou distribution) est et dont l espérance est. Alors Autrement dit, si on répète plusieurs fois un processus d échantillonnage et calcule le associé, les valeurs trouvées auront tendance à s agglomérer autour de l espérance population, la dispersion étant d autant plus petite que le nombre d observations est grand. - Soit un échantillon aléatoire de taille n extrait d une population dont la densité (ou distribution) est et dont l espérance est et la variance. Alors Plus l échantillon est grand, plus la moyenne d échantillonnage se rapproche de la moyenne de la population. de la b. DISTRIBUTION DE POUR UNE LOI BINOMIALE Soit un échantillon aléatoire de taille n extrait d une population ayant une densité de loi normale d espérance et de variance. Alors la distribution d échantillonnage de est une loi normale de même espérance et de variance. EXEMPLES pages 71-72 c. DISTRIBUTION DE LORSQUE LA POPULATION N EST PAS NORMALE Théorème Central Limite : Soit un échantillon aléatoire de taille n extrait d une population dont l espérance est et la variance finie,.soit la moyenne de cet échantillon aléatoire. Alors, la densité (distribution) de la variable aléatoire tend vers une loi normale d espérance et de variance, lorsque. Remarques : - Le théorème est valable quel que soit la densité (distribution) de la population. - tend vers une loi normale. - Ce théorème justifie l emploi de la distribution normale pour la moyenne d échantillonnage de grands échantillons, par exemple lorsque la distribution est inconnue. -20-

Cela s applique uniquement à la moyenne d échantillonnage, pas aux observations individuelles!! - On considère généralement que est suffisamment grand. EXERCICES page 75 d. APPLICATION DU THEOREME CENTRAL LIMITE. Approximation de Binomiale par la Normale PRINCIPE Si, Alors (pas certain, à vérifier!!) Si, alors et, lorsque est grand. On utilise ce principe car les calculs deviennent fastidieux lorsque n est grand et qu il n existe plus de tables. CORRECTION DE CONTINUITE La correction de continuité consiste à pondérer deux réponses obtenues à partir d énoncés apparemment identiques et chercher la probabilité à partir du point milieu. QUALITE DE L APPROXIMATION Pour des distributions très asymétriques, il est préférable de n appliquer l approximation normale que pour ou même plus. L asymétrie de la binomiale augmente lorsque s écarte de 0.5 et devient très élevée pour proche de 0 ou 1. Pour des très petites ou très grandes valeurs de, on impose donc les conditions supplémentaires suivantes : e. TAILLE D UN ECHANTILLON Lire pages 79-80 Clair et expliqué par l exemple de la proportion de fumeurs en Belgique. Pour autant que l approximation normale soit valide, la taille d un échantillon nécessaire à approcher par avec une tolérance et une probabilité dans une population de variance σ², càd et est donnée par -21-

Chapitre 2 : Estimations Supposons qu une certaine caractéristique des éléments d une population puisse être représentée par une variable aléatoire, mais qui contient un paramètre inconnu. On peut estimer la valeur de ce paramètre inconnu de deux façons : - L estimation simple : On se donne une statistique qui permet d évaluer le paramètre. - L estimation par intervalle de confiance : On se donne deux statistiques, et avec que l intervalle contienne. qui permettent de définir un intervalle et la probabilité 1. Méthode pour trouver des estimateurs a. METHODE DES MOMENTS La méthode des moments est le principe d estimer un moment de la population par un moment équivalent de l échantillon. - Loi de Poisson de paramètre : où représente un estimateur ou statistique - Loi Normale : Les estimateurs de la méthode des moments seront donc et. - Loi uniforme sur l intervalle : L estimateur de la méthode des moments est car on sait que. b. METHODE DU MAXIMUM DE VRAISEMBLANCE Rien compris et donc rien résumé! (pages 85-89) 2. Qualité des estimateurs a. ESTIMATEURS SANS BIAIS Le paramètre, représenté en général par, est une valeur unique mais inconnue. La statistique ou l estimateur, représenté par, est une fonction des observations, donc de l échantillon. L échantillon étant aléatoire, la statistique est elle aussi aléatoire. Impossible donc de garantir que, pour chaque échantillon, l estimateur fournisse exactement la valeur du paramètre inconnu. Pour être plus précis, on demandera que l estimateur soit sans biais, càd qu en espérance, il donne la valeur recherchée. Soit un estimateur et un paramètre. Le biais encouru en utilisant pour estimer est la différence : L estimateur est donc dit «sans biais» pour le paramètre si -22-

Deux rappels importants : il est essentiel que l échantillon soit aléatoire. Le choix de l estimateur est le second point important pour obtenir un estimateur sans biais. Nous en connaissons déjà plusieurs: Variable aléatoire Paramètre Estimateur Bernouilli Poisson EXERCICES et EXEMPLES pages 91-94 b. ESTIMATEUR EFFICACE (de variance minimale) En plus d être juste en espérance, on attend d un estimateur qu il soit précis càd que les valeurs observées soient suffisamment concentrées autour de la valeur espérée. L efficacité d un estimateur est donc liée à la faible dispersion des résultats observés, donc à sa faible variance. Un estimateur sans biais est plus efficace qu un autre si sa variance est plus petite. De même, pour deux estimateurs de même variance, c est celui de plus petit biais qui est le plus efficace. EXEMPLES et EXERCICE pages 95-96 c. EFFICACITE OU BIAIS L idéal est bien entendu de trouver un estimateur sans biais et à faible variance. L erreur quadratique moyenne de l estimateur du paramètre est L erreur quadratique moyenne est liée au biais et à la variable de l estimateur et représente donc une sorte de notion globale d efficacité. Remarques : Soit et deux estimateurs sans biais du paramètre. L efficacité relative de par rapport à est le rapport - C est la qualité (hétérogénéité, aléatoire) qui prime sur la quantité! - Un estimateur est asymptotiquement sans biais si le biais tend vers zéro lorsque la taille d échantillon s accroit indéfiniment. Un estimateur est consistant lorsque son tend vers zéro lorsque la taille d échantillonnage s accroit indéfiniment. 3. Estimation par intervalle de confiance -23-

a. EXEMPLE 2.7 Dans certains cas, la probabilité pour que soit exactement est nulle. On souhaite donc incorporer dans la réponse le risque d erreur. Ceci se fait en féfinissant un intervalle de confiance, une fourchette d estimation. L objectif est donc de définir un intervalle de la forme où est l erreur d échantillonnage. A cause de l échantillonnage aléatoire, il n est PAS possible de garantir que l intervalle contienne certainement la vraie valeur inconnue. On peut dès lors choisir un niveau de confiance de 95%, càd de définir un intervalle qui ait 95% de chances de contenir la vraie valeur de. On peut également construire un intervalle de confiance dans le cas d une proportion. bien expliqué et pas résumé de la page 100 à la page 103. b. CORRECTION POUR PETITS ECHANTILLONS Pour être plus précis, on remarque que, dans le cas de l échantillon sans remise, les formules de l erreur d échantillonnage deviennent dans le cas d une proportion. On constate que si la population est très grande, le facteur correctif est négligeable. c. TAILLE D UN ECHANTILLON Les formules de l erreur d échantillonnage fournissent également le moyen de calculer la taille de l échantillon nécessaire à atteindre une précision donnée. (lire pages 104-105) Nous avons considéré dans cette section des intervalles de confiance de la moyenne d une loi normale de variance connue et d une proportion. D autres méthodes existent également -24-

Chapitre 3 : Test d hypothèses 1. Test d hypothèses à partir d intervalles de confiance Une hypothèse statistique est un énoncé ou une assertion à propos d une population. L objet du test est de voir à partir des observations si l hypothèse est plausible ou non. Un intervalle de confiance peut être vu comme l ensemble des hypothèses acceptables. Dans certains cas, on a à faire aves des échantillons trop petits pour produire une évidence «statistiquement discernable». 2. Tests d hypothèses : -value Lire pages 107-108 3. Tests d hypothèses classiques Lire pages 108-110 - Test unilatéral (à gauche ou à droite) - Test bilatéral 4. Types d erreur Rejeter alors que est vraie est appelé erreur de type I. La probabilité d une erreur de type I est notée. Accepter alors que est vraie est appelée l erreur de type II. La probabilité d une erreur de type II est notée. Remarques : - L erreur de type I consiste à condamner un innocent. L erreur de type II consiste à innocenter un coupable. - Pour une taille d échantillon donnée, déplacer le seuil de rejet ne fait que diminuer une erreur au détriment de l autre. - La seule manière de réduite et simultanément est d accroitre la taille de l échantillon. EXEMPLE page 113 5. Tests significatifs Dans le langage classique, on dit parfois qu un test est statistiquement significatif au niveau de 5%. Cette phrase est dangereuse car elle laisse sous-entendre que 5% représente le niveau de significativité, alors qu en réalité il représente le niveau admissible de l erreur, et plus précisément la probabilité de l erreur de type I admise. Le test peut donc être significatif au sens statistique, sans être significatif au sens commun. ILLUSTRATION pages 114-115. -25-

Chapitre 4 : Fonction génératrice des moments Les propriétés de la fonction génératrice des moments vont nous permettre d étudier d autres variables aléatoires. 1. Définition et propriétés de base Soit une variable aléatoire de distribution ou densité. La fonction génératrice des moments, notée ou, est l espérance de. (cas discret) ou (cas continu) PROPRIETES : - Soit une variable aléatoire et sa fonction génératrice des moments. Alors, le moment d ordre,, est : - La fonction génératrice des moments d une variable aléatoire est unique. On peut donc «reconnaitre» une variable aléatoire à la f.g.m. - Soit une variable aléatoire suivant une loi normale d espérance et de variance, càd. Alors. (Corollaire : Soit une variable aléatoire suivant une loi normale. Alors ; il suffit d expliquer la propriété précédente avec et ) 2. Distribution ou densité d une somme de variables aléatoires Soit n variables aléatoires indépendamment et identiquement distribuées et soit la fonction génératrice des moments de ces variables aléatoires. Alors la fonction génératrice de leur somme, est. EXEMPLES (intéressants ) pages 120-121 Une somme des variables aléatoires de Bernouilli est variable aléatoire Binomiale ( ). Une somme des variables aléatoires de Poisson ( ) est une variable aléatoire de Poisson ( ). Une somme des variables aléatoires exponentielle de paramètre ( ) est une variable aléatoire de la loi Gamma de paramètres ( ). 3. Quelques applications Voir page 122-26-

Chapitre 5 : Distributions d échantillonnage courantes 1. Distribution de la moyenne d échantillonnage, population normale Soit la moyenne d échantillonnage d un échantillon de taille issu d une population normale. Alors 2. Distribution de la variance d échantillonnage, population normale Pour répondre à certaines questions, nous sommes parfois obligés de connaître la distribution d échantillonnage de Soient, variables aléatoires distribuées identiquement et indépendamment selon, alors Ou càd GRAPHIQUE de la loi chi-carrée et des zones de rejet page 125 Soit, variables aléatoires selon. L intervalle de confiance à sur la variance est donné par Où et sont donnés par et 3. Distribution de la moyenne, population normale, variance inconnue, petit échantillon Soient, variables aléatoires distribuées identiquement et indépendamment selon ; alors (loi de Student) Intervalle de confiance de normalement, l intervalle de confiance de est : Si la population dont est extrait l échantillon est distribuée -27-

4. Distribution de la moyenne d échantillonnage, variance inconnue, grands échantillons Lorsque le nombre d observations est assez grand, la loi en de Student se rapproche de la loi Normale : pour 5. Distribution de la proportion d échantillonnage (rappel) Soient observations i.i.d. provenant d une loi de Bernouilli de paramètre. a. PETITS ECHANTILLONS petit, on utilise le résultat suivant pour calculer une -value ou un intervalle de confiance : b. GRANDS ECHANTILLONS (lorsque et et ) Lorsque est grand, on utilise l approximation suivante qui est plus facile pour trouver une - value ou un intervalle de confiance : 6. Distribution d un rapport de variances, populations normales Soient des observations i.i.d. ) et,, des observations i.i.d.. Soient la variance d échantillonnage des et la variance d échantillonnage des. Alors (loi de Fischer) EXEMPLE pages 137-138 7. Distribution d une différence de moyenne, échantillon par paires, populations normales Pour résumer, il suffit de calculer les différences par paire, et d appliquer le test sur la distribution en de Student. en utilisant EXEMPLE page 139-140 (bon exercice pour la compréhension ) -28-

8. Distribution d une différence de moyennes, échantillons indépendants, populations normales, variances connues ou grands échantillons Soient, des observations provenant d une loi et, des obsevations provenant d une loi. Si les observations sont i.i.d., alors et Si les deux échantillons sont indépendants avec où représente la variance de. Remarque : On peut remplacer par pour et suffisamment grands. EXEMPLE page 142 9. Distribution d une différence de moyennes, échantillons indépendants, populations normales, variances inconnues, petits échantillons Pas résumable à l ordi La réalisation d un test ou d un intervalle de confiance sur la différence de moyenne, petits échantillons indépendants, populations normales, variances inconnues, demande donc de tester l égalité des variances dans les deux groupes d utiliser et ou ( c est équivalent) EXEMPLE page 144-145 10. Différence de proportions, grands échantillons EXEMPLE page 146-29-

Chapitre 6 : Méthodes non paramétriques 1. Test multinomial d ajustement : goodness of fit Pour mesurer l écart entre distributions observée et attendue, nous utilisons la somme pondérée des carrés des écarts : Cette valeur sera d autant plus grande que les écarts sont importants et donc que plausible. est peu EXEMPLE pages 150-152 Résumé du test multinomial : - La statistique χ² suit une loi en χ² pour un nombre suffisant d observations - Le nombre d observations est suffisant si dans chaque catégorie la fréquence attendue est au moins égale à 5. - Nombre de degrés de liberté où est le nombre de catégories (lignes) restant après regroupement éventuel et le nbre de paramètres estimés à l aide des observations. Le test multinomial d ajustement s applique également pour une variable aléatoire continue. 2. Test d indépendance entre deux critères de classification : table de contingence EXEMPLE pages 153-156 On peut mesurer l intensité de la relation entre les variables par le «de Cramer» : Où est la plus petite dimension (nombre de lignes ou de nombre colonnes). Si les observations sont parfaitement indépendantes, (dépendance totale), le de Cramer est le plus élevé.. Par contre, si les observations sont dépendantes. Lorsque différents critères sont utilisés, on choisira les critères dont 3. Autres exemples a. TEST DU SIGNE DANS UN ECHANTILLON PAR PAIRE EXEMPLE page 158 b. TEST DU RANG DE WILCOXON EXEMPLE pages 159-160 -30-