CHAPITRE 1 - GÉNÉRALITÉS SUR LES TESTS - EXEMPLE DU TEST BINOMIAL -

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Calcul élémentaire des probabilités

TESTS D'HYPOTHESES Etude d'un exemple

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

TSTI 2D CH X : Exemples de lois à densité 1

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Probabilités conditionnelles Loi binomiale

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Lois de probabilité. Anita Burgun

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercices sur le chapitre «Probabilités»

Cours de Tests paramétriques

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Estimation et tests statistiques, TD 5. Solutions

Texte Agrégation limitée par diffusion interne

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Calculs de probabilités conditionelles

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

LES DECIMALES DE π BERNARD EGGER

!-.!#- $'( 1&) &) (,' &*- %,!

Simulation de variables aléatoires

Introduction à la méthodologie de la recherche

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Synthèse «Le Plus Grand Produit»

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à la Statistique Inférentielle

FORMULAIRE DE STATISTIQUES

L exclusion mutuelle distribuée

P1 : Corrigés des exercices

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Les devoirs en Première STMG

«Cours Statistique et logiciel R»

ESSEC Cours Wealth management

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chaînes de Markov au lycée

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Coefficients binomiaux

Agence pour la Protection des Programmes Service dépôt / référencement. Agence pour la Protection des Programmes Service juridique

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Probabilités sur un univers fini

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Correction de l examen de la première session

SCP Célice, Blancpain et Soltner, SCP Nicolaý, de Lanouvelle et Hannotin, avocat(s) REPUBLIQUE FRANCAISE AU NOM DU PEUPLE FRANCAIS

Guide du/de la candidat/e pour l élaboration du dossier ciblé

Processus aléatoires avec application en finance

Biostatistiques : Petits effectifs

Données longitudinales et modèles de survie

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Précision d un résultat et calculs d incertitudes

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

La simulation probabiliste avec Excel

Principe d un test statistique

LES GENERATEURS DE NOMBRES ALEATOIRES

Programmes des classes préparatoires aux Grandes Ecoles

Variables Aléatoires. Chapitre 2

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Procédure pénale. Thèmes abordés : Procédure par contumace/ Nouvelle procédure par défaut

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

1. Les types d enquêtes

ASR1 TD7 : Un microprocesseur RISC 16 bits

Créer/gérer le site Internet de son association. 17 octobre 2012 Sati.tv Michael Coulon

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Probabilités sur un univers fini

info DROIT SOCIAL Egalité de traitement et avantages catégoriels

Correction du baccalauréat STMG Polynésie 17 juin 2014

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Correction du baccalauréat ES/L Métropole 20 juin 2014

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Coûts de transfert de compte bancaire

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Package TestsFaciles

Introduction au droit La responsabilité professionnelle

Manuel de recherche en sciences sociales

Que faire lorsqu on considère plusieurs variables en même temps?

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

L ANALYSE COUT-EFFICACITE

FICHE 1 Fiche à destination des enseignants

Chapitre 2. Eléments pour comprendre un énoncé

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

B = A = B = A = B = A = B = A = Recopier sur la copie chaque expression numérique et la réponse exacte. Réponse A Réponse B Réponse C Solution

Travaux dirigés d introduction aux Probabilités

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Transcription:

CHAPITRE 1 - GÉNÉRALITÉS SUR LES TESTS - EXEMPLE DU TEST BINOMIAL - 1 Qu est ce qu un test statistique? Supposons que l on souhaite mettre en évidence une propriété concernant une population P. On procède alors de façon suivante : - on met en confrontation deux hypothèses contradictoires, l une confirmant cette propriété l autre l infirmant. - on étudie alors les probabilités que l une ou l autre soit vérifiée sur l ensemble des échantillons possibles de la population P. On modélise cela en parlant d un échantillon aléatoire de P : c est l échantillonnage. - à partir de données statistiques sur un échantillon expérimental de la population P, on est amené à prendre une décision concernant cette population : cette décision est assujettie à un risque d erreur, car on doit prendre en compte les fluctuations due à l échantillonnage. Remarques. 1. Dans beaucoup de cas, on peut quantifier ces hypothèses au moyen d un ou plusieurs paramètres (proportion, moyenne, écart-type...) ; dans ce cas, on dit que le test est paramétrique. (Il n y a pas qu une seule façon de faire en général!) 2. Les hypothèses ne sont pas toujours symétriques : en général, on connaît bien H 0 et on peut la décrire par un (ou plusieurs) paramètre(s), alors qu on ne maîtrise pas bien H 1 pour laquelle le (ou les) paramètre(s) peuvent prendre plusieurs valeurs. 2 Test binomial. Exemple : On se demande si la lune a une influence sur le nombre d accouchements : le nombre d accouchements est-il plus important pendant la période de pleine lune? Pour confirmer ou infirmer cette hypothétique influence, on a prélevé 28 dates de naissance des étudiants dans une classe de L2 de sociologie (pourquoi pas?). On prendra l habitude de décomposer un test en 5 étapes : Étape 1 : Formulation des hypothèses. On formule deux hypothèses contradictoires : - la première dite hypothèse nulle H 0 (ou hypothèse de non différence), qui suppose généralement que le phénomène est dû au hasard. Cette hypothèse sert de référence. 1

- la seconde dite hypothèse alternative H 1 qui met en évidence le phénomène dont on veut tester le bien fondé. C est cette hypothèse qu on veut soit réfuter, soit démontrer. La formulation de ces hypothèses est décisive sur le test à effectuer. Il est important de les écrire avec précision. Dans notre exemple : H 0 : la lune n a pas d influence sur les naissances H 1 : le nombre de naissances est plus important en période de pleine lune Remarques. 1. Pour H 1, si on dit la lune a une influence : dans ce cas, laquelle? Plus ou moins de naissances en période de pleine lune? Si on ne précise pas on doit alors faire un test bilatéral. Dans notre exemple, le test est orienté : il sera unilatéral. 2. On contrôle mal l hypothèse H 1 : si la lune a une influence, qu elle est la force de cette influence? On introduit un paramètre et on reformule ces hypothèses en termes statistiques. Dans notre exemple : pour simplifier, on considère qu une période lunaire est d environ quatre semaines une semaine de nouvelle lune, une semaine de premier quartier, une semaine de pleine lune et une semaine de dernier quartier. Pour la semaine de pleine lune, il faut compter le jour de pleine lune et ±3 jours autour de la pleine lune. On introduit un paramètre p : p = la proportion de naissances qui ont eu lieu en semaine de pleine lune sur des naissances. Sous H 0, la proportion p prend la valeur p 0 = 7 28 = 1 4. Sous H 1, p > p 0 = 1 4. On peut alors reformuler nos hypothèses : H 0 : p = p 0 = 1 4 et H 1 : p > p 0 = 1 4. On dit que le test est unilatéral (supérieur). Étape 2 : Choix du modèle statistique. On choisit une statistique adaptée à nos hypothèses (et aux paramètres choisis pour exprimer ces hypothèses), qui s applique à un échantillon aléatoire de taille n (où n est la taille de l échantillon expérimental sur lequel s appuie le test). Le choix de la statistique n est pas toujours unique. Dans notre exemple : le paramètre p est une proportion. On introduit la statistique : X n = le nombre de naissances durant une semaine de pleine lune sur un échantillon aléatoire de n = 28 naissances. La variable X n suit une B(n, p). On dit que le test est binomial. (Remarque : on aurait pu utiliser une proportion aléatoire mais pour de petits échantillons, on n en connaît pas la loi). Sous H 0 : X n suit une B(28, 1 4 ) et sous H 1 : X n suit une B(28, p) avec p > 1 4. 2

Étape 3 : Niveau de signification du test et région critique. Lors du test, on peut commettre deux erreurs dans la prise de décision : - ou bien accepter l hypothèse H 1 alors que c est H 0 qui est vraie : c est l erreur de première espèce α = P[Accepter H 1 / H 0 vraie] - ou bien accepter l hypothèse H 0 alors que c est H 1 qui est vraie : c est l erreur de seconde espèce β = P[Accepter H 0 / H 1 vraie] Décision État \ Accepter H 0 Accepter H 1 Somme H 0 vraie 1 α α (1 α) + α = 1 H 1 vraie β η = 1 β η + β = 1 Remarque : α et β sont contradictoires : lorsque α augmente, β diminue et vice-versa. Apparte : Un jugement doit décider de la culpabilité d un individu : H 0 : l accusé est innocent H 1 : l accusé est coupable Décision État \ Accepter H 0 : innocent Accepter H 1 : coupable Somme H 0 vraie : innocent 1 α α (1 α) + α = 1 H 1 vraie : coupable β η = 1 β η + β = 1 Il est plus facile de juger une personne présumée innocente (on amène des éléments à charge, qu il suffit d étudier) que de tenter d innocenter une personne présumée coupable (tout dépend de sa défense : il faut tenter de trouver une parade à chaque élément à charge, ce qui n est généralement pas facile). De même, il est plus facile de tester la véracité de H 1 en partant de l hypothèse H 0 (que l on connait bien) que de tester la véracité de H 0 en partant de l hypothèse H 1 (que l on connait mal : tout dépend du degré d implication du coupable). Dans la pratique, on travaille sous l hypothèse H 0. On se fixe donc un risque d erreur α de première espèce. L erreur α mesure le niveau de signification du test. On dit que le test est significatif si on accepte H 1 : plus α est petit plus le test est significatif si on accepte H 1, mais plus on a du mal à accepter H 1 (on choisit α en fonction de ce que l on souhaite prouver : en sciences humaine, on prend souvent 5% ou 10%, en médecine, ou pour évaluer des risques thermonucléaires par exemple, on prend souvent moins de risque pour des raisons évidentes). On se pose la question suivante : si on se place sous l hypothèse H 0, à partir de quelle valeur de X n considère-t-on qu on commet une erreur en gardant cette hypothèse et qu il vaut mieux opter pour H 1? Dans notre exemple : on se fixe un niveau α = 5%. Sur un échantillon de 28 dates de naissance, à partir de combien de dates en période de pleine lune peut-on estimer que la lune a une influence sur les naissances? 3

Pour répondre à cette question, on introduit la notion de région critique (ou zone critique ou encore zone/région de rejet) souvent notée K α (X n ) : c est la région d acceptation de l hypothèse H 1 au niveau α, c est à dire l ensemble des valeurs de X n pour lesquelles on accepte H 1. Dans notre exemple : on accepte H 1 si le nombre de naissances en semaine de pleine lune est assez grand, donc K α (X n ) est l ensemble valeurs de k telles que : P[X n k] 0, 05. Si la plus petite de ces valeurs est k α, la région critique est : K α (X n ) = {X n k α } = {k α, k α + 1,..., n}. On calcule les probabilités : (de 19 à 28, les probabilité sont quasiment nulles) k 18 17 16 15 14 13 12 11 10 9 P(X n = k) 0, 001% 0, 005% 0, 022% 0, 08% 0, 27% 0, 75% 1, 8% 3, 8% 7, 1% 11, 1% P(X n k) 0, 001% 0, 007% 0, 029% 0, 11% 0, 38% 1, 12% 2, 9% 6, 8% 13, 8% 25, 0% P[X n 12] = 2, 94%, P[X n 11] = 6, 79%, donc k α = 12 et la région critique est : K α (X n ) = {X n 12} = {12, 13,..., 27, 28}. Étape 4 : Décision. Si la valeur expérimentale de notre variable est dans la région critique, on l hypothèse H 0 n est plus tenable et on accepte H 1 avec un risque d erreur α. Sinon, on conserve H 0 et on rejette H 1. Remarque. Le rejet ou non de H 1 dépend du niveau de signification du test (du choix de α) et de la taille de l échantillon. Dans notre exemple : supposons que sur un échantillon expérimental de 28 dates de naissance on ait obtenu Xn exp = 9 dates en période de pleine lune, alors au niveau 5%, on rejette H 1 car Xn exp = 9 n est pas dans la région critique. Autrement dit, la proportion expérimentale p exp = 9 28 n est pas suffisamment grande devant p 0 = 1 4 pour mettre en évidence H 1 au niveau de 5%. (Par contre, si Xn exp = 13, on accepte H 1 au niveau de 5%). Remarque. Au lieu de calculer la région critique, on peut aussi calculer la p-value appelée aussi la signification : c est le risque minimum qu il aurait fallu prendre pour accepter H 1 à partir de la valeur expérimentale (c est à dire la valeur du risque lorsque la valeur expérimentale est au bord de la région critique). Cette p -value est ensuite comparée à α. p -value = P(X n X exp n ) = P(X n 9) = 25, 0% > 5% donc on rejette donc H 1. Étape 5 : Puissance du test. 4

On se demande si le test est bien adapté à notre prise de décision. On a vu que : α = P[Accepter H 1 H 0 vraie] = P[K α (X n ) H 0 vraie] et β = P[Accepter H 0 H 1 vraie]. La probabilité η = 1 β = P[Accepter H 1 H 1 vraie] = P[K α (X n ) H 1 vraie] est appelée puissance du test et mesure en quelque sorte la qualité du test (la taille d échantillon est-elle appropriée?). La puissance est en fait une fonction du paramètre p caractérisant H 1. Dans notre exemple : 1. Si on veut mettre en évidence que la proportion de naissances en période de pleine lune est de 32% (qui est approximativement la proportion expérimentale) au lieu de 25% sous H 0, on calcule la puissance pour p = 32% : sous H 1, X n suit une B(28; 0, 32) et donc η(32%) = P[K α (X n ) / p = 32%] = P[X n 12/p = 0, 32] = 15, 2%. Cette puissance est faible donc le test n est pas adapté pour mettre en évidence une proportion de 32% de naissances en période de pleine lune. Si l influence de la lune donnait une telle proportion, la taille d échantillon de n = 28 est insuffisante pour pouvoir s en convaincre. 2. Si on veut mettre en évidence une proportion de 50% d accouchements en période de pleine lune : on calcule la puissance pour p = 50% ; sous H 1, X n suit une B(28; 0, 5) et donc η(50%) = P[K α (X n ) / p = 50%] = p[x n 12/p = 0, 6] = 82%. Cette puissance est forte donc le test est adapté pour mettre en évidence cette proportion de 50% de naissances en période de pleine lune. Le rejet de H 1 prouve donc que si malgré tout la lune avait une influence, celle-ci serait faible. Quelques remarques : - On aurait pu imaginer par exemple que l hypothèse H 1 est : le nombre de naissances en semaine de nouvelle lune est plus faible. Dans ce cas p est la proportion de naissances en période de nouvelle lune, H 0 s écrit p = 1 4 et H 1 s écrit p < 1 4 : le test est unilatéral inférieur. Si X n est le nombre de naissances pendant la nouvelle lune, la région critique aurait été de la forme K 0,05 = {X n k α } où k 0,05 est la plus grande valeur de k telle que P[X n k] 0, 05. - De même, on aurait pu imaginer que l hypothèse H 1 est : la lune montante a une influence sur naissances (sans sans préciser si elle est positive ou négative). Dans ce cas p est la proportion de naissances en lune montante, H 0 s écrit p = 1 2 et H 1 s écrit p 1 2 : le test est bilatéral. Sous H 0, le nombre de naissances X n en lune montante suit une B(28, 1 2 ). La région critique serait de la forme K 0,05 = {X n k 1 } {X n k 2 } où k 1 est la plus grande valeur de k telle que p[x n k] 0,05 2 et k 2 est la plus petite valeur de k telle que p[x n k] 0,05 2. 5