Les Tests Statistiques

Documents pareils
PROBABILITES ET STATISTIQUE I&II

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Introduction à la statistique non paramétrique

3. Caractéristiques et fonctions d une v.a.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Simulation de variables aléatoires

Estimation et tests statistiques, TD 5. Solutions

TESTS D'HYPOTHESES Etude d'un exemple

Lois de probabilité. Anita Burgun

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Modélisation des risques

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

La simulation probabiliste avec Excel

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

4 Distributions particulières de probabilités

Travaux dirigés d introduction aux Probabilités

Cours de Tests paramétriques

Que faire lorsqu on considère plusieurs variables en même temps?

Loi binomiale Lois normales

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Limites finies en un point

Principe de symétrisation pour la construction d un test adaptatif

Méthodes de Simulation

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Introduction à la théorie des files d'attente. Claude Chaudet

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Introduction à la Statistique Inférentielle

Variables Aléatoires. Chapitre 2

Programmes des classes préparatoires aux Grandes Ecoles

Probabilités III Introduction à l évaluation d options

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

MÉTHODE DE MONTE CARLO.

Corrigé des TD 1 à 5

2.4 Représentation graphique, tableau de Karnaugh

Calcul élémentaire des probabilités


CCP PSI Mathématiques 1 : un corrigé

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Le modèle de Black et Scholes

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TABLE DES MATIERES. C Exercices complémentaires 42

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Pierre Thérond Année universitaire

Cours de méthodes de scoring

1.1 Codage de source et test d hypothèse

FIMA, 7 juillet 2005

Cours d introduction à la théorie de la détection

CHAPITRE 5. Stratégies Mixtes

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction aux Statistiques et à l utilisation du logiciel R

Chapitre 3 : INFERENCE

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #6

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

FORMULAIRE DE STATISTIQUES

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Leçon 01 Exercices d'entraînement

CNAM léments de cours Bonus-malus et Crédibilité

Moments des variables aléatoires réelles

Annexe commune aux séries ES, L et S : boîtes et quantiles

Probabilités et statistique. Benjamin JOURDAIN

Econométrie et applications

Données longitudinales et modèles de survie

Commun à tous les candidats

Espérance conditionnelle

Exemples d application

Table des matières. I Mise à niveau 11. Préface

Groupoïdes quantiques mesurés : axiomatique, étude, dualité, exemples

Statistique inférentielle TD 1 : Estimation

Chaînes de Markov au lycée

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse de la variance Comparaison de plusieurs moyennes

Mesure et gestion des risques d assurance

Biostatistiques : Petits effectifs

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Théorème du point fixe - Théorème de l inversion locale

Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.

Plan du cours Cours théoriques. 29 septembre 2014

Chapitre 7. Récurrences

Modélisation aléatoire en fiabilité des logiciels

Théorie des probabilités

Suites numériques 3. 1 Convergence et limite d une suite

La méthode de l amortissement direct

Quantification Scalaire et Prédictive

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Transcription:

Les Tests Statistiques Idées: notion d un test; les hypothèses nulle et alternative; statistique de test; niveau de signification; relation avec les intervalles de confiance; test de chi-deux. Reference: Ben Arous notes, VI.6 VI.9. Exercises: 13 du recueil; 21 29 (complément d exercices). Probabilité et Statistique II 2 juin 2003 1

Exemple motivant: Top quark (TQ) Des expériences physiques suggèrent qu un nombre X suit un loi de Poisson avec paramètre θ, et que θ égale θ 0 = 6.7 si le TQ n existe pas. La valeur observée de X est x obs = 17. Est-ce que le TQ existe? Si le TQ n existait pas, la probabilité de l évènement X x obs serait Pr(X x obs ) = x=x obs Pr(X = x) = θx 0 x=x obs x! e θ 0, et avec θ 0 = 6.7, x obs = 17, on aurait Pr(X x obs ) = x=17 6.7 x e 6.7 = 0.000599279 =. 0.0006. x! Alors, si le TQ n existe pas, un évènement très rare s est passé. Probabilité et Statistique II 2 juin 2003 2

Top quark Densité Poisson. Gauche: θ = θ 0. Droite: θ > θ 0. L aire ombrée mesure la credibilité de l hypothèse TQ n existe pas. theta=6.7 theta=10 Poisson density 0.00 0.05 0.10 0.15 Poisson density 0.00 0.05 0.10 0.15 0 5 10 15 20 25 30 x 0 5 10 15 20 25 30 x Probabilité et Statistique II 2 juin 2003 3

Les éléments d un test Une hypothèse nulle H 0 à tester. Ici on a H 0 : θ 0 = 6.7. Une statistique de test T, choisi telle que des grandes valeurs de T suggèrent que H 0 est fausse. La valeur observée de T est t obs. Un niveau de signification p obs donnant la probabilité d observer l évènement T t obs sous H 0. C est à dire: p obs = Pr 0 (T t obs ), où Pr 0 ( ) indique une probabilité calculé sous H 0. Plus p obs est petite, plus on doute que H 0 soit vraie. Top quark: on suppose que X Poisson(θ). On a H 0 : θ = θ 0 = 6.7, T = X, et p obs. = 0.0006. Probabilité et Statistique II 2 juin 2003 4

Faire tourner une pièce à 5SFr Est-ce que Pr(face) = 0.5 quand une pièce est tournée? 200 essais: x obs = 115 en la tournant; x obs = 105 en la jetant. 5Fr, 1978, spins 5Fr, 1978, tosses Proportion of heads 0.0 0.2 0.4 0.6 0.8 1.0 Proportion of heads 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 Number of spins 0 50 100 150 200 Number of tosses Probabilité et Statistique II 2 juin 2003 5

Test d honnêteté de la pièce Si elle est honnête, alors le nombre de faces X sur n essais suit la loi binomial B(n, θ), avec θ = θ 0 = 1/2. Hypothèse nulle H 0 : θ = θ 0 = 1 2. Ici n = 200, donnant E(X) = nθ 0 = 100, var(x) = nθ 0 (1 θ 0 ) = 50 sous H 0. Plus X nθ 0 est grand, plus on soupçonne que la pièce n est pas honnête soit Pr(face) < 1/2, soit Pr(face) > 1/2. Statistique de test T = X nθ 0. Valeur observée t obs = X nθ 0 = 115 100 = 15. Probabilité et Statistique II 2 juin 2003 6

Honnêteté de la pièce: Niveau de signification On veut calculer p obs = Pr 0 (T t obs ) = Pr 0 ( X nθ 0 15), et sous H 0, X B(n, θ 0 ) avec n = 200, θ 0 = 1 2. Ainsi p obs = Pr 0 (X nθ 0 15) + Pr 0 (X nθ 0 15) = Pr 0 (X 100 15) + Pr 0 (X 100 + 15) 85 ( ) 200 200 ( ) 1 x = 1 200 x 200 x 2 2 + x x=0 = 0.04003719. = 1/25. x=115 1 x 1 200 x 2 2 Alors l évènement X nθ 0 15 arriverait à peu près une fois sur 25 par hasard, si H 0 serait vraie. Probabilité et Statistique II 2 juin 2003 7

Interpretation de p obs Plus p obs est petite, plus on doute H 0. Si p obs est petite, il y a deux possibilités: Soit (a) H 0 est vraie, et un évènement rare s est passé, soit (b) H 0 est fausse. La choix d entre ces possibilités depend comment on juge l importance des deux types d erreurs possibles: Erreur de Type I: H 0 est vraie, mais on la rejette. Erreur de Type II: H 0 est fausse, mais on l accepte. Alors ce choix depend des consequences des erreurs, et alors du contexte du problème. Probabilité et Statistique II 2 juin 2003 8

Interlude: Approximation normale à p obs Sous H 0, X B(200, 1 2 ), et E(X) = 100, var(x) = 50. Donc X. N(100, 50), et donc Z = (X 100)/ 50. N(0, 1). La symmetrie de la densité normale autour de son espérance donne Pr 0 ( X nθ 0 15) = 2Pr(X nθ 0 15) { X nθ 0 = 2Pr nθ0 (1 θ 0 ) } 15 nθ0 (1 θ 0 ) {. = 2Pr Z 15 + 1 } 2 50 = 2Pr(Z 2.05). = 0.0403. Probabilité et Statistique II 2 juin 2003 9

L hypothèse nulle H 0 Le modèle statistique le plus simple, ce que l on veut tester. Point important: H 0 concerne le modèle, pas les données. Parfois on n y crois pas vraiment, mais s elle est vraie (plus ou moins), le modèle sera simplifié. H 0 ne met pas forcement les contraintes sur les données, mais sur les paramètres du modèle. Par exemple, si le modèle de base est que iid X 1,...,X n F(x; θ), mais ne met pas de contrainte sur θ, H0 peut fixed θ = θ 0, ou θ θ 0. Probabilité et Statistique II 2 juin 2003 10

La statistique de test T Plus T est grande, plus est forte l indication contre H 0. Donc le choix de T depend des alternatives de H 0 ce que l on imagine soit possible, si H 0 n était pas vraie. Exemple: on remplace l hypothèse alternative H 1 la pièce est malhonnête par l hypothèse alternative H 1 que Pr(face) > 1 2. Alors on prends T = X nθ 0, et ainsi on a p obs = Pr 0 (T t obs ) = Pr 0 (X nθ 0 t obs ) = Pr 0 (X nθ 0 +t obs ). = 0.02. Ceci met plus en doute H 1 que H 1, car p obs < p obs. Plus l hypothèse alternative est précise, mieux on peut construire une statistique de test appropriée. Probabilité et Statistique II 2 juin 2003 11

Le niveau de signification p obs On le calcul comme si H 0 était vraie. On utilise souvent des niveaux conventionnels, tels que 0.05, 0.01, 0.001, etc., qui correspondent aux évènements avec des probabilités de 1/20, 1/100, 1/1000, etc. On dit que l on rejette H 0 á niveau 0.05 si p obs < 0.05. Evidemment si p obs < 0.01 on rejette au niveau 0.05 en plus du niveau 0.01. Ne pas confondre signification statistique ni avec signification practique ni avec signification scientifique. Probabilité et Statistique II 2 juin 2003 12

Lien avec les intervalles de confiance Soit θ un estimateur du paramètre θ, et suppose que θ N(θ, V ). L intervalle de confiance (IC) à niveau (1 2α) pour θ est ( θ z 1 α V 1/2, θ z α V 1/2 ), où z α est la α quantile de la loi N(0, 1). Si θ 0 appartient à l IC, alors θ z 1 α V 1/2 θ 0 θ z α V 1/2. Donc z α ( θ θ 0 )/V 1/2 z 1 α, nous donnant θ θ 0 /V 1/2 z 1 α (symmetrie de la densité N(0, 1) implique z α = z 1 α ). Maintenant suppose que l on va tester l hypothèse H 0 : θ = θ 0 en Probabilité et Statistique II 2 juin 2003 13

utilisant T = θ θ 0 /V 1/2 comme statistique de test. Sous H 0, ( θ θ 0 )/V 1/2 N(0, 1). Si le niveau de signification est 2α, alors Pr 0 (T t obs ) = 2α. Donc { } Pr 0 (T t obs ) = Pr 0 t obs < ( θ θ 0 )/V 1/2 < t obs = 1 2α et ainsi t obs = z 1 α, car ( θ θ 0 )/V 1/2 N(0, 1). Donc la valeur observée de ( θ θ 0 )/V 1/2 est de ±z α, et θ se trouve sur l une des bornes de l IC à niveau (1 2α). Implication: si θ 0 appartient à un IC bilateral de niveau (1 2α), le niveau de signification de test de H 0 : θ = θ 0 est au moins 2α. Autrement dit: un IC à niveau (1 2α) contient toutes valeurs θ 0 que l on ne peut pas rejeter à niveau 2α. Probabilité et Statistique II 2 juin 2003 14

Test du chi-deux On l utilise pour verifier si une variable aléatoire obéit à une distribution donnée. Il est plus utile pour les lois discrètes. Exemple: Ted Turlings et Cristina Tamo de l Université de Neuchâtel étudient des guêpes parasitoïdes, qui pondent leurs oeufs à l intérieur des chenilles. Pour voir si les guêpes sont attirées par l odeur des chenilles, ils ont mené des expériences avec 6 chambres, autour d une chambre commune où les guêpes ont été lâchées. Probabilité et Statistique II 2 juin 2003 15

Les guêpes Expériences sans odeur: Chambre 1 2 3 4 5 6 Guêpes 11 1 5 6 7 4 Expériences avec odeur de chenille dans la chambre 1: Chambre 1 2 3 4 5 6 Guêpes 76 0 8 4 1 0 Probabilité et Statistique II 2 juin 2003 16

L hypothèse nulle H 0 : l odeur n attire pas les guêpes. Sous H 0 les nombres de guêpes suivent une loi multinomiale, et la probabilité qu une chambre soit choisi par une guêpe est 1/6. Donc nombre de guêpes èsperé pour chambre i est E i = n/6, où n est le nombre totale de guêpes. On prend comme statistique de test T = 6 i=1 (O i E i ) 2 E i, qui mesure la divergence entre les E i et les nombres observés O i. Probabilité et Statistique II 2 juin 2003 17

Le niveau de signification On peut montrer que T. χ 2 5 sous H 0, si les nombres ne sont pas trop petits. Pour l expérience sans odeur, t obs = 9.76, p obs = Pr(χ 2 5 9.76) = 0.082. Pour l expérience avec odeur, t obs = 305.9, p obs = Pr(χ 2 5 305.9) = 0. Aucune doute que H 0 soit fausse: les guêpes sont attirés par l odeur. Probabilité et Statistique II 2 juin 2003 18

Les tests basés sur la vraisemblance On a observé x, que l on suppose soit une realisation d une variable aléatoire X, dont la densité f(x; θ) depend du paramètre scalaire inconnu θ. Log vraisemblance l(θ) = log f(x; θ) considerée comme fonction de θ. Pour tester H 0 : θ = θ 0, on compare l(θ 0 ) avec l( θ). Plus l( θ) l(θ 0 ) est grande, moins H 0 est crédible. Définition: La statistique de rapport de vraisemblance est { } W(θ 0 ) = 2 l( θ) l(θ 0 ). Théorème: Sous H 0 : θ = θ 0, on a W(θ 0 ). χ 2 1. Donc on rejette H 0 au niveau 2α si W(θ 0 ) > c 1 (1 2α). Probabilité et Statistique II 2 juin 2003 19

Rapport de vraisemblance On rejette les valeur de θ telles que W(θ) > c 1 (1 2α). Pour test à niveau 2α = 0.05, c 1 (0.95) = 3.84. Likelihood 0.00 0.02 0.04 0.06 0.08 0.10 Log likelihood 20 15 10 5 0 0 10 20 30 40 theta 0 10 20 30 40 theta Probabilité et Statistique II 2 juin 2003 20