Tests de Student-Fisher compléments

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Cours de Tests paramétriques

Analyse de la variance Comparaison de plusieurs moyennes

Estimation et tests statistiques, TD 5. Solutions

Introduction à la Statistique Inférentielle

Principe d un test statistique

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Équivalence et Non-infériorité

Intégration et probabilités TD1 Espaces mesurés Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Couples de variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

L exclusion mutuelle distribuée

Introduction a l'algorithmique des objets partages. Robert Cori. Antoine Petit. Lifac, ENS Cachan, Cachan Cedex. Resume

Relation entre deux variables : estimation de la corrélation linéaire

Algorithmes d'apprentissage

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

NOTIONS DE PROBABILITÉS

Intégration et probabilités TD1 Espaces mesurés

4. Martingales à temps discret

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Probabilités III Introduction à l évaluation d options

POKER ET PROBABILITÉ

Amphi 3: Espaces complets - Applications linéaires continues

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Econométrie La régression linéaire simple et multiple

Régression linéaire. Nicolas Turenne INRA

Package TestsFaciles

3. Conditionnement P (B)

Limites finies en un point

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

1 TD1 : rappels sur les ensembles et notion de probabilité

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Econométrie et applications

Loi d une variable discrète

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Calcul fonctionnel holomorphe dans les algèbres de Banach

PROBABILITES ET STATISTIQUE I&II

Commun à tous les candidats

Principe de symétrisation pour la construction d un test adaptatif

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

ENSIIE. Macroéconomie - Chapitre I

Evaluation de la variabilité d'un système de mesure

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Image d un intervalle par une fonction continue

Quantification Scalaire et Prédictive

Biostatistiques : Petits effectifs

Introduction à la statistique non paramétrique

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

D'UN THÉORÈME NOUVEAU

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Le taux d'actualisation en assurance

RÈGLEMENT DU JEU CONCOURS «Feel Beautiful»

Problème : Calcul d'échéanciers de prêt bancaire (15 pt)

Statistiques à une variable

Texte Agrégation limitée par diffusion interne

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)


* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Probabilités conditionnelles Loi binomiale

1 Définition de la non stationnarité


4. Verdissement, une PAC plus verte

FORMULAIRE DE STATISTIQUES

Introduction à la théorie des files d'attente. Claude Chaudet

chapitre 4 Nombres de Catalan

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre II: VARIATIONS DU BILAN NOTION DE RESULTAT

Objets Combinatoires élementaires

Espaces probabilisés

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Exercices - Polynômes : corrigé. Opérations sur les polynômes

3 Approximation de solutions d équations

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

6. Les différents types de démonstrations

MATH ELEMENTS DU CALCUL DES PROBABILITES

Axiomatique de N, construction de Z

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Comparaison de populations

Processus aléatoires avec application en finance

Condition de stabilité d'un réseau de les d'attente à deux stations et N classes de clients 1

Transcription:

Tests de Student-Fisher compléments Matthieu Kowalski 1 Rappels généraux sur les tests 1.1 Un exemple Un producteur d'ampoules ash, qui ne peuvent servir qu'une seule fois, arme à ses clients que la proportion p d'ampoules défectueuses est inférieure à 10%. Pour éviter que les lots vendus ne lui soient renvoyés, il veut s'assurer de ses dires. Pour cela, il prélève un échantillons de n = 1000 ampoules de sa chaîne de production. Le but est d'évaluer p à partir de cet échantillon. Il note X la variable aléatoire qui représente le nombre d'ampoules défectueuses sur 1000 ampoules testées. Pour estimer p, il considère chaque ampoule comme une variable aléatoire X i B(p) de sorte que X i = 1 si l'ampoule i est défecteuse X i = 0 sinon. Ainsi, X = n X i suit la loi B(n, p). i=1 Intuitivement, si Xn = 1 n n X i est grand, alors il y a peu de chance que p i=1 soit inférieur à 10%. Le producteur peut donc prendre comme règle de décision : Si Xn > t ( X n assez grand), alors p > 10% ; Si Xn > t ( X n assez petit), alors p 10%. où t est un nombre à xer. Le problème est donc : Comment choisir t convenablement? Un premier choix naturel est de prendre t = 10%. La règle de décision serait alors : Si Xn > 10%, alors p > 10% ; Si Xn > 10%, alors p 10%. On calcule dans la suite les probabilités de se tromper si on adopte cette règle. Une première façon de se tromper est de décider que p > 10% alors que ce n'est pas le cas : α 1 = sup P X n > 10%} = sup P p 10% p 10% X n p > p(1 p)/n 10% p p(1 p)/n }. 1

Ici, on cherche à trouver la plus grande probabilité (ie le plus gros risque) de se tromper (ie X n > 10%) quand l'hypothèse p 10% est vériée. } X On applique le TLC à Z = n p. La fonction p [0, 10%] P Z > 10% p p(1 p)/n p(1 p)/n est croissante, et donc le sup est atteint pour p = 10%. On obtient donc α 50%. Dans le pire des cas, on a donc 50% de risque de se tromper en décidant que p > 10% avec cette stratégie. L'autre erreur possible, est de décider que p 10% alors qu'en réalité p < 10% : α 2 = sup P X n 10%}. p>10% Par un raisonnement similaire, on trouve : α 2 50%. On se trompe alors ici aussi une fois sur deux en décidant que p < 10% avec cette règle de décision. La règle de décision initiale est donc très mauvaise : on se trompe une fois sur deux dans les deux cas! Pour le producteur d'ampoule, conclure que p > 10% lorsque ce n'est pas le cas aura des conséquences moins grave que de conclure p 10% si p > 10%. En eet, dans le premier cas, il ne prendra pas le risque d'envoyer le lot d'ampoules, alors que dans le second, beaucoup de lots lui seront retournés (et ses clients ne seront pas satisfaits). Si on reprent les calculs précédents de façon plus générale, en gardant un seuil t quelconque, on a : α 1 = sup P X t p n > t} sup PZ > }, Z N (0, 1), p 10% p 10% p(1 p)/n α 2 = sup P X t p n t} sup PZ }, Z N (0, 1). p>10% p>10% p(1 p)/n Ainsi, plut t est choisi grand, plus α 1 devient petit, mais plus α 2 devient grand. Les deux erreurs ne peuvent pas être (en général) petites en même temps. Il faut choisir de privilégier une hypothèse par rapport à l'autre. On notera cette hypothèse (H 0 ). La seconde sera notée (H 1 ). Dans cet exemple, on teste (H 0 ) : p 10% contre (H 1 ) : p < 10%. Par dénition de (H 0 ) et (H 1 ), l'erreur qu'on contrôle est α = P (H0)Rejeter (H 0 )}. α s'appelle le niveau du test, ou l'erreur de première espèce. La règle de décision est la suivante : 2

Si Xn < t Rejet de (H 0 ). Si Xn t Acceptation de (H 0 ). Si on prend α = 5%, le calcul de t donne : 5% = sup P( X n < t) p 10% } t p sup P Z p(1 p)/n P p 10% Z } t 0.1 0.1(0.9)/n. La table de la loi normale donne t = 0.1 1.645 0.09/n. α xe la règle de décision, et on ne peut plus contrôler l'erreur de deuxième type P (H1)accepter (H 0 )}. Ici, le calcul de cette erreur donne 95%. 1.2 Étapes de construction d'un test 1. Choix de l'hypothèse privilégiée (H 0 ) en fonction de l'erreur qu'on veut contrôler : α = P (H0)rejeter H 0 }. 2. Choix du niveau α (petit). 3. Construction d'une région de rejet de (H 0 ) de niveau α. On la construit en générale sur un estimateur ˆθ du paramètre } θ sur lequel porte le test. Cette région est du type R = ˆθ R. Dans l'exemple précédent, on a R = Xn < t }. 4. Conclusion au vu de l'échantillon selon la règle de décision : Si ˆθ R, rejet de (H 0 ) ; Si ˆθ / R, acceptation de (H 0 ) ; 5. Si on accepte (H 0 ), calcul éventuel de l'erreur de deuxième espèce. 1.3 P-valeur En pratique, plutôt que de xer un niveau α et d'en déduire la région le t associée, on peut calculer la P-valeur du test. Dans notre exemple, supposons qu'on observe X n = x n = 0.09. La P-valeur du test est donnée par P (H0) X n < x n } = P p=0.1 X n < 0.09}. 3

La P-valeur est probabilité de rejeter à tort (H 0 ) quand t est remplacé par la valeur observé sur l'échantillon. La P-valeur nous dit si ce que nous observons sur l'échantillon de données est probable sous l'hypothèse (H 0 ). Ainsi, la règle de décision nale est donnée quelque soit le niveau α choisi par 1. Si α >P-valeur, rejet de (H 0 ). 2. Si α P-valeur, acceptation de (H 0 ). 2 Test de Fisher Soit deux échantillons X et Y suivant respectivement une loi normale N (µ X, σ 2 X ) et N (µ Y, σ 2 Y ) et de taille respective n X et n Y. Le but du test de Fisher est de fournir une règle de décision vis à vis de l'égalité des deux variance σ X et σ Y. Rappel : on utilise l'estimateur de la variance convergent et asymtotiquement sans biais ˆσ 2 X = 1 n 1 La statistique du test de Fisher est n (X n X n ) 2. k=1 F = ˆσ2 X ˆσ 2 Y. Ce rapport suit une loi de Fisher, ie F F nx 1,n Y 1. Intuitivement, F doit être proche de 1 sous H 0 et largement plus petite ou plus grande sous H 1. On considère un test de région de rejet du type R = F < k 1 } F > k 2 }, ou, de manière équivalente, de région d'acceptation R = k 1 < F < k 2 }. 2.1 Test unilatéral à droite H 0 : σx 2 = σ2 Y H 1 : σx 2 > σ2 Y. Dans ce cas, on rejette H 0 lorsque le rapport des variances devient grand. On cherche la région d'acceptation sous la forme R = F < k 2 }. 4

α = P H0 F > k 2 }, k 2 = F nx 1,n Y 1;1 α. Si F > k 2, rejet de H 0 Si F < k 2, acceptation de H 0. La P-valeur du test est donnée par : P-valeur = PZ > F } = 1 PZ F }, où Z F nx 1,n Y 1. La règle de décision associée est : 1. Si α > P-valeur, rejet de H 0. 2. Si α P-valeur, rejet de H 0. 2.2 Test unilatéral à gauche H 0 : σx 2 = σ2 Y H 1 : σx 2 < σ2 Y. Dans ce cas, on rejette H 0 lorsque le rapport des variances devient petit. On cherche la région d'acceptation sous la forme R = F > k 1 }, α = P H0 F < k 1 }, k 1 = F nx 1,n Y 1;α. Si F < k 1, rejet de H 0. Si F > k 1, acceptation de H 0. La P-valeur du test est donnée par : P-valeur = PZ < F } où Z F nx 1,n Y 1. La règle de décision associée est : 1. Si α > P-valeur, rejet de H 0 2. Si α P-valeur, rejet de H 0 5

2.3 Test bilatéral H 0 : σx 2 = σ2 Y H 1 : σx 2 σ2 Y. On cherche k 1 et k 2 tels que α = P H0 F < k1} et P H0 F > k 2 }. On impose de plus P H0 F < k1} = P H0 F > k 2 }, k 1 = F nx 1,n Y 1; α 2 et k 2 = F nx 1,n Y 1;1 α 2. par Si F < k 1 ou F > k 2, rejet de H 0. Si k 1 < F < k 2, acceptation de H 0. Soit Z F nx 1,n Y 1. On dénit la P valeur dans le cas d'un test bilatéral P-valeur = Et la règle de décision associée est Si α > P-valeur, rejet de H 0. Si α P-valeur, rejet de H 0. 2PZ < F } si PZ < F } 1 2 2(1 PZ < F }) si PZ < F } 1 2 3 Test de Student On considère deux échantillons X et Y suivant respectivement une loi normale N (µ X, σ 2 X ) et N (µ Y, σ 2 Y ) et de taille respective n X et n Y. Le but du test de Student est de fournir une règle de décision vis à vis de l'égalité des deux moyennes µ X et µ Y, lorsque les variances sont inconnues mais égales, ie σ 2 X = σ2 T = σ. La statistique du test de Student est avec T = ˆµ X ˆµ Y ˆσ 1 n X + 1 n Y, ˆσ = = nx k=1 (X k ˆµ X ) 2 + n Y k=1 (Y k ˆµ Y ) 2 n X + n Y 2 n X 1 n X + n Y 2 ˆσ2 X + n Y 1 n X + n Y 2 ˆσ2 Y. T suit une loi de student-t de n X + n Y 2 degrés de liberté. 6

Intuitivement, T doit être proche de 0 sous H 0, et beaucoup plus grande ou plus petite sous H 1. On considère un test de région de rejet du type R = T > t}, ou, de manière équivalente, de région d'acceptation R = T < t}. 3.1 Test unilatéral à droite H 0 : µ X = µ Y H 1 : µ X > µ Y. Dans ce cas, on rejette H 0 lorsque T devient grand. On cherche la région d'acceptation sous la forme R = T < t}. Si T > t, rejet de H 0. Si T < t, acceptation de H 0. 3.2 Test unilatéral à gauche α = P H0 T > t}, t = t nx +n Y 2;1 α. H 0 : µ X = µ Y H 1 : µ X < µ Y. Dans ce cas, on rejette H 0 lorsque T devient très négatif. On cherche la région d'acceptation sous la forme Si T < t, rejet de H 0. Si T > t, acceptation de H 0. R = T > t}. α = P H0 T < t}, t = t nx +n Y 2;α = t nx +n Y 2;1 α. 7

3.3 Test bilatéral H 0 : µ X = µ Y H 1 : µ X µ Y Dans ce cas, on rejette H 0 lorsque T devient très négatif. On cherche la région d'acceptation sous la forme R = T < t}. α = P H0 T > t}, t = t nx +n Y 2;1 α 2. par Si T > t, rejet de H 0. Si T < t, acceptation de H 0. Soit Z t nx 1,n Y 1. On dénit la P-valeur dans le cas d'un test bilatéral P-valeur = Et la règle de décision associée est Si α > P-valeur, rejet de H 0. Si α P-valeur, rejet de H 0. 2PZ < F } si PZ < F } 1 2 2(1 PZ < F }) si PZ < F } 1 2 8