La démarche de tests, populations gaussiennes

Documents pareils
Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Principe d un test statistique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours de Tests paramétriques

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Estimation et tests statistiques, TD 5. Solutions

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

choisir H 1 quand H 0 est vraie - fausse alarme

Biostatistiques : Petits effectifs

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

TSTI 2D CH X : Exemples de lois à densité 1

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Item 169 : Évaluation thérapeutique et niveau de preuve

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

UE Ma probabilité conditionnelle, indépendance, dénombrement

Introduction à la théorie des files d'attente. Claude Chaudet

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

VI. Tests non paramétriques sur un échantillon

Statistique inférentielle TD 1 : Estimation

FORMULAIRE DE STATISTIQUES

Produits de crédit en portefeuille

Ressources pour le lycée général et technologique

Que faire lorsqu on considère plusieurs variables en même temps?

PROBABILITES ET STATISTIQUE I&II

Plan d études. Traitement visuel 2D. Techniques d intégration multimédia HU. legault/2d/ 1-2-2

Exercices sur le chapitre «Probabilités»

Cours 9 : Plans à plusieurs facteurs

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Équivalence et Non-infériorité

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

Première partie: Restitution + Compréhension (08 points)

Econométrie et applications

Programme Hôpital Avenir 1,5 milliard euros Signature avec Mme M Touraine et MM P Moscovici et T Repentin, Ministres Villejuif le 1 er décembre 2013

INDICATIONS DE L AMYGDALECTOMIE CHEZ L ENFANT

TESTS D'HYPOTHESES Etude d'un exemple

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Tarif et modifications tarifaires dans la loi sur l assurance-maladie (LAMal)

Transgene accorde une option de licence exclusive pour le développement et la commercialisation de son produit d immunothérapie TG4010

Le Data WareHouse à l INAMI Exploitation des données

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

L ANALYSE COUT-EFFICACITE

1 Complément sur la projection du nuage des individus

PROGRAMME (Susceptible de modifications)

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Aide-mémoire de statistique appliquée à la biologie

First Line and Maintenance in Nonsquamous NSCLC: What Do the Data Tell Us?

I - Quelques propriétés des étoiles à neutrons

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

STATISTIQUES. UE Modélisation pour la biologie

Démographie des masseurs-kinésithérapeutes

REGLEMENT DES JEUX CHAT SMS 4040

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

MANUEL QUALITE. Greiner Bio-One SAS

Limites finies en un point

Relation entre deux variables : estimation de la corrélation linéaire

Sélection et Évaluation Quantitative des Médicaments pour la Prise en Charge du VIH/SIDA. Sophie Logez, OMS/PSM Addis Abeba, Ethiopie, Février 2005

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

La médiatrice d un segment

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction à la Statistique Inférentielle

Lagrange, où λ 1 est pour la contrainte sur µ p ).

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Le choix professionnel pour les applications analytiques!

Projet Etienne Marceau Méthodes statistiques en assurance non vie

De nombreux composés comportant le squelette aryléthanolamine (Ar-CHOH-CH2-NHR) interfèrent avec le

Analyse en Composantes Principales

Grilles de lecture données environnement 2013 Tableau de bord de suivi des opérations de démantèlement

démographie des masseurs-kinésithérapeutes

F411 - Courbes Paramétrées, Polaires

COMMENTAiRES/ DECISIONS

attitudes envers le dépistage

La fonction exponentielle

Thématique : Insertion Professionnelle LES DIFFERENTS PARCOURS OFFERTS PAR L EDUCATION NATIONALE PROCURENT-ILS LES MEMES CHANCES D ACCEDER A L EMPLOI?

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

REGLEMENT DU JEU «CONCOURS SOLID R»

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

La classification automatique de données quantitatives

La nouvelle planification de l échantillonnage

Le chi carré. Le sommaire. Approche quantitative

PRIME D UNE OPTION D ACHAT OU DE VENTE

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Transcription:

Introduction au modèle linéaire La démarche de tests, populations gaussiennes L3 BI Université d Evry semestre de printemps 2016 http://julien.cremeriefamily.info/teachings_l3bi_msv601.html 1

Plan Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 2

Plan Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 3

Tests d hypothèses Définitions Un test statistique est une procedure permettant de trancher entre deux hypothèses au vue des observations. Une hypothèse statistique est un ennoncé portant sur les caractéristiques d une population (paramètre ou forme d une distribution) 4

Exemple Exemple On désire étudier la durée de vie d une fleur F. On admet que la durée de vie de cette fleur est une variable aléatoire gaussienne dont l espérance est de 77 jours dans des conditions normales. On suppose que l écart-type est égal à 10 jours. Un spécialiste propose une alimentation qui - selon lui - augmente la durée de vie moyenne de cette fleur. Pour s en assurer un laboratoire soumet 10 fleurs au régime proposé. A la fin de l expérience, les durées de vie de ces 10 fleurs sont les suivantes (en jours) : 94, 73, 85, 82, 84, 95, 71, 86, 82, 68. Proposer un test au niveau 5% permettant de déterminer si le régime proposé par le spécialiste a un effet significatif ou pas. 5

Démarche 1. Choisir les hypothèses à tester (H 0 et H 1 ) 2. Fixer le niveau du test α 3. Choisir une statistique de test 4. Déterminer la règle de décision (région de rejet Γ) 5. Calculer la statistique (et la p-valeur) 6. Conclure 6

Risques d erreurs Résultats possibles Décision Ne pas rejeter H 0 Rejeter H 0 Réalité (conclure H 0 ) (conclure H 1 ) H 0 vraie OK Erreur de type I H 1 vraie Erreur de type II OK Définitions Risque de première espèce : α = P(rejeter H 0 H 0 vraie) (probabilité de commettre une erreur de type I) Risque de seconde espece : β = P(ne pas rejeter H 0 H 1 vraie) (probabilité de commettre une erreur de type II) Puissance : P = 1 β = P(rejeter H 0 H 1 vraie) (probabilité de prendre la bonne décision en rejetant H 0 ) 7

Asymétrie Hypothèse nulle et hypothèse alternative L hypothèse nulle (notée H 0 ) est l hypothèse privilégiée. C est celle qui est supposée vraie par défaut (vérité établie) et qui sera conservée en cas de doutes (trop importants). L hypothèse alternative (notée H 1 ) contredit l hypothèse nulle. C est l hypothèse que l on cherche à montrer. 8

Hypothèse simple/composite Exemple d hypothèses simples H : θ = θ 0 Exemple d hypothèses composites θ < θ 0 θ > θ 0 θ θ 0 θ [a, b] 9

Tests unilatéraux / bilatéraux Test unilatéral (à droite) Test bilatéral H 0 : θ = θ 0 H 1 : θ > θ 0 H 0 : θ = θ 0 H 1 : θ θ 0 10

Statistique de test Définition Une statistique de test est une statistique (dont la loi est connue sous H 0 ) qui permet de mesurer l écart à l hypothèse nulle. 11

Règle de décision Choix du niveau du test Le niveau de signification du test est le risque de première espèce α consenti. Le niveau de signification du test est souvent fixé à 0.05 ou 0.01, mais ce seuil est arbitraire est toute autre valeur peut être choisie. 12

Région de rejet Définition La Région de rejet est l ensemble R des valeurs (de la statistique de test) pour lesquelles l hypothèse nulle est rejetée. Démarche de Neyman Pearson Maximiser la puissance tout en contrôlant α. 13

Risques d erreurs densites H 1 H 0 α β t A log ratio Figure Erreur de type I et II et région critique de la forme Γ =], A] 14

Tests unilatéraux / bilatéraux Test unilatéral (à droite) Test bilatéral H 0 : θ = θ 0 H 1 : θ > θ 0 H 0 : θ = θ 0 H 1 : θ θ 0 15

Degré de signification (p-valeur) Définition Le degré de signification (ou p-valeur) est défini par : p = min{α T Γ α } Test unilatéral à droite Test unilatéral à gauche Test bilatéral p = P(T > t H 0 ) p = P(T < t H 0 ) p = P( T > t H 0 ) Remarques La p-valeur est la probabilité d obtenir une valeur de la statistique de test au moins aussi extrême que celle observée lorsque H 0 est vraie En pratique, on rejette H 0 lorsque p < α 16

Degré de signification densites H 1 H 0 pvalue(t) t A log ratio Figure p-valeur associée à la réalisation t de la statistique de décision pour un test unilatéral à gauche. 17

Etude de la puissance Remarque Le calcul de la puissance ne peut se faire que si l on connaît la distribution de la statistique de test sous l hypothèse alternative (H 1 ) L étude de la puissance permet de déterminer, pour une alternative donnée, le nombre d observations nécessaires pour conclure H 1 (avec une certaine puissance) L étude de la puissance permet de déterminer, pour un nombre d observations données, l effet minimum pouvant être montré (avec une certaine puissance) 18

Plan Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 19

Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 20

Test sur l espérance d un échantillon gaussien Cas 1 : variance connue (test z) Présupposés : X 1,..., X n iid avec X i N (µ, σ 2 0 ), σ2 0 connu. Hypothèse nulle : H 0 : µ = µ 0 Statistique de test : X µ 0 σ 2 0 n H0 N (0, 1) 21

Test sur l espérance d un échantillon gaussien Exemple On désire étudier la durée de vie d une fleur F. On admet que la durée de vie de cette fleur est une variable aléatoire gaussienne dont l espérance est de 77 jours dans des conditions normales. On suppose que l écart-type est égal à 10 jours. Un spécialiste propose une alimentation qui - selon lui - augmente la durée de vie moyenne de cette fleur. Pour s en assurer un laboratoire soumet 10 fleurs au régime proposé. A la fin de l expérience, les durées de vie de ces 10 fleurs sont les suivantes (en jours) : 94, 73, 85, 82, 84, 95, 71, 86, 82, 68. Proposer un test au niveau 5% permettant de déterminer si le régime proposé par le spécialiste a un effet significatif ou pas. 22

Test sur l espérance d un échantillon gaussien Cas 2 : variance inconnue (test de Student ou test t) Présupposés : X 1,..., X n iid avec X i N (µ, σ 2 ), σ 2 inconnu. Hypothèse nulle : H 0 : µ = µ 0 Statistique de test : X µ 0 S 2 n H 0 t n 1 Fonction R t.test 23

Test sur l espérance d un échantillon gaussien Exemple On note X la température intérieure (en C ) d une espèce de crabes du Pacifique, prise à une température ambiante de 24.3 C. On suppose que X suit une loi normale N (µ; σ 2 ) dont on ne connaît pas les paramètres. On a mesuré cette température sur un échantillon de 21 crabes pris au hasard : 24.6, 26.1, 25.1, 27.3, 24.0, 24.5,... On donne i x i = 526.9 et i x 2 i = 13255.53. 1. Mettre en place un test statistique de niveau α = 5% pour déterminer si cette espèce de crabes possède sa propre température intérieure ou si cette dernière est la même que la température ambiante. 2. On suppose qu en réalité la température moyenne des crabes est 25 C. Quelle est la puissance du test construit pour détecter une telle différence? 24

Test sur l espérance d un échantillon de loi quelconque Cas 1 : n grand Présupposés : X 1,..., X n iid avec X i L inconnue. Hypothèse nulle : H 0 : µ = µ 0 Statistique de test : Si σ 2 0 connue Si σ 2 0 inconnue X µ 0 σ 2 0 n X µ 0 S 2 n L H0 N (0, 1) (TLC) L H0 N (0, 1) (TLC) Fonction R t.test 25

Test sur l espérance d un échantillon de loi quelconque Exemple Le délai de survie, pour un certain type de cancer, peut être modélisé par une variable aléatoire de loi exponentielle. L espérance de vie avec le traitement de référence est de 4 ans. Un nouveau traitement est testé dans le cadre d un essai clinique sur n = 60 patients. On observe un délai de survie moyen de 4.7 ans. Peut-on conclure que le nouveau traitement est significativement meilleur que le traitement de référence? 26

Plan Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 27

Tests d hypothèses Démarche Tests sur l espérance d un échantillon Comparaison de deux échantillons 28

Test sur l espérance de deux échantillons indépendants Indépendance des échantillons Deux échantillons sont indépendants s ils sont constitués indépendamment l un de l autre Remarque Les sujets de l échantillon 1 ne sont pas les mêmes que les sujets de l échantillon 2 Les effectifs des échantillons 1 et 2 ne sont pas nécessairement les mêmes 29

Comparaison des espérances de deux échantillons gaussiens Test de Student Présupposés : X 11,..., X n1 iid avec X 1i N (µ 1, σ 2 1 ) Y 1,..., Y n2 iid avec Y 2i N (µ 2, σ 2 2 ) σ 2 1 = σ2 2 = σ2 inconnu. Hypothèse nulle : H 0 : µ 1 = µ 2 Statistique de test : X Y ( 1 n 1 + 1 n 2 ) (n 1 1)S 2 1 +(n 2 1)S2 2 n 1 +n 2 2 H 0 t n1 +n 2 2 Fonction R t.test 30

Comparaison des espérances de deux échantillons gaussiens Exemple On a prélevé une solution plusieurs fois en utilisant deux pipettes calibrées de même volume. On a pesé le contenu du volume délivré par la pipette. Les résultats des différents pipettages, qui sont supposés normalement distribués, sont exprimés en grammes. Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984 Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023 On suppose que les variances sont les mêmes dans les deux groupes. 1. Les quantités moyennes prélevées par chacune des deux pipettes sont-elles identiques? (comparer les espérances) 31

Comparaison des espérances de deux échantillons - n 1 et n 2 grands Présupposés : X 1,..., X n1 iid avec X i L 1 Y 1,..., Y n2 iid avec Y i L 2 Hypothèse nulle : H 0 : µ 1 = µ 2 Statistique de test : X Y S 2 1 n 1 + S 2 2 n 2 L H0 N (0, 1) (TLC) Fonction R t.test 32

Comparaison des espérances de deux échantillons - n 1 et n 2 grands Exemple Dans le but d étudier l influence éventuelle de la lumière sur la croissance du poisson Lebistes Reticulus, on a élevé deux lots de ce poisson dans des conditions d éclairage différentes. Au 95 me jour, on a mesuré (en mm) les longueurs x i des poissons. On a obtenu les résultats suivants : Lot 1 (180 individus) : Lot 2 (90 individus) : éclairage à 400 lux xi = 3780 éclairage à 3 000 lux. yi = 2043 x 2 i = 84884 y 2 i = 46586 Que peut-on conclure? 33

Comparaison des espérances de deux échantillons appariés Echantillons appariés Deux échantillons sont appariés s il existe une correspondance entre les observations du premier échantillon et les observations du second. Exemple Mesure avant traitement et après traitement (chez les mêmes sujets) 34

Comparaison des espérances de deux échantillons appariés Présupposés : X 1,..., X n iid avec X i N (µ 1, σ 2 1 ) Y 1,..., Y n iid avec Y i N (µ 2, σ 2 2 ) Soit D i = X i Y i Hypothèse nulle : H 0 : µ d = 0 Statistique de test n petit n grand, loi quelconque D µ d S 2 d n D µ d S 2 d n H 0 t n 1 L H0 N (0, 1) 35

Comparaison des espérances de deux échantillons appariés Exemple On veut comparer chez 10 malades la pression artérielle systolique moyenne après administration d un nouveau médicament hypotenseur et après administration du traitement de référence. Le tableau suivant donne les résultats : Malade 1 2 3 4 5 6 7 8 9 10 Référence 17 15 15 13 12 17 15 16 19 11 Nouveau traitement 16 11 12 13 14 11 13 13 17 10 On suppose les observation normalement distribuées. Le nouveau médicament est-il efficace? 36

Comparaison des variances de deux échantillons gaussiens Présupposés : X 1,..., X n1 iid avec X i N (µ 1, σ 2 1 ) Y 1,..., Y n2 iid avec Y i N (µ 2, σ 2 2 ) Hypothèse nulle : H 0 : σ 2 1 = σ2 2 Statistique de test : S 2 1 S 2 2 F(n 1 1, n 2 1) H 0 Fonction R var.test 37

Comparaison des variances de deux échantillons gaussiens Exemple On a prélevé une solution plusieurs fois en utilisant deux pipettes calibrées de même volume. On a pesé le contenu du volume délivré par la pipette. Les résultats des différents pipettages, qui sont supposés normalement distribués, sont exprimés en grammes. Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984 Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023 On suppose que les variances sont les mêmes dans les deux groupes. 1. Les deux pipettes ont-elles la même précision de mesure? (comparer les variances) 38