Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE



Documents pareils
Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Principe d un test statistique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Docteur José LABARERE

Fonction réciproque. Christelle MELODELIMA. Chapitre 2 :

Dérivées et différentielles des fonctions de plusieurs variables

Professeur Patrice FRANCOIS

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Les responsabilités des professionnels de santé

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Item 169 : Évaluation thérapeutique et niveau de preuve

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Interactions des rayonnements avec la matière

T de Student Khi-deux Corrélation

LOGICIELS DE GESTION. Cabinet dentaire AGATHA JULIE GESDENT LOGOS MACDENT POM DADENT TROPHY GESTION VISIODENT ET LES AUTRES

Cours de Tests paramétriques

TESTS D'HYPOTHESES Etude d'un exemple

Professeur Diane GODIN-RIBUOT

Estimation et tests statistiques, TD 5. Solutions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à l approche bootstrap

Lois de probabilité. Anita Burgun

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Evaluation des stages hospitaliers par les étudiants en médecine

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Essais cliniques de phase 0 : état de la littérature

Document d orientation sur les allégations issues d essais de non-infériorité

Annexe commune aux séries ES, L et S : boîtes et quantiles

Introduction aux Statistiques et à l utilisation du logiciel R

Loi binomiale Lois normales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La pompe cardiaque, le débit cardiaque et son contrôle

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Chapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE

Transport des gaz dans le sang

Ressources pour le lycée général et technologique

Biostatistiques : Petits effectifs

Équivalence et Non-infériorité

Relation entre deux variables : estimation de la corrélation linéaire

23. Interprétation clinique des mesures de l effet traitement

Package TestsFaciles

TSTI 2D CH X : Exemples de lois à densité 1

TD1 Signaux, énergie et puissance, signaux aléatoires

Transport des gaz dans le sang

Probabilités III Introduction à l évaluation d options

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Aide-mémoire de statistique appliquée à la biologie

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Base de données bibliographiques Pubmed-Medline

La filtration glomérulaire et sa régulation

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

VI. Tests non paramétriques sur un échantillon

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

L ANALYSE COUT-EFFICACITE

Le chi carré. Le sommaire. Approche quantitative

Introduction à la statistique non paramétrique

Examen de Logiciels Statistiques

Introduction à la Statistique Inférentielle

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Qu est-ce qu une probabilité?

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique et pratique de la médecine

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

STACCINI Pascal UFR Médecine Nice Université Nice-Sophia Antipolis

Le risque Idiosyncrasique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Les devoirs en Première STMG

SONDAGES RELATIFS AUX SERVICES D INFORMATION ET DE RÉFÉRENCE OFFERTS PAR LA DIRECTION GÉNÉRALE DE LA DIFFUSION DE BANQ

EPREUVES AU CHOIX DU CANDIDAT. Durée : De 09 h 00 à 12 h 00 (Heure de Yaoundé, TU + 1)

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

PEUT- ON SE PASSER DE LA NOTION DE FINALITÉ?

I. Ensemble de définition d'une fonction

TABLE DES MATIERES. C Exercices complémentaires 42

REPUBLIQUE FRANCAISE AU NOM DU PEUPLE FRANCAIS. LA COUR DE CASSATION, CHAMBRE COMMERCIALE, a rendu l arrêt suivant :

Médiathèque DASTRI Mentions légales

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Comment évaluer une banque?

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

L ABSENCE DE COMPLEMENTAIRE SANTE CHEZ LES ETUDIANTS Résultats d une enquête déclarative

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 3. Les distributions à deux variables

PRIME D UNE OPTION D ACHAT OU DE VENTE

Transcription:

UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Plan I. Introduction : utilité des tests statistiques en santé I.1. Evaluation de l efficacité (et de la sécurité) des traitements I.2. Identification des facteurs de risque I.3. Finalité des statistiques en santé II. Principes généraux des tests statistiques III. Formulation des hypothèses nulle et alternative IV. Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. Se fixer une règle de décision et conclure VII. Risques d erreur en statistique VIII. Risque alpha versus degré de signification (P-value) IX. Conditions d application des tests X. Jugement de signification versus jugement de causalité

I.1. Evaluation de l efficacité (et de la sécurité) des traitements Ulcère de l estomac (n = 200 patients) Tirage au sort Traitement A (n = 100 patients) Traitement B (n = 100 patients) Guérison à 6 semaines (30/100 patients) Guérison à 6 semaines (30/100 patients) On ne met pas en évidence de différence de guérison entre le traitement A et B.

Ulcère de l estomac (n = 200 patients) Tirage au sort Traitement A (n = 100 patients) Traitement B (n = 100 patients) Guérison à 6 semaines (31/100 patients) Guérison à 6 semaines (29/100 patients) Comment interpréter le léger avantage du traitement A sur le traitement B? Il faut savoir que : - des patients guérissent spontanément d un ulcère. - certains patients répondent au traitement et d autres pas. Le tirage au sort n a-t-il pas pu favoriser le traitement A en lui allouant par hasard un peu plus de patients répondeurs?

Ulcère de l estomac (n = 200 patients) Tirage au sort Traitement A (n = 100 patients) Traitement B (n = 100 patients) Guérison à 6 semaines (95/100 patients) Guérison à 6 semaines (5/100 patients) Le tirage au sort peut-il expliquer une telle différence de guérison entre le traitement A et B? C est peu probable.

Ulcère de l estomac (n = 200 patients) Tirage au sort Traitement A (n = 100 patients) Traitement B (n = 100 patients) Guérison à 6 semaines (45/100 patients) Guérison à 6 semaines (35/100 patients) Que conclure? Les tests statistiques d hypothèse permettent de se fixer une règle de décision objective.

I.2. Identification des facteurs de risque des maladies interrogatoire Utilisateurs de téléphone portable 66/469 (14%) Tumeur cérébrale (n = 469) Différence? Utilisateurs de téléphone portable 76/422 (18%) Pas de tumeur cérébrale (n = 422) Comment interpréter la proportion un peu plus élevée d utilisateurs de téléphone portable dans l échantillon de patients sans tumeur cérébrale? - Réelle association entre tumeur cérébrale et moindre utilisation du téléphone? - Hasard (fluctuations d échantillonnage)? temps

I.3. Finalité des statistiques en santé Lire et interpréter les études testant l efficacité des nouveaux traitements (essais cliniques) testant les facteurs de risque des maladies (épidémiologie) Porter un regard critique sur l information délivrée par les compagnies pharmaceutiques Pratiquer une médecine fondée sur les preuves scientifiques (evidence-based medicine) Accessoirement : Epreuve de lecture critique d articles (ECN) Mémoire / thèse d exercice des professions de santé

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Principes généraux des tests statistiques Test statistique d hypothèse Est l outil statistique de comparaison (intervalle de confiance = outil statistique de l estimation) Sert à comparer 2 ou plusieurs séries de données : résumées par leurs paramètres : moyenne, variance (tests paramétriques) (décrites par leur distribution : tests non-paramétriques) Garder à l esprit : On compare des paramètres estimés sur des échantillons issus de populations La valeur de ces paramètres estimés sur les échantillons fluctuent autour de la vraie valeur du paramètre de la population dont ils sont issus

Exemple 1. âge moyen des étudiants de L1 santé m 2 Age moyen de la population des 1600 étudiants inscrits en L1 santé : μ santé = 18.97 (variance : σ² = 1.06) m 1 m 3 μ santé = 18.97 Age moyen des 200 étudiants du groupe 1 (échantillon 1) : m 1 = 18.89 Age moyen des 200 étudiants du groupe 2 (échantillon 2) : m 2 = 18.97 Age moyen des 200 étudiants du groupe 3 (échantillon 3) : m 3 = 19.02 Age moyen des 200 étudiants du groupe 4 (échantillon 4) : m 4 = 18.98 Age moyen des 200 étudiants du groupe 5 (échantillon 5) : m 5 = 18.99 Age moyen des 200 étudiants du groupe 6 (échantillon 6) : m 6 = 18.99 Age moyen des 200 étudiants du groupe 7 (échantillon 7) : m 7 = 19.02 Age moyen des 200 étudiants du groupe 8 (échantillon 8) : m 8 = 18.85

Les groupes (échantillons) sont constitués au hasard à partir de la population des 1600 étudiants de L1 santé. Qu est-ce qui peut expliquer que l âge moyen soit différent entre : les étudiants du groupe 1 (m 1 =18.89) les étudiants du groupe 7 (m 7 =19.02) Le hasard (fluctuations d échantillonnage) NB : La réponse est évidente car on sait que le groupe 1 et le groupe 7 sont deux échantillons tirés au sort à partir de la population des étudiants de L1 santé

Exemple 2. L âge moyen des étudiants de L1 santé diffère-t-il de l âge moyen des étudiants de L1 sciences, à l UJF cette année? 2 façons de procéder : 1. Comparer l âge moyen de la population des 1600 étudiants de L1 santé (µ santé ) et de la population des 1000 étudiants de L1 sciences (µ sciences ) 2. Comparer l âge moyen d un échantillon de 200 étudiants de L1 santé (m santé ) et d un échantillon de 200 étudiants de L1 sciences (m sciences ) et extrapoler ce résultat aux populations. NB : La solution 2 a l avantage d être économique (400 étudiants interrogés au lieu de 2600) mais m est soumise aux fluctuations d échantillonnage. La solution 1 donne une réponse exacte (µ n est pas soumise aux fluctuations d échantillonnage) mais est rarement réalisable en pratique (effectif de population, populations infinies)

Comparer l âge moyen d un échantillon d étudiants de L1 santé et de L1 sciences L1 santé : échantillon 1 : m 1 = 18.89 (s 1 ² = 0.98) L1 sciences : échantillon 10 : m 10 = 18.76 (s 10 ² = 1.23) La différence observée entre les moyennes des 2 échantillons : résulte de fluctuations d échantillonnage (µ santé = µ sciences )? résulte de fluctuations d échantillonnage + une différence d âge moyen entre les 2 populations (µ santé µ sciences )? On utilisera un test statistique pour répondre à cette question.

Age moyen des étudiants de L1 Sciences Age moyen de la population des 1000 étudiants inscrits en L1 Sciences : m 50 m 20 μ sciences = 18.72 (variance : σ² =1.16) m 40 m 10 μ sciences = 18.72 Age moyen des 200 étudiants du groupe 10 (échantillon 10) : m 10 = 18.76 Age moyen des 200 étudiants du groupe 20 (échantillon 20) : m 20 = 18.72 Age moyen des 200 étudiants du groupe 30 (échantillon 30) : m 30 = 18.73 Age moyen des 200 étudiants du groupe 40 (échantillon 40) : m 40 = 18.67 Age moyen des 200 étudiants du groupe 50 (échantillon 50) : m 50 = 18.71

Cette année, à l UJF, l âge moyen des étudiants est différent entre : la population de L1 santé (μ santé = 18.97) la population de L1 sciences (μ sciences = 18.72) NB : Cette différence est réelle et ne résulte pas de fluctuations d échantillonnage car il s agit de 2 populations (et non pas de 2 échantillons).

L1 sciences L1 santé échantillon 40 : m 40 = 18.67 échantillon 50 : m 50 = 18.71 échantillon 20 : m 20 = 18.72 échantillon 30 : m 30 = 18.73 échantillon 10 : m 10 = 18.76 échantillon 8 : m 8 = 18.85 μ sciences 18.72 μ santé 18.97 échantillon 1 : m 1 = 18.89 échantillon 2 : m 2 = 18.97 Du fait des fluctuations d échantillonnage : l écart varie en fonction des échantillons : m 7 m 40 = 0,35 m 10 m 8 = 0,09 Il était possible, bien que peu probable, d observer : m sciences m santé échantillon 4 : m 4 = 18.98 échantillon 5 : m5 = 18.99 échantillon 6 : m 6 = 18.99 échantillon 3 : m 3 = 19.02 échantillon 7 : m 7 = 19.02

Intuitivement Plus l écart observé entre les 2 moyennes estimées (m) sur les 2 échantillons est grand, Plus faible est la probabilité que cette différence observée résulte uniquement de fluctuations d échantillonnage. (m a m b ) P(µ a = µ b ) Mais un faible écart observé entre les 2 moyennes estimées (m) sur les 2 échantillons n exclut pas que les 2 moyennes des populations (µ) soient différentes Le test statistique permet de formaliser ce raisonnement intuitif

Test statistique : démarche hypothético-déductive 1. Formuler une hypothèse µ santé = µ sciences 2. Déduire ce que devraient être les observations si l hypothèse est vraie m santé m sciences aux fluctuations d échantillonnage près 3. Confronter les observations à ce qui était attendu m santé et m sciences compatibles avec l hypothèse? 4. Conclure Non-rejet de l hypothèse (µ santé = µ sciences ) Rejet de l hypothèse (µ santé = µ sciences ) µ santé µ sciences

Tests statistiques de comparaison Comparer un paramètre observé sur un échantillon à une valeur de référence Comparer un paramètre entre 2 ou plusieurs échantillons population échantillon population de référence population 1 échantillon 1 population 2 échantillon 2 Différence observée - Fluctuations d échantillonnage? - Différence entre populations? Différence observée - Fluctuations d échantillonnage? - Différence entre populations? Test statistique Test statistique

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

1. Formuler l hypothèse nulle (H0) paramètre population 1 = paramètre population 2 µ 1 = µ 2 Les hypothèses sont formulées à l aide des paramètres des populations L hypothèse nulle (H0) est l hypothèse qu on souhaite invalider (rejeter) : - Il est plus facile de rejeter une hypothèse (un seul contre-exemple suffit) - Alors que valider une hypothèse demande de rechercher toutes les situations possibles et de vérifier qu aucune d entre-elle ne contredise cette hypothèse.

2. Formuler l hypothèse alternative (H1) Hypothèse alternative bilatérale (H1) paramètre population 1 paramètre population 2 µ 1 µ 2 L hypothèse alternative (H1) est l hypothèse qui sera retenue au cas où le test statistique rejette l hypothèse nulle H0 L hypothèse alternative est bilatérale, lorsqu on postule que les paramètres sont différents sans chercher à déterminer le sens de cette différence.

2. Formuler l hypothèse alternative (H1) Hypothèse alternative unilatérale (H1) paramètre population 1 > paramètre population 2 ( µ 1 > µ 2 ) On formule une hypothèse alternative unilatérale lorsqu on s intéresse au sens de l inégalité entre les 2 populations. Le sens de l inégalité est évident : le taux de guérison est supérieur dans un groupe de patients traités par rapport à un groupe de patients non traités. L utilisation des tests d hypothèse unilatéraux n est justifiée que dans des circonstances très particulières et les revues médicales scientifiques recommandent de ne pas utiliser ces tests d hypothèse unilatéraux.

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Sous l hypothèse nulle (H0) Paramètre population1 = Paramètre population2 µ 1 = µ 2 Paramètre échantillon1 Paramètre échantillon2 Paramètre échantillon1 - Paramètre échantillon2 0 m 1 m 2 m 1 m 2 0 En raison des fluctuations d échantillonnage, la différence (m 1 m 2 ) peut prendre toutes les valeurs de R. Mais toutes les valeurs de (m 1 m 2 ) n ont pas la même probabilité. Les valeurs de (m 1 m 2 ) proches de 0 sont les plus probables.

Sous l hypothèse nulle (H0) On ne peut pas déterminer exactement ce que devrait être (m1 - m2) sous l hypothèse nulle (H0) Mais on peut calculer la probabilité que (m1 m2) prenne telle ou telle valeur. Pour les grands échantillons (effectif 30), la quantité : Z m m 1 2 N var m m 1 2 0,1

Densité de probabilité de loi normale centrée réduite N(0,1) Maximum pour Z = 0 P( Z x) Aire totale sous la courbe = 1 (100%) Symétrique par rapport à l axe des ordonnées - 0 + Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

Densité de probabilité de loi normale centrée réduite N(0,1) - 0 + valeurs peu probables de Z valeurs probables de Z valeurs peu probables de Z Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Confronter les observations à ce qui était attendu sous H0 1. Calculer la valeur de Z o à partir des estimations m 1 et m 2 sur les échantillons Z o m var 1 m 1 m 2 m 2 2. Déterminer la probabilité d observer une valeur de Z au moins aussi grande que Z o sous l hypothèse nulle (H0). P(Z > Z o ) sous H0 Z o = Z observée

Densité de probabilité de loi normale centrée réduite N(0,1) Exemple 1 : Z o m var 1 m m 1 2 m 2 1 P(Z > Zo ) sous H0 =30% (degré de signification, P-value) P(Z < -Z o ) = 15% P(Z > Z o ) = 15% -1 0 +1 Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

Densité de probabilité de loi normale centrée réduite N(0,1) Exemple 2 : Z o m var 1 m m 1 2 m 2 2.3 P(Z > Zo ) sous H0 =2% (degré de signification, P-value) P(Z < Z o ) = 1% P(Z > Z o ) = 1% -2.3 0 +2.3 Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

Confronter les observations à ce qui était attendu sous H0 Si la probabilité d observer une valeur de Z plus grande que Z o sous l hypothèse nulle H0 est faible (i.e., P(Z > Z o ) sous H0 est faible), 2 explications sont possibles : Soit : H0 est vraie et la valeur «excentrique» de Z o résulte des fluctuations d échantillonnage de m 1 et/ou de m 2 Soit : H0 est fausse et H1 est vraie En-deça d un seuil (correspondant à une probabilité P(Z > Z o ) sous H0 jugée suffisamment faible), on conclura que H0 est fausse plutôt que d admettre qu il s agit d une observation de H0.

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Se fixer une règle de décision Fixer a priori un seuil alpha suffisamment petit : au dessous duquel, on rejette l hypothèse nulle H0 (µ 1 = µ 2 ) et on accepte l hypothèse alternative H1 (µ 1 µ 2 ) P(Z > Z o ) sous H0 < α rejet de H0 et acceptation de H1 au dessus duquel, on ne peut pas rejeter l hypothèse nulle H0 (µ 1 = µ 2 ) P(Z > Z o ) sous H0 α non-rejet de H0 Classiquement : α = 0.05 en santé et biologie

Densité de probabilité de loi normale centrée réduite N(0,1) α = 5% (0.05) Z α = 1.96 P(Z < - 1.96) = 2.5% P(Z > 1.96) = 2.5% - -1.96 1.96 + Z α = valeur de Z pour le risque α 0 Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

1 α (non-rejet de H0) α/2 (rejet de H0 = acceptation de H1) α/2 (rejet de H0 = acceptation de H1) -z α 0 z α Z o > Z α Z o Z α Z o > Z α Z o : valeur observée/calculée de Z sur l échantillon Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z m var 1 m m 1 2 m 2

Z est la variable aléatoire Z m var 1 m 1 m 2 m 2 Z α est une valeur particulière de la variable aléatoire Z telle que P(Z > Z α ) = α (Z α est la valeur de Z pour le risque α) (en santé et biologie, α = 0.05) Z o est une réalisation de la variable aléatoire Z (Z o est la valeur observée/calculée de Z sur l échantillon dont on dispose)

Densité de probabilité de loi normale centrée réduite N(0,1) Z m m 1 1 2 Exemple 1 : o P(Z > Zo ) sous H0 =30% varm1 m2 (degré de signification, P-value) α fixé a priori : 5% - -1.96 1.96 + 0 Z o = 1 Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z o < Z α P(Z > Z o ) α Non-rejet de H0

Densité de probabilité de loi normale centrée réduite N(0,1) Z m m 1 2 Exemple 2 : o P(Z > Zo ) sous H0 =2% varm1 m2 2.3 (degré de signification, P-value) α fixé a priori : 5% - -1.96 1.96 + 0 Z o = 2.3 Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 ) Z o > Z α P(Z > Z o ) < α Rejet de H0 acceptation de H1

Conclure Non-rejet de H0 On ne met pas en évidence de différence statistiquement significative pour le paramètre comparé entre les 2 échantillons (m 1 et m 2 ) Cela ne permet pas de conclure à l absence de différence pour le paramètre comparé entre les 2 populations (µ 1 et µ 2 ) «absence of evidence is not evidence of absence» Rejet de H0 acceptation de H1 Il existe une différence statistiquement significative pour le paramètre comparé entre les 2 échantillons (m 1 et m 2 ) On conclut que le paramètre diffère entre les 2 populations (µ 1 µ 2 ), avec un risque d erreur α

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Risque d erreur de 1 ère espèce : α Sous H0 : Z peut prendre toutes les valeurs de R Chaque fois P(Z > Z o ) < α, on rejette H0 (pourtant H0 est vraie) α est la probabilité de rejeter à tort H0 (rejeter H0 alors que H0 est vraie) 1 α (non-rejet de H0) α/2 (rejet de H0 = acceptation de H1) α/2 (rejet de H0 = acceptation de H1) -z α 0 z α Z o > Z α Z o Z α Z o > Z α Abscisses : valeurs possibles de Z sous H0 (µ 1 = µ 2 )

Risques d erreur en statistique Décision du statisticien (échantillon) Rejet H0 Non-rejet H0 Réalité (population) H0 vraie Erreur 1 ère espèce 1- H1 vraie Puissance 1- Erreur 2 ème espèce α = 0,05 (5%) fixé a priori (donc connu) β méconnu le non-rejet de H0 ne permet pas de conclure que H0 est vrai (on ignore le risque β de ne pas rejeter à tort H0)

Risque d erreur de 2 ème espèce : β H0 vraie : Z N (0, 1) α/2 α/2 alpha = P(rejet à tort H0) = 0,05 0 beta = P(non rejet de H0 si H1 vrai) =? H1 vraie : Z N (?,?) µ 1 -µ 2 0

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

(a priori [0,05]) (a posteriori) Z α Z o Risque α risque de rejeter à tort H0 (risque de conclure à tort à une différence alors qu elle n existe pas dans la réalité). est fixé a priori (avant tout calcul) est fixé à 0.05 (5%) en santé et biologie

(a priori [0,05]) (a posteriori) Z α Z o Degré de signification (P-value) Probabilité d observer une valeur de Z au moins aussi grande que Z o sous l hypothèse nulle H0 est déterminé a posteriori (nécessite de calculer la valeur de Z o )

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Conditions d application des tests Les tests statistiques sont basés sur des lois de distribution théorique (loi normale, loi de Student, loi du X²) Ces lois sont strictes et nécessitent la vérification de conditions d application : Indépendance des observations Spécifiques à chaque test (Z, t, X² )

Plan I. Introduction : utilité des tests statistiques en santé II. III. IV. Principes généraux des tests statistiques Formulation des hypothèses nulle et alternative Déduire ce que devraient être les observations sous H0 V. Confronter les observations à ce qui était attendu sous H0 VI. VII. VIII. IX. Se fixer une règle de décision et conclure Risques d erreur en statistique Risque alpha versus degré de signification (P-value) Conditions d application des tests X. Jugement de signification versus jugement de causalité

Signification statistique versus causalité 1. Jugement de signification statistique : test Conclure à une différence statistiquement significative d un paramètre entre 2 groupes Mais ne permet pas de porter un jugement causal Le pourcentage de cancer bronchique est significativement différent entre les hommes et les femmes (test statistique). Mais il n y a pas de relation de cause à effet entre le cancer bronchique et le fait d être un homme ou une femme. 2. Jugement de causalité (cf épidémiologie) relation de cause à effet? uniquement après rejet de l hypothèse nulle H0 nécessite de recourir à des arguments extérieurs à l étude

A retenir Démarche générale d un test statistique Formulation des hypothèses H0 et H1 Risques d erreur en statistique Notion de degré de signification

Références Bouyer J. Méthodes statistiques. Médecine Biologie. Paris: Estem, Editions INSERM, 2000 Beuscart R et col. Biostatistique. Licence PCEM/PCEP. Paris : Omniscience, 2009.

Mentions légales L'ensemble de ce document relève des législations française et internationale sur le droit d'auteur et la propriété intellectuelle. Tous les droits de reproduction de tout ou partie sont réservés pour les textes ainsi que pour l'ensemble des documents iconographiques, photographiques, vidéos et sonores. Ce document est interdit à la vente ou à la location. Sa diffusion, duplication, mise à disposition du public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont strictement réservées à l université Joseph Fourier de Grenoble. L utilisation de ce document est strictement réservée à l usage privé des étudiants inscrits en 1 ère année de Médecine ou de Pharmacie de l Université Joseph Fourier de Grenoble, et non destinée à une utilisation collective, gratuite ou payante. Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine et de Pharmacie de Grenoble (Université Joseph Fourier Grenoble 1)