Principe des Tests Statistiques

Principe des Tests Statistiques Vocabulaire & Notions Générales Marc AUBRY Plateforme Transcriptome Biogenouest Rennes Askatu

Les Étapes d un Test Statistique Question scientifique Choix d un test statistique Les conditions d application du test sont-elles compatibles avec le protocole d étude envisagé? Réalisation de l étude Analyse des données Tableau de données Les données sont-elles compatibles avec les conditions d application du test? Individu n 1 3 4... Variable Aléatoire n 1 3 4 5... Réalisation du test Poser les deux hypothèses de test H 0 et H 1 Calculer la Statistique de Test : ST calc Utiliser ST calc pour déterminer la p value Conclure : rejeter ou non H 0 à l aide de la p value

Les Hypothèses de Test Elles dérivent de la question scientifique posée On formule deux hypothèses qui sont deux réponses possibles et exclusives de cette question H 0 : hypothèse principale, ou hypothèse nulle H 1 : hypothèse alternative Ces hypothèses sont toujours formulées au niveau de la population visée (elles traduisent la problématique posée) les hypothèses H 0 et H 1 portent sur la valeur vraie de la variable [condition] et non pas sur une valeur observée [point de mesure] Population [Hypothèses] variable aléatoire x N : effectif μ : moyenne σ : variance L échantillon servira à trancher entre les deux hypothèses, grâce au test statistique Échantillon [Test Statistique] n : effectif m : moyenne s : variance

La Statistique de Test (ST) La ST est un système de calcul utilisé par un test statistique qui permet de rejeter ou non l hypothèse H 0 une formule à appliquer une fois que l échantillon est obtenu La valeur de la ST calculée va varier suivant l échantillon réalisé une ST est une variable aléatoire à cause de l échantillonnage des individus mesurés Il existe différents types de ST suivant : le test statistique dont elles proviennent (paramétrique/non-paramétrique) leur formule (présence ou non d estimateurs) leur distribution de probabilité (connue/inconnue) Le test t de Student de comparaison de deux moyennes observées est un test paramétrique dont la formule contient 4 estimateurs (m 1,m,s 1,s ) et dont la distribution de probabilité de la ST sous H 0 suit une loi de Student exemples Le test de χ de conformité est un test non-paramétrique dont la formule contient 1 estimateur (p i ) et dont la distribution de probabilité de la ST sous H 0 suit une loi de χ Le test exact de Fisher (tableau x ) est un test non-paramétrique, dont la formule ne contient pas d estimateur et dont la distribution de probabilité de la ST sous H 0 suit une loi hypergéométrique Le test exact de Fisher (tableau k x c) est un test non-paramétrique, dont la formule ne contient pas d estimateur et dont les différentes possibilités de valeur de la ST sous H 0 forment une combinatoire de probabilités

Exemple Le test t de Student de comparaison de deux moyennes observées m 1 et m Variables mesurées une variable quantitative [ d un gène] une variable qualitative à deux classes [deux conditions expérimentales] Population 1 Échantillon 1 N 1 μ 1 σ 1 n 1 m 1 s 1 effectif moyenne variance effectif moyenne variance N μ σ n m s Population Échantillon Test paramétrique distribution normale de la variable quantitative dans les deux classes de la variable qualitative variances égales de la variable quantitative dans les deux classes de la variable qualitative Hypothèses de test H 0 : μ 1 = μ ; les moyennes sont identiques dans la population visée H 1 : μ 1 μ ; les moyennes sont différentes dans la population visée Loi de probabilité suivie par la ST sous H 0 La ST t suit une loi de Student à (n 1 + n - ) degrés de liberté Calcul de la ST sous H 0 : ST calc avec

ST calc et p value Fluctuation de la ST due à l échantillonnage (sous H 0 ) La p value est l aire sous la courbe de la loi suivie par la ST sous H 0 α seuil p value Loi de probabilité continue α seuil p value ST calc ST seuil ST calc ST seuil Une ST est une variable aléatoire à cause de l échantillonnage des individus mesurés L hypothèse H 0 donne une distribution de la ST L échantillon donne une valeur de la ST (ST calc ) La p value indique si cette valeur est cohérente avec la distribution (et donc avec l hypothèse H 0 )

Vrais Positifs Conclusion d un Test H 0 vraie (H 1 fausse) Réalité/Vérité H 0 fausse (H 1 vraie) [Conclure, c est deux vérités, deux décisions soit quatre probabilités] Décision H 0 acceptée (H 1 rejetée) H 0 rejetée (H 1 acceptée) Bonne décision (1-α) Erreur α Erreur β Bonne décision (1-β) Faux Négatifs risque de ème espèce (risque β) risque de se tromper quand on accepte H 0 sous H 0 1-α α Faux Positifs risque de 1 ère espèce (risque α) risque de se tromper quand on rejette H 0 Vrais Négatifs (puissance du test) capacité du test à identifier une différence réelle sous H 1 β 1-β p value du test seuil de rejet ou seuil de signification de l hypothèse H 0 α

Puissance d un Test sous H 0 sous H 1 sous H 0 sous H 1 Δ β de l effectif (n) de l échantillon --- la puissance augmente quand n augmente de l écart (Δ) entre les paramètres testés --- la puissance augmente quand Δ augmente α μ 1 μ β [? % de faux négatifs] [5% de faux positifs] [75% de faux négatifs] 1-β = 0.5 La puissance (1-β) est une variable qui dépend de : du α seuil choisi --- la puissance diminue quand α seuil décroît la variance de la population (σ ) --- la puissance diminue quand σ augmente α [5% de faux positifs] Décision H 0 vraie Réalité H 0 fausse H 0 acceptée 1-α β H 0 rejetée α 1-β

Tests Multiples & Correction Multiplier les tests statistiques augmente la probabilité globale de se tromper quand on rejette H 0 (risque α) Analogie avec la roulette russe Un risque α de 5% est équivalent à un barillet de 0 emplacements avec une seule balle dedans Le risque que le coup parte est p=1/0, soit 5% Si l on recommence n fois de suite, la probabilité que le coup parte va augmenter suivant une binomiale B(n,p) essai ouf pan! p_one_shot 1 0 1 0.0500000 1 1 0.0950000 3 1 0.1353750 4 3 1 0.1714750 5 4 1 0.03666 6 5 1 0.31343 7 6 1 0.578 8 7 1 0.793349 9 8 1 0.98539 10 9 1 0.315147 Au bout de 10 tentatives, le risque est d environ 3% : il y a 3% de chances que le coup parte une seule fois sur les 10 tentatives Evidemment, le coup peut partir plusieurs fois et il faut s intéresser à la probabilité que le coup parte au moins une fois sur les n tentatives c-a-d la somme des probabilités que le coup parte 1 fois, fois,..., 10 fois, sur les 10 tentatives Il y a 40% de chances que le coup parte au moins une fois sur 10 tentatives Il faut corriger le seuil α de rejet de H 0 dans une série de tests statistiques (q value) Family-Wise Error Rate (FWER) [Bonferroni] probabilité d au moins une erreur de type I False Discovery Rate (FDR) [Benjamini-Hochberg] proportion attendue d erreurs de type I parmi les hypothèse rejetées Gaël Millot [Il y a 64% de chances que le coup parte au moins une fois sur 0 tentatives] Décision H 0 vraie Réalité H 0 fausse H 0 acceptée 1-α β H 0 rejetée α 1-β