Les statistiques en biologie expérimentale

Qualités attendues d une méthode de quantification : Le résultat numérique de la mesure permet d estimer avec précision la grandeur mesurée (ex. : il lui est proportionnel).

Qualités attendues d une méthode de quantification : Le résultat numérique de la mesure permet d estimer avec précision la grandeur mesurée (ex. : il lui est proportionnel). La mesure est reproductible.

Erreurs de mesure (imprécision du pipetage,...).

Erreurs de mesure (imprécision du pipetage,...). Différences intrinsèques (de cellule à cellule, d individu à individu,...) qui ne sont pas dues au phénomène étudié.

Toujours indiquer ce que représentent les barres d erreur!

Toujours indiquer ce que représentent les barres d erreur! Écart-type (standard deviation) : racine carrée de la moyenne des carrés des écarts à la moyenne ; erreur-type (standard error (of the mean)) : écart-type des moyennes mesurées sur différents échantillons de la population ; plage des valeurs mesurées ; intervalle de confiance ;... (au choix de l auteur).

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales.

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 La valeur de p n est pas déductible de la différence entre les moyennes mesurées (elle dépend également du nombre d observations et de la forme des ).

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application :

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ;

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ; (dans la version initiale) les variances des deux jeux de données doivent être similaires ;

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ; (dans la version initiale) les variances des deux jeux de données doivent être similaires ; plus il y a d observations, plus le test sera précis.

Quelques variantes du :

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance.

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées.

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. p 0.35

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. p 0.35 p 0.01

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. One-tailed (tester si les valeurs d une série sont supérieures à celles de l autre) two-tailed (tester si les valeurs sont différentes ; c est le cas le plus général).

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. One-tailed (tester si les valeurs d une série sont supérieures à celles de l autre) two-tailed (tester si les valeurs sont différentes ; c est le cas le plus général). N utiliser le one-tailed qu avec une extrême précaution : il divise les p values par deux (fraude scientifique s il est utilisé à mauvais escient).

Une alternative au

Une alternative au Lorsqu au moins un des deux jeux de données ne suit pas une loi normale : utiliser le test de Wilcoxon.

Une alternative au Lorsqu au moins un des deux jeux de données ne suit pas une loi normale : utiliser le test de Wilcoxon. Il utilise les rangs des valeurs, pas les valeurs elles-mêmes plus robuste aux déviations à la normalité.

Les deux séries de valeurs suivent-elles une loi normale? (test de Shapiro-Wilk, voire test de Kolmogorov-Smirnov) oui Les variances sont-elles homogènes? (test de Levene) non test de Wilcoxon oui à variances homogènes non à variances hétérogènes (puis : les données sont-elles appariées? one-tailed ou two-tailed?)

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray!

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie.

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie. La correction de Bonferroni est trop stringente lorsque le nombre d devient très grand (quelques milliers).

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie. La correction de Bonferroni est trop stringente lorsque le nombre d devient très grand (quelques milliers). Ajustement itératif du seuil : méthode de la FDR (false discovery rate).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions). Limitation : les effectifs doivent être suffisants (traditionnellement : 5 dans chaque catégorie).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions). Limitation : les effectifs doivent être suffisants (traditionnellement : 5 dans chaque catégorie). Le test exact de Fisher : calculs plus longs, mais résultat plus précis pour les petits effectifs (ici : p 0, 081 également).

tiré de : http://strangemaps.wordpress.com/2008/12/15/ 348-an-imperial-palimpsest-on-polands-electoral-map/