table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer directement aux conclusions 3 Nous avons tendance à être trop confiants 3 Nous voyons des structures dans des données aléatoires 4 Nous ne nous rendons pas compte que les coïncidences sont fréquentes 6 Nous avons des intuitions fausses à propos des probabilités 6 Nous évitons de réfléchir à des situations ambiguës 6 Il nous est difficile de combiner des probabilités 7 Nous ne faisons pas de calculs bayésiens intuitivement 8 Ne soyons pas dupés par les comparaisons multiples 9 Nous avons tendance à ignorer les explications alternatives 10 Nous sommes dupés par la régression vers la moyenne 11 2. Pourquoi la statistique peut être difficile à étudier 14 Raison 1 : crainte des maths 14 Raison 2 : terminologie prêtant à confusion 14 Raison 3 : pensée abstraite 15 Raison 4 : probabilité, pas certitude 16 3. De l échantillon à la population 17 Les calculs statistiques permettent de généraliser de l échantillon à la population 17 Ce que les calculs statistiques ne peuvent pas faire 18 Les conclusions statistiques sont toujours vagues 19
482 table des matières Jargon : modèles et paramètres 20 Jargon : probabilité versus statistique 20 Essais n-de-1 20 partie b Intervalles de confiance 23 4. Intervalle de confiance d une proportion 25 Exemple : décès d enfants prématurés 25 Exemple : sondage électoral 26 Hypothèses : intervalle de confiance d une proportion 27 Que signifie réellement une confiance de 95 %? 28 Qu est-ce que 95 % a de spécial? 30 Que faire si les hypothèses sont violées? 30 Quantifie-t-on réellement l événement auquel on s intéresse? 31 Jargon 31 Comment ça marche : ic d une proportion 32 Comment : calculer approximativement des IC s 34 Perspectives : paramètres et modèles 35 5. Intervalle de confiance des données de survie 38 Données de survie 38 Données de survie censurées 38 Représentation graphique du pourcentage de survivants en fonction du temps 40 Comment calculer : l intervalle de confiance d une courbe de survie 42 Médiane du temps de survie 42 Survie à cinq ans 43 Hypothèses : analyse de survie 43 6. Intervalle de confiance des données de dénombrement 47 La distribution de poisson 47 Hypothèses : distribution de poisson 48 IC s basés sur la distribution de poisson 49 Comment : calculer l ic pour une variable suivant une loi de poisson 51 L avantage d utiliser des intervalles de temps plus longs (ou des volumes plus importants) 51 partie C Variables continues 55 7. Représentations graphiques des données continues 57 Données continues 57 La moyenne et la médiane 57
Table des matières 483 Jargon : erreur et biais 59 Représentation graphique des données pour en montrer la dispersion ou représenter la distribution 61 Attention à la manipulation des données 63 8. Types de Variables 67 Variables d intervalle 67 Variables de rapport 68 Autres types de variables 69 Pas aussi différentes qu il n y paraît 69 9. Quantification de la dispersion 71 L interprétation d un écart-type 71 Comment ça marche : calculer un et 71 Pourquoi N 1? 73 situations ou n peut sembler être ambigu 74 ET et taille d échantillon 75 Le coefficient de variation 75 Variance 75 Autres manières de quantifier la variabilité 76 10. La distribution Gaussienne 78 Origine de la distribution gaussienne 78 ET et la distribution gaussienne 79 La distribution normale standard 80 La distribution «normale» ne définit pas des limites normales 80 Pourquoi la distribution gaussienne occupe-t-elle une place aussi centrale en statistique? 81 11. La distribution log-normale et la moyenne géométrique 83 Exemple : relaxation de la vessie 83 L origine de la distribution log-normale 83 Comment analyser des données log-normales 84 Moyenne géométrique 85 12. Intervalle de confiance d une moyenne 87 L interprétation de l ic d une moyenne 87 Quelles valeurs faut-il avoir pour calculer l ic d une moyenne 88 Hypothèses : ic d une moyenne 89 Comment calculer : l IC d une moyenne 90 IC s unilatéraux (méthode avancée) 93 IC d un et (méthode avancée) 94 IC d une moyenne géométrique (méthode avancée) 94
484 table des matières 13. La théorie des intervalles de confiance 96 IC d une moyenne via la distribution t 96 IC d une moyenne via ré-échantillonnage 98 IC d une proportion via ré-échantillonnage 99 L IC d une proportion via la distribution binomiale 100 En apprendre plus 102 14. Barres d erreur 103 ESM 103 Comment calculer : l et à partir de l esm 104 Quel type de barre d erreur faut-il mettre dans un graphique? 106 L aspect des barres d erreur 107 partie D P-valeurs et signification 109 15. Introduction aux P-valeurs 111 Exemple 1 : lancer d une pièce de monnaie 111 Exemple 2 : température corporelle 113 Exemple 3 : antibiotiques sur des plaies chirurgicales 115 Exemple 4 : angioplastie et infarctus du myocarde 115 P-valeurs unis ou bilatérales? 116 Pourquoi les P-valeurs sont-elles si difficiles à comprendre? 118 P-valeurs ou IC S? 121 16. Signification statistique et test d hypothèse 122 Tests d hypothèse statistique 122 Analogie : innocent jusqu à preuve du contraire 122 Procès devant jury versus procès devant journalistes 123 Quand un test d hypothèse est-il utile? 123 Significatif, très significatif ou hautement significatif? 124 Signification statistique limite 124 Jargon : erreurs de type i et de type ii 125 Choisir un seuil de signification 126 17. Relation entre intervalles de confiance et signification statistique 130 IC s et test d hypothèse sont étroitement liés 130 Lorsqu un ic inclut l hypothèse nulle 130 Lorsqu un ic n inclut pas l hypothèse nulle 131 Une règle qui lie intervalle de confiance et signification statistique 132
Table des matières 485 18. L interprétation d un résultat statistiquement significatif 134 Distinguer la signification statistique de l importance scientifique 134 Une idée fausse fréquente 135 La probabilité a priori influence le TFD 136 Logique bayésienne 139 Application informelle de l approche bayésienne 139 19. L interprétation d un résultat statistiquement non significatif 141 «Non significativement différent» ne signifie pas «pas de différence» 141 Exemple : récepteurs adrénergiques α 2 sur les plaquettes 142 Exemple : échographie fœtale 143 Comment avoir des ic s plus étroits 144 Que se passe-t-il si la P-valeur est vraiment élevée? 145 20. Puissance statistique 146 Qu est-ce ce que la puissance? 146 Une analogie pour comprendre la puissance 147 La puissance pour les deux exemples d étude 148 L analyse de la puissance a posteriori n est pas utile 149 21. Test d équivalence ou de non infériorité 150 L équivalence doit être définie scientifiquement, pas statistiquement 150 Moyenne dans la zone d équivalence 151 Moyenne en dehors de la zone d équivalence 152 L approche usuelle par un test d hypothèse n est pas utile 153 Faire des pieds et des mains pour adapter les tests d hypothèse au problème d équivalence 153 Essais de non-infériorité 154 Il faut être certain que le traitement standard est efficace 155 partie E Défis en statistique 157 22. Concepts de comparaisons multiples 159 Le problème des comparaisons multiples 159 Corriger pour les comparaisons multiples n est pas toujours nécessaire 160 Si on ne prend pas les comparaisons multiples en considération 161
486 table des matières Correction pour les comparaisons multiples par l approche traditionnelle 163 Correction pour comparaisons multiples avec le taux de fausse découverte 165 Qu est-ce qu une famille? 166 Vue d ensemble 167 23. Les pièges des comparaisons multiples 168 Analyser des données sans plan 168 Biais de publication 169 Plusieurs points au cours du temps analyses séquentielles 169 Plusieurs sous-groupes 170 Coïncidences 171 Grappes de maladie 171 Prédictions multiples 172 Combinaison de groupes 172 Comparaisons multiples en régression multiple 173 Aperçu des pièges des comparaisons multiples 174 24. Gaussien ou pas? 175 La distribution gaussienne est un idéal inaccessible 175 Ce à quoi ressemble réellement une distribution gaussienne 176 Test de normalité 176 Interprétation des résultats d un test de normalité 178 Que faire lorsque les données échouent au test de normalité 179 25. Valeurs atypiques (outliers) 181 Comment les valeurs atypiques se produisent-elles? 181 La nécessite d avoir des tests de détection des valeurs atypiques 182 Questions à se poser avant d utiliser un test pour détecter les valeurs atypiques 182 Les tests de détection des valeurs atypiques 183 Attention aux distributions log-normales 184 Statistiques robustes 186 Comment ça marche : le test de détection des valeurs atypiques de Grubbs 187 partie F Tests statistiques 189 26. Comparaison de distributions observées et attendues 191 Les données suivent-elles une distribution attendue? 191 Le test d ajustement du Khi-carré 192
Table des matières 487 Khi-carré et génétique mendélienne 193 Comment ça marche : test d ajustement du Khi-carré 193 Il ne faut pas confondre deux tests de Khi-carré distincts 194 Test binomial 194 27. Comparaison des proportions : études prospectives et expérimentales 196 Jargon : études transversales, prospectives, expérimentales et rétrospectives 196 Tables de contingence 197 Un exemple d étude expérimentale : un essai clinique 197 Le risque attribuable 199 Nombre nécessaire à traiter (NNT) 199 Le risque relatif 199 Risque relatif ou différence entre proportions? 200 Calcul d une P-valeur 200 Hypothèses 201 28. Comparaison des proportions : études cas-témoins 203 Exemple : le vaccin contre le choléra est-il efficace? 203 Le calcul du risque relatif à partir des données d une étude cas-témoins n a pas de sens 204 Le rapport de cotes 204 L interprétation d une P-valeur 205 Le défi des études cas témoins 206 Hypothèses dans les études de cas témoins 207 Pourquoi le rapport de cotes est une approximation du risque relatif 208 29. Comparaison de courbes de survie 210 Exemple de données de survie 210 Hypothèses lorsqu on compare des courbes de survie 210 Comparaison de deux courbes de survie en utilisant les IC s 214 Comparaison des courbes de survie en utilisant une P-valeur 215 30. Comparaison de deux moyennes : test t pour échantillons indépendants 219 Exemple : relaxation maximale des muscles de la vessie 219 Interprétation des résultats d un test t pour échantillons indépendants 219 Hypothèses : test t pour échantillons indépendants 222 L hypothèse d égalité des variances 223
488 table des matières Chevauchement des barres d erreur et test t 224 Erreurs fréquentes : test t pour échantillons indépendants 227 Comment ça marche : le test t pour échantillons indépendants 228 Perspectives 230 31. Comparaison de deux groupes appariés 231 Quand utiliser des tests spéciaux pour données appariées 231 Exemple de test t par paires 232 L interprétation des résultats d un test t par paires 234 Le test t d un rapport pour échantillons appariés 237 Test de McNemar pour une étude cas-témoins appariés 241 Tests apparentés 242 32. Corrélation 243 Introduction au coefficient de corrélation 243 IC du coefficient de corrélation 245 Interprétation d une P-valeur 245 Corrélation et relation causale 245 Hypothèse : corrélation 246 R² 247 Il faut prendre garde aux grands échantillons 248 Comment ça marche : calcul du coefficient de corrélation 249 Jargon : corrélation 251 partie G Ajustement de modèles aux données 253 33. Régression linéaire simple 255 Les objectifs de la régression linéaire 255 Les résultats de la régression linéaire 256 Hypothèses : régression linéaire 260 Comparaison de la régression linéaire et de la corrélation 261 Jargon : régression linéaire 262 Erreurs fréquentes : régression linéaire 262 34. Introduction aux modèles 270 Jargon : modèles, paramètres et variables 270 Le modèle le plus simple 272 Le modèle de régression linéaire 273 Pourquoi moindres carrés? 274 Autres modèles et autres types de régression 274
Table des matières 489 35. Comparaison de modèles 276 La comparaison de modèles est une partie essentielle de la statistique 276 La régression linéaire vue comme comparaison de modèles 277 Le test t pour échantillons indépendants reconverti en comparaison de l ajustement de deux modèles 280 Erreur fréquente : comparaison de modèles 283 36. Régression non linéaire 285 Ajustement d un modèle 285 Pondération 287 Comment fonctionne la régression non linéaire 288 Les résultats de la régression non linéaire 288 Hypothèses : régression non linéaire 290 Comparaison de deux modèles 290 Erreurs fréquentes 293 Trucs pour comprendre les modèles 295 En apprendre plus sur la régression non linéaire 295 37. Régression multiple, logistique et modèle des risques instantanés proportionnels 296 Objectifs de la régression multivariable 296 Jargon 297 Régression linéaire multiple 299 Régression logistique 305 Modèle des risques instantanés proportionnels 308 Hypothèses 310 Interactions entre variables indépendantes 310 Observations corrélées 311 Comment ça marche 314 En apprendre plus à propos de la régression multiple 314 38. Pièges de la régression multiple 315 Attention au sur-ajustement 315 Attention à la multi-colinéarité 317 Attention à la sur-interprétation de R² 319 Attention à corrélation versus relation causale 319 Les modèles de régression devraient être validés 319
490 table des matières partie H Le reste des statistiques 321 39. Analyse de variance 323 La comparaison des moyennes de trois groupes ou plus 323 Hypothèses : anova à un facteur 325 Comment ça marche : anova à un facteur 325 ANOVA pour mesures répétées 328 ANOVA à deux facteurs et au-delà 330 40. Tests de comparaisons multiples post-anova 331 Les tests de comparaisons multiples pour les données de l exemple 331 La logique des tests de comparaisons multiples 334 Autres tests de comparaisons multiples 337 Comment ça marche : tests de comparaisons multiples 339 Comparaisons multiples individuelles 341 41. Méthodes non paramétriques 344 Tests non paramétriques basés sur les rangs 344 Les avantages et désavantages des tests non paramétriques 347 Ne pas automatiser la décision relative au choix d un test non paramétrique 348 Choisir entre tests paramétriques et non paramétriques : cela a-t-il de l importance? 349 Tests non paramétriques qui analysent les valeurs (pas les rangs) 352 42. Sensibilité, spécificité et courbes ROC (receiver-operatercharacteristic) 354 Définition de sensibilité et spécificité 354 La valeur prédictive d un test 355 Courbes receiver-operator characteristic (ROC) 358 Bayes revisité 358 Bayes, liaison génétique et scores du log des «chances» (LOD) 360 43. Taille d échantillon 363 Trois approches pour choisir la taille d échantillon 363 Taille d échantillon et IC S 364 Taille d échantillon et test d hypothèse statistique 366 Règles empiriques pour la taille d échantillon 369
Table des matières 491 partie I Assemblage 375 44. Conseils statistiques 377 Ne pas oublier l essentiel 377 Interpréter de façon judicieuse les p-valeurs 379 Attention aux comparaisons multiples 380 Réfléchir aux données 380 Attention aux variables manquantes 382 Se focaliser sur les IC s 384 Être sceptique 384 45. Choix du test statistique 387 Issue : variable continue provenant d une distribution gaussienne 387 Issue : donnée continue provenant d une distribution non-gaussienne 388 Issue : temps de survie (ou temps jusqu à l apparition d un événement) 388 Issue : variable binomiale 389 46. Exemple de synthèse 390 Le cas des huit CI 50 s toutes nues 390 Regarder au-delà des données 392 Signification statistique par tricherie 393 L utilisation d un test t qui ne suppose pas l égalité des ET s 394 Test t pour échantillons indépendants sous forme de régression linéaire ou non linéaire 395 Test non paramétrique de Mann-Whitney 396 Rapporter seulement la dernière expérience de confirmation? 397 Augmenter la taille de l échantillon? 397 Comparaison des logarithmes des valeurs de CI 50 398 Calculs de taille d échantillon revisités 400 Est-ce ok de changer de méthode d analyse? 401 L utilité des simulations 401 Résumé global du problème 404 47. Exercices de révision 406 A. Problèmes sur les ic des proportions, les courbes de survie et les dénombrements 406 B. Problèmes relatifs aux et s, esm, ic s et distributions log-normales 408 C. Problèmes relatifs aux P-valeurs et à la signification statistique 409
492 table des matières D. Problèmes relatifs à la taille d échantillon et à la puissance 413 E. Problèmes relatifs à la corrélation et à la régression 414 48. Réponses aux exercices de révision 418 A. Problèmes sur les ic des proportions, les courbes de survie et les dénombrements 418 B. Problèmes relatifs aux et s, esm, ic s et distributions log-normales 424 C. Problèmes relatifs aux p-valeurs et à la signification statistique 430 D. Problèmes relatifs à la taille d échantillon et à la puissance 438 E. Problèmes relatifs à la corrélation et à la régression 441 appendices 449 A. Statistiques avec GraphPad 451 GraphPad prism, qu est-ce que c est? 451 Ce que vous devez savoir avant d utiliser GraphPad Prism 452 À propos du logiciel GraphPad 453 B. Statistiques avec Excel 456 Utiliser excel pour les calculs statistiques : le pour et le contre 456 Ce que vous devez savoir avant d utiliser excel pour l analyse statistique 457 C. Statistiques avec R 458 Qu est-ce que R? 458 Ce que vous devez savoir avant d utiliser R 458 D. Valeurs de la distribution t nécessaires pour calculer les IC s 460 E. Une révision des logarithmes 462 Logarithmes communs (base 10) 462 Notation 463 les logarithmes convertissent la multiplication en addition 463 Antilogarithmes 463 bibliographie 465 index 473