INTRODUCTION A LA RECHERCHE QUANTITATIVE

Dimension: px
Commencer à balayer dès la page:

Download "INTRODUCTION A LA RECHERCHE QUANTITATIVE"

Transcription

1 INTRODUCTION A LA RECHERCHE QUANTITATIVE Deuxième partie : de la base de données aux résultats Juin 2010 Julien Gelly, Caroline Huas, Josselin Le Bel

2 Plan 2 1. Introduction 2. Saisie des données : Epi Data Constitution du masque de saisie Saisie des données Exportation des données 3. Analyse des données : Epi Info Représentations graphiques Description des données Tests statistiques

3 Epi Info : analyse des données 3 Téléchargement ftp://ftp.cdc.gov/pub/software/epi_info/epiinfo351/e piinfosetup3_5_1_0008.exe Aide Site WHO (OMS) en/index.html

4 4 Epi Info : objectifs Représentation graphiques Description des données Comparaison de deux moyennes test t de Student Comparaison de deux pourcentages test du χ² de Pearson Comparaisons de deux variable quantitatives ATTENTION Sous réserve de remplir les conditions d applications test de nullité du coefficient de corrélation :

5 5 Lancer Epi Info

6 Commandes les plus courantes 6 Data : importation Variables et Select/if : pour créer et recoder des variables Statistics : pour les test les plus courants (test t, test du χ², +/- apparié ) Advanced statistics : pour les analyses multivariées

7 7 Importer les données : «Data.xls»

8 8 Table de données

9 9 Représentation graphiques D une variable qualitative D une variable quantitative De plusieurs variables Cas «particuliers»

10 Représentation d une v. qualitative 10 Diagrammes en bâtons Camemberts Tableaux de pourcentages

11 Représentation d une v. quantitative 11 Histogramme Surface proportionnelle aux effectifs (vs. diagramme) Plusieurs variables peuvent être représentées sur le même histogramme Courbes de densité

12 Autres représentations 12 Plusieurs variables 2 v. quantitatives : diagramme en X,Y ou en matrice 2 v. qualitatives : diagramme en cercles 1 v. quantitative et 1 v. qualitative : «boîtes à moustaches», diagramme en points Autres variables 1 v. temporelle : «fagots» 1 v. censurée : courbe de survie (ex : Kaplan-Meier)

13 13 Représentations graphiques (1)

14 14 Représentations graphiques (2)

15 Représentations graphiques (3) 15 Par classes de 10 années

16 Représentations graphiques (4) 16 Click droit

17 Représentations graphiques (5) 17 Par classes de 5 années et par sexe

18 18 Représentations graphiques (6)

19 19 Description des données Mesures de position Mesures de dispersion Intervalle de confiance

20 Mesures de position (1) 20 Moyenne : m = x / n Médiane Valeur pour laquelle 50% des mesures sont plus grandes et 50% des mesures sont plus petites Moins sensible aux valeurs extrêmes ou aberrantes Mode Valeur obtenue le plus fréquemment Pour les v. quantitatives discrètes vs. pour une v. qualitative : proportions! (%)

21 Mesures de position (2) 21 Médiane < Moyenne (valeurs extrêmes)

22 Mesures de dispersion 22 Etendue (range) Maximum minimum Sensible aux valeurs extrêmes Intervalle interquartile (entre 25 e et 75 e percentiles) Ecart-type (s) et variance (s²)

23 Intervalle de confiance (1) 23 Il y a 95% de chance pour que la proportion de soit comprise entre 8% et 64%

24 Intervalle de confiance (2) 24 Détermine la précision de l estimation Autre manière d exprimer la variabilité de la mesure Approximation à partir de la loi normale (conditions) Pour une moyenne : IC 95% = m +/- 2 (s²/n) (si n > 30) Pour une proportion : IC 95% = p +/- 2 (pq/n) (si np et nq > 5) A risque d erreur fixé, l intervalle de confiance (IC) est d autant plus petit que la taille de l échantillon est grande z /2 = 1,96 2

25 Description d une v. qualitative (1) 25 Pour la variable «tabact»

26 Description d une v. qualitative (2) 26 Pour la variable «tabact» Quelle est la fréquence de fumeurs actuels?

27 Description d une v. qualitative (3) 27 Et par classe (sexe) Quelle est la fréquence de fumeurs actuels chez les filles et chez les garçons?

28 Description d une v. quantitative (1) 28 Pour la variable «age» Quelle est la moyenne d âge de l échantillon?

29 Description d une v. quantitative (2) 29 Mesures de position et de dispersion de «age»

30 A vous de vous la représenter 30 Médiane < Moyenne (valeurs extrêmes)

31 31 Tests statistiques Les étapes d un test statistique Les hypothèses a priori : H 0 et H 1 Les erreurs a priori : α et β La puissance statistique : 1 - β Le nombre de sujet nécessaire Le choix du test statistique Les conditions de validité Le degré de signification : p

32 32 Différence significative?

33 Les étapes d un test statistique Choix du critère de jugement principal 2. Poser les hypothèses H 0 et H 1 3. Calcul de la statistique 4. Conditions d applications 5. Comparer notre statistique à des valeurs limites «standardisées» lues dans une table adaptée Test bilatéral ou unilatéral? Type de test (t, χ², +/- apparié ) 6. Règle de décision : différence significative?

34 Exemple 34 Essai randomisé sur les lombosciatiques Corticoïdes par infiltrations vs. Placebo Critère de jugement principal = succès/échec à J20 par auto-évaluation des patients Inclusion prévue de 43 patients/groupe Au terme de l étude : 85 patients inclus Corticoïdes : 22/43 (51,2%) de succès Placebo : 10/42 (23,8%) de succès Différence statistiquement significative

35 Les hypothèses a priori : H 0 et H 1 35 L hypothèse nulle (H 0 ) Celle que l on cherche à réfuter (statu quo) «Vraie» tant qu on a pas démontré le contraire L hypothèse alternative (H 1 ) Hypothèse contraire de l hypothèse nulle Celle que l on cherche à démontrer P A P B (test bilatéral) et non pas P A > P B (unilatéral)

36 Les hypothèses a priori : H 0 et H 1 36 Exemple de l essai randomisé sur le traitement des lombosciatiques : Corticoïdes vs. Placebo L hypothèse nulle (H 0 ) : les taux de succès sont identiques sous corticoïdes et sous placebo L hypothèse alternative (H 1 ) : les taux de succès différents sous corticoïdes et sous placebo

37 Les erreurs a priori : α et β 37 Erreur de première espèce (α) Probabilité d accepter H 1 à tort (alors que H 0 est vraie) Probabilité de trouver une différence statistiquement significative alors qu il n y en a pas Erreur de seconde espèce (β) Probabilité d accepter H 0 à tort (alors que H 1 est vraie) Probabilité de ne pas mettre en évidence une différence statistiquement significative alors qu elle existe Objectifs = règle de décision minimisant β (risque de non découverte) pour α fixé (risque de fausse découverte), généralement fixé à 5%

38 La puissance statistique (1- β) 38 Puissance statistique (1- β) Aptitude à mettre en évidence une différence lorsqu elle existe On calcule un nombre de sujets nécessaire pour obtenir une puissance donnée H 0 vraie H 0 fausse Accepter H α β Rejeter H 0 α 1 - β

39 Les erreurs a priori : α et β 39 Exemple de l essai randomisé sur les lombosciatiques : Corticoïdes par infiltrations vs. Placebo Erreur de première espèce (α=5%) : conclure à une différence d efficacité entre corticoïdes et placebo alors que les taux de succès sont identiques Erreur de seconde espèce (β=20% donc 1 - β=80%) : ne pas réussir à prouver une différence d efficacité entre corticoïdes et placebo alors qu elle existe

40 Le nombre de sujets nécessaire 40 Nombre de sujet à inclure par groupe (a priori) Moyennes : n C 2 ² / ² avec = m 2 - m 1 Proportions : n C [(p 1 (100-p 1 ) + p 2 (100-p 2 )] / (p 2 -p 1 )² Biostatgv! 0,40 0,20 0,10 0,05 C 4,9 7,9 10,5 13,0 Cas des effectifs déséquilibrés Multiplier n par (k + 1) ² / (4 x k) k est la taille relative du groupe le plus important par rapport au groupe le moins important

41 41 Biostatgv (1) :

42 42 Biostatgv (2) : tests

43 43 Biostatgv (2) : calculs du NSN

44 Le nombre de sujets nécessaire 44 Hypothèse quantitative sous H 1 a priori P 2 = 70% de succès sous corticoïdes P 1 = 40% de succès sous placebo Risques d erreur Erreur de première espèce : α = 5% Erreur de seconde espèce : β = 20% Calcul = 43 patients à inclure par groupe

45 45 Exemple

46 Choix du test statistique 46 Hypothèses Tests paramétriques Tests nonparamétriques Tests appariés Comparaison de 2 moyennes Test t de Student Test de Mann- Whitney Test de Wilcoxon (apparié) Test t apparié Comparaison de 2 pourcentages Test du ² Test exact de Fisher Test du ² apparié (McNemar)

47 Conditions d applications 47 Test t de Student Distribution normale (à vérifier visuellement sur un histogramme ou un diagramme de normalité) ou n > 30 et variances égales (rarement vérifié en pratique) Sinon : test non-paramétrique (moins puissant) Test du ² Effectifs «espérés» (np et nq) tous supérieurs à 5 Sinon : test non-paramétrique (moins puissant)

48 Expérience 48 Recueil des données et résultats observés Taux de succès sous corticoïdes : 22/43 (51,2%) Taux de succès sous placebo : 10/42 (23,8%) Statistique de test ² = 6,77 (estimée à partir des données recueillies) Degré de signification associé : p = 0,009 Règle de décision (Neyman & Pearson) p 0,05 donc rejet de H 0 (vs. p > 0,05 et non rejet de H 0 ) Différence significative de taux de succès

49 Le degré de signification : p (1) 49 Définition Probabilité d observer des résultats au moins aussi en désaccord avec H 0 que ceux qu on a observés Quantifie le désaccord entre ce qu on observe et H 0 Interprétation Permet d affirmer avec plus ou moins de conviction qu il y a une différence (et encore, selon les écoles ) Mais ne renseigne sur l importance de cette différence

50 Le degré de signification : p (2) 50 La valeur de p dépend de La différence observée entre les deux groupes La taille d échantillon S il existe une différence réelle entre 2 groupes, même infime, n importe quel test statistique va aboutir à une valeur de p < 0,05 dès lors que le nombre de sujets étudiés sera assez important

51 Attention!!! 51 La signification statistique n implique pas la pertinence clinique! ex : 0/3 (0,0%) vs 3/3 (100,0%) p = 0,010 (test exact de Fisher) Si aucune différence statistiquement significative n est mise en évidence entre 2 groupes Soit H 0 est vraie : équivalence entre les deux groupes Soit la puissance est insuffisante (effectifs insuffisants)

52 Le degré de signification 52 Si les taux de succès sous corticoïdes et sous placebo sont identiques, la probabilité d observer une telle différence (51,2% vs 23,8%) ou une différence plus grande encore est de 0,009 (= p) Différence d efficacité et p (ici = 0,009) 22/43 (51,2%) vs. 10/42 (23,8%) : = 27,4% 14/22 (63,6%) vs. 5/21 (23,8%) : = 39,8% 1104/4200 (26,3%) vs. 1000/4200 (23,8%) : = 2,5%

53 Et maintenant : à vos claviers! 53 Hypothèses Tests paramétriques Tests nonparamétriques Tests appariés Comparaison de 2 moyennes Test t de Student Test de Mann- Whitney Test de Wilcoxon (apparié) Test t apparié Comparaison de 2 pourcentages Test du ² Test exact de Fisher Test du ² apparié (McNemar)

54 Comparer deux moyennes (1) 54 Formulation de la question Les non fumeurs ont-ils le même âge que les fumeurs? La moyenne d âge est-elle la même chez les fumeurs et les non fumeurs? Formulation du test statistique Comparaison des moyennes d âge dans le groupe fumeur et dans le groupe non fumeur H 0 : la moyenne d âge est la même dans les deux groupes Test t de Student : conditions? Distribution normale vérifiée graphiquement ou n > 30 et variances égales

55 55 Comparer deux moyennes (2)

56 56 Comparer deux moyennes (3)

57 Comparer deux pourcentages (1) 57 Formulation de la Les filles fument-elles autant que les garçons? La fréquence des fumeurs est-elle la même chez les filles que chez les garçons? Formulation du test statistique Comparaison de la proportion de fumeurs actuels chez les filles et chez les garçons H 0 : il n y a pas de différence entre les filles et les garçons Test du ² : effectifs «espérés» (np et nq) > 5?

58 Comparer deux pourcentages (2) 58 Comparaison du pourcentage de fumeurs actifs dans chaque sexe

59 59 Comparer deux pourcentages (3)

60 Bonus : recoder une variable (1) 60 On veut étudier l âge par classes d âge Créer une variable «agedisc»

61 Bonus : recoder une variable (2) 61 Discrétiser cette variable par classes de 10 années

62 Pour récapituler (1) 62 Pour décrire une variable V. qualitative : FREQUENCIES Pourcentages (avec IC95%) Quel est le pourcentage de fumeur dans l échantillon? V. quantitative : MEANS Moyenne, médiane, mode, étendue, variance, écart-type Quelle est la moyenne d âge dans l échantillon?

63 Pour récapituler (2) 63 Pour comparer deux variables V. qualitative/qualitative : TABLES Test du χ² : conditions? Le pourcentage de fumeur est-il supérieur chez les hommes par rapport aux femmes? Aussi pour les v. qualitatives > 2 classes (couleur des yeux) V. quantitative/qualitative : MEANS Test t de Student : conditions? La moyenne d âge de l échantillon est-elle la même chez les femmes et chez les hommes?

64 Pour récapituler (3) 64 Pour comparer deux variables (suite) V. quantitative/quantitative : pas avec Epi Info (?) Test de nullité du coefficient de corrélation : conditions? La taille et le poids sont-ils «corrélés» (= ont-ils un lien?) dans la population étudiée? Site internet Biostatgv :

65 Comment présenter les résultats? (1) 65 Représenter la population d intérêt par un flowchart XXX personnes sélectionnées Non inclus XX personnes incluses Inclus à tort Perdus de vue Déviations au protocole Données manquantes X personnes ayant suivi le protocole jusqu au bout

66 Comment présenter les résultats? (2) 66 Présenter la population de l étude (tableau) Sexe, âge, variables d intérêts Variables qualitatives : effectifs et pourcentages Variables quantitatives Grands effectifs : moyenne, intervalle de confiance à 95% Petits effectifs : médiane, minimum-maximum Population totale (n = XXX) Sexe Age (années) Moyenne / Médiane IC à 95% / Min-Max Effectif Pourcentage Homme XX XX% Femme XX XX% XX / XX [ XX ; XX] / XX-XX

67 Comment présenter les résultats? (3) 67 Sexe Age (années) Groupe 1 (n = XXX) Groupe 2 (n = XXX) Test statistique correspondant Effectif Pourcentage Effectif Pourcentage (t Student, χ², etc) Homme XX XX% XX XX% Femme XX XX% XX XX% Moyenne XX XX Variable qualitative IC à 95% [ XX ; XX] [ XX ; XX] Modalité A XX XX% XX XX% Modalité B XX XX% XX XX% Modalité C XX XX% XX XX% Variable quantitative (unité) Moyenne XX XX IC à 95% [ XX ; XX] [ XX ; XX] p < 0,05? p < 0,05? p < 0,05? p < 0,05?

68 Références 68 Bouyer J. Epidémiologie : principes et méthodes quantitatives. Editions Inserm. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Abrégés Masson. tie_06&p=diaporama Site internet Biostatgv