Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Cyril Ferdynus, USM, CHU
RECUEIL DE DONNEES
Recueil hors ligne Epidata (http://www.epiconcept.fr/html/epidata.html) Avantages: gratuit, simple d utilisation, contrôle à la saisie Inconvénients: Temps de prise en main pour la réalisation du masque de saisie Tableur (Excel, ) Avantages: simple d utilisation, relecture et correction facile Inconvénients: Pas de contrôle à la saisie, inadapté aux questionnaires longs, respecter certaines règles Bases de données (Access, ) Avantages: Adapté aux grands questionnaires, contrôle à la saisie Inconvénients: Complexe, payant Dans tous les cas => Fiche de recueil papier!
Recueil en ligne Google Docs Avantages: Gratuit, aucune limite au nombre de questionnaires, possibilité d export dans Excel Inconvénients: Type de réponses limitées, possibilité de répondre plusieurs fois, Survey Monkey Avantages: 15 types de questions, outils statistiques intégrés, gestion des relances, Inconvénients: Payant si > 10 questions et/ou > 100 réponses Lime Survey Avantages: Gratuit, 20 types de questions, nombre de questionnaires illimités, export sous Excel, Inconvénients: Nécessité de disposer d un hébergeur
Recueil avec un tableur La première ligne contient les noms de colonnes Noms explicites (pas trop longs) Uniques Sujets en ligne avec un numéro de ligne : chaque sujet doit avoir un numéro Permet de retourner au questionnaire papier en cas d erreur de saisie Variables en colonnes: une colonne doit contenir une seule information Pas d unités
Codage des variables Evitez le texte libre Sinon, standardisez la saisie (majuscules, minuscules, ) Variables qualitatives = codage numérique Ex: 1 = Oui; 0 = Non Dates et Heures JJ/MM/AAAA et HH:MM Valeurs manquantes = cases vides Ne pas mélanger les types dans une même colonne
A ne pas faire au recueil Utiliser une couleur pour identifier les groupes Une variable définissant le(s) groupe(s)! Transformation des variables Ex: Mise en classe d âge Calcul sur les variables Ex: IMC, durées de séjour, âges => Perte d information Les calculs sont réalisés à l exploitation des données
Recueil exploitable NUM TERME DEPT SEXE POIDS DECES MULT. 313 36 88 F 1220 3 0 203 34 54 F 1470 0 1 492 34 57 F 1430 0 215 34 54 F 1420 0 0
Recueil inexploitable NUM infection germe POIDS DECES Cause DC 313 0 0??? oui Pas de renseignement 203 1 E.Coli,staph 1470 non non 492 1 Escherichia C. 1430 NON 0 215 0 Pas de germe 1420 Non 0
FAIRE LES ANALYSES
Qui fait les analyses? Vous Avantages: Vous gérez votre planning Inconvénients: Vous faites les analyses et vous en êtes responsables, vous devez utiliser les tests appropriés, L USM Avantages: Vous ne faites pas les analyses Inconvénients: Il y a des délais, le fichier de recueil doit être correctement formaté Le CIC-EC En fonction de la thématique
Différents type de variables Caractéristiques mesurées chez les sujets Efficacité d un traitement Sexe Taille Nombre de germes Score d une douleur binaire nominale continue discrète ordinale Qualitatives Quantitatives La nature de la variable conditionne l outil statistique utilisé
Variables continues Comparaison de deux moyennes Séries non appariées grand effectif (n > 30) Test t de Student test non paramétrique Test W de Wilcoxon Test U de Mann-Whitney Séries appariées grand effectif (n > 30) Test t pour séries appariées (Student pour séries appariées) test non paramétrique Test T de Wilcoxon pour séries appariées
Variables continues Comparaison de plusieurs moyennes Séries non appariées Distribution normale Analyse de Variance à 1 facteur (ANOVA) test non paramétrique Test de Kruskall Wallis Séries appariées Distribution normale Analyse de Variance sur mesures répétées Test non paramétrique Test de Friedman
Variables qualitatives Comparaison de 2 proportions Séries non appariées Grand effectif (Effectifs attendus >= 5) Chi 2 Test non paramétrique Test exact de Fisher Séries appariées Test de Mac Nemar
Variables qualitatives Comparaison de k proportions (k >2) Séries non appariées Grand effectif (Effectifs attendus >= 1) Chi 2 Test non paramétrique Test exact de Fisher Séries appariées Test de Cochran
Quel logiciel utiliser? Epi Info Avantages: gratuit, permet de faire les tests de comparaisons classiques Inconvénients: Limités aux tests simples Excel Avantages: Facilité de calcul des moyennes, écart type, Inconvénients: Difficulté+++ pour effectuer des tests de comparaisons R (avec interface graphique R Commander) Avantages: gratuit, complet, évolutif Inconvénients: difficulté de prise en main+++ Autres logiciels payants: SAS, SPSS, Stata, Statview, Medcalc,
PRESENTATION DES DONNEES
Faire un bon graphique Le graphique dépend du type de données Un titre pour indiquer la nature des informations Sous le graphique Attention aux échelles! Indiquer les unités de mesure en abscisses et en ordonnées Eviter de mettre des fonds colorés ou hachurés Ne pas déformer l information Attention aux représentations 3D Choix des intensités de couleur des modalités+++ Attention au noir et blanc!
Variable qualitative Représentation graphique (secteurs) 24,40% Tranches d'âge 3,50% 8,10% 17,50% 46,50% Ouvrier Cadre Employé Sans profession Autre Ne s applique pas aux variables ordinales
Variable qualitative Représentation graphique (bâtons) 50,00% 45,00% 40,00% 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 3,50% 8,10% 17,50% 46,50% Ouvrier Cadre Employé Sans profession 24,40% Autre S applique aussi aux variables ordinales ou quantitatives discrètes
Variable quantitative Représentation graphique (histogramme) Deux règles à respecter Axe des abscisses identique pour tous les intervalles La surface de chacun des rectangles est proportionnelle au nombre d individus de la classe
Variable quantitative La boîte à moustaches
Le point de vue 24
Faire un bon tableau Un titre explicite indépendant du texte Au dessus Un bandeau de titre indiquant la nature des informations des colonnes Un trait horizontal au dessus et au dessous Un trait horizontal sous la dernière ligne Toujours utiliser le même nombre de décimales Séparées par une virgule en français, un point en anglais Les unités de mesure doivent être indiquées pour les variables quantitatives A coté du nom de la variable Un tableau doit pouvoir se lire seul!
Variable qualitative Présentation synthétique Tableau 1: Caractéristiques sociodémographiques des patients diabétiques Caractéristiques Effectif Proportion Sexe Hommes 48 55,8% Femmes 38 44,2% CSP Ouvrier 3 3,5% Cadre 7 8,1% Employé 15 17,5% Sans profession 40 46,5% Autre 21 24,4%
Deux variables qualitatives Le tableau «croisé» (contingence) Tableau 2: Comparaison des caractéristiques sociodémographiques des patients diabétiques, selon le sexe Caractéristiques Hommes Femmes N % N % CSP Ouvrier 2 4,2 1 2,6 Cadre 5 10,4 2 5,2 Employé 9 18,8 6 15,8 Sans profession 16 33,3 24 63,2 Autre 16 33,3 5 13,2
Variables qualitatives et quantitatives, dans un même tableau? Tableau 3: Comparaison des caractéristiques des patients diabétiques à l inclusion, selon le groupe de traitement Caractéristiques Traitement 1 (n = 86) Traitement 2 (n = 67) Age (Années), moyenne (ET) 28,4 (5,2) 27,2 (5,1) 0,08 Poids (Kg), moyenne (ET) 61,2 (6,4) 58,3 (6,8) 0,004 p Sexe, n(%) Hommes 48 (55,8%) 41 (61,2%) Femmes 38 (44,2%) 26 (38,8%) 0,50 CSP, n(%) Ouvrier 3 (3,5%) 5 (7,4%) Cadre 7 (8,1%) 10 (14,9%) Employé 15 (17,5%) 30 (44,8%) Sans profession 40 (46,5%) 20 (29,8%) < 0,0001 Autre 21 (24,4%) 2 (3,1%)
Synthèse Représentation des données Type de données Présentation des données Représentation graphique Données à deux dimensions Qualitatif Effectif Proportions Camembert Diagramme en bâtons Tableau de contingence Ordinal Effectifs Proportions Diagramme en bâtons Tableau de contingence Quantitatif Moyenne, Médiane Ecart type, IQR Histogramme Nuage de Points Coefficient de corrélation
Au final Appeler un statisticien après que l expérience soit terminée c est comme lui demander de faire une autopsie; il pourra seulement déterminer la cause de l échec de l expérience. Sir Ronald Fisher (1890-1962)
DES QUESTIONS? cyril.ferdynus@chu-reunion.fr usm@chu-reunion.fr