Département Universitaire de Recherche et d Enseignement en Médecine Générale GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE Enseignants : Esther GUERY, Julien LE BRETON, Emilie FERRAT, Jacques CITTEE Guide d aide statistique à la préparation de la thèse -14/01/2013 Esther GUERY, Julien LE BRETON, Emilie FERRAT,
Plan I. QUELQUES REGLES IMPORTANTES POUR LA CONSTRUCTION ET LA GESTION D UNE BASE DE DONNEES II. STATISTIQUES DE BASE II.1 II.2 Rappels sur les différents types de variables Principaux tests statistiques III. PRISE EN MAIN DU LOGICIEL EPI INFO (Version 3.5.4 : http://wwwn.cdc.gov/epiinfo/html/downloads.htm) SUR UN EXEMPLE DE THESE 2 Guide d aide statistique à la préparation de la thèse -14/01/2013 Kalaivani VEERABUDUN, Julien LE BRETON, Emilie FERRAT,
I. RÈGLES À RESPECTER POUR LA CONSTRUCTION ET LA GESTION D UNE BASE DE DONNÉES SOUS EXCEL 1. Informations générales : - Une feuille excel= une seule et unique table de données. - Une colonne = une variable - Une ligne = un individu (médecin, patient, établissement...) - Privilégier les noms de variables courts et éviter les accents et les caractères spéciaux (excepté le _ ) - Il est fortement recommandé de créer un dictionnaire des variables comportant le nom donné à chaque variable ainsi que sa signification et les différentes valeurs possibles de la variable. 2. Différentes types de variables : Identifiant unique : Il est important d avoir une variable dont la valeur est différente pour chaque individu (Exemple : Individu 1,2, 3, 4, 5). Il s agit de ce qu on appelle la «clé primaire». Variables quantitatives : Se réfèrent à des informations que l on appréhende par des quantités/nombres telles que l âge, le poids, la taille ou encore le salaire. Avant la saisie, penser à configurer le point comme séparateur décimal dans excel. Aller dans panneau de configuration options régionales modifier le format des nombres personnaliser symbole décimal =. 3
Découpage en classe seulement s il existe des seuils prédéfinis dans la littérature ou si c est cliniquement pertinent Exemple : Age [30-35[ ; [35-40[ ect Variables qualitatives : Se réfèrent à des informations que l on appréhende par des modalités (Ex : sexe, niveau d études, état civil) Eviter d écrire en toutes lettres les modalités des variables qualitatives. Préférer le codage en lettre unique ou chiffre. Les variables avec 2 modalités : 0 ou 1; les variables avec 3 modalités: 0, 1,2 et ainsi de suite. Une particularité avec le sexe : 1 pour les hommes / 2 pour les femmes (basé sur le codage sécurité sociale) Attention aux questions à choix multiples. Il faut éviter de combiner les modalités sans être sûr que cela a un sens (exemple : éviter de combiner des bananes avec des tomates). Exemple : Qui sont les médecins qui vous suivent dans la prise en charge de votre maladie respiratoire? Créer 2 variables distinctes qui sont mutuellement exclusives. 4
3. Nettoyage des données : Avant de saisir : Utiliser l outil de validation des données pour que le logiciel refuse les données que l on aura définies comme aberrantes (Aller dans Données Validation des données) A la fin de la saisie : Utiliser les filtres automatiques pour vérifier les données. Vérifier les modalités d une variable Uniformiser l écriture de la modalité si elle est écrite différemment. Exemple : Urbain Données manquantes : Préférer les cases vides pour indiquer les données manquantes : éviter les?. DM qui sont beaucoup moins faciles à traiter dans les logiciels. Regroupements de modalités : Lorsque les effectifs sont trop petits on peut réunir 2 modalités. Par exemple pour l âge si on a que 2 individus dans la tranche [20-25] ans on peut la regrouper avec la tranche [25-30] ans. Attention : toujours vérifier que cela a un sens! 5
II. STATISTIQUES DE BASE II.1 Rappels sur les variables Types de variables : Qualitative : valeurs =modalités appartenant à une catégorie Nominale (sans notion d ordre tel que sexe, médecin généraliste, type de traitement,.) Ordinale (ordre sur les modalités. Par exemple : notion de satisfaction faible, moyen, forte) Les variables qualitatives seront décrites en effectifs et pourcentages. Quantitative : correspond à des valeurs numériques Discrète (nombre fini ou dénombrable de valeurs. Exemple : nombre d accidents de la route par an) Continue (toutes les valeurs d un intervalle réel sont observables. Exemple : Age, température, taille) Les variables quantitatives seront décrites en moyennes +/- écart type si la distribution est normale ou en médiane + Interquartile range si la distribution n est pas normale Dispersion des données Mesurer l'étendue = maximum minimum (intérêt limité) Moyenne +/- écart type Médiane et Intervalle interquartile quand la distribution de la variable ne suit pas une loi gaussienne Variance = moyenne des carrés des écarts à la moyenne 6
II.2 Principaux tests statistiques 7
Comparaison de deux pourcentages sur échantillons indépendants Test du Khi deux Malade Non Malade Exposés A B n 1 Non Exposés C D n 2 m 1 m 2 n Conditions d utilisation : effectifs calculés Aatt Batt Catt Datt 5 Hypothèses : H0: le pourcentage de malades est le même quelque soit l exposition H1: le pourcentage de malades est différent dans les deux groupes d exposition Calcul de la statistique de test : Khi² = ((Observés Attendus)²/Attendus) avec Effectifs Attendus = Aatt = (n1*m1)/n; Batt = (n1*m2)/n ; Catt = (n2*m1)/n ; Datt=(n2*m2)/n Conclusion : Rejet de l hypothèse H0 si Khi² > 3.84 (p < 0.05) Test du Khi deux avec correction de Yates : effectifs attendus entre 3 et 5 Test exact de Fisher : effectifs < 3 Comparaison de deux moyennes sur échantillons indépendants Test de Student (T test) Conditions d utilisation : égalité des variances (test de Bartlett), na et nb 30 ou X suit une loi normale dans les deux populations Hypothèses : H0 : la moyenne de la variable X est la même dans les échantillons A et B H1 : la moyenne n est pas la même dans les échantillons A et B Calcul de la statistique de test : T = (ma-mb) / ((sa²/na) + (sb²/nb)) Conclusion : Rejet de l hypothèse H0 si T >1.64 (p-value <0.05) Test de Wilcoxon Mann Withney : dans le cas où les échantillons sont petits et la variable non normale. 8
III. PRISE EN MAIN DU LOGICIEL EPI INFO Télécharger Epi Info version 3.5.4 : http://wwwn.cdc.gov/epiinfo/html/downloads.htm Importation d un fichier Excel dans Epi info Analyze Data Classic 1. Faire apparaître le fichier de données : Permet de choisir le format de la base de données que l on veut importer dans Epi Info Exemple:«Excel 97» Aller chercher le fichier à importer dans un répertoire : C:\Vani\DMG\base.xls» Sélectionner la feuille Excel du fichier qui contient les données à importer. Puis vérifier que la case qui dit à Epi info que la 1 ère ligne contient le nom des variables a été cochée 9
2. Décrire un fichier de données Tableau des fréquences simples pour les variables qualitatives Rappel de la commande Tableau de fréquences et des pourcentages Intervalles de confiance des % Moyennes ou médianes pour les variables quantitatives Age Moyenne de 53,7 ans (SD 1 :±7,7ans) Médiane de 55 ans (IQR 2 : 49 ; 60,5) 1 SD Standard Deviation= écart-type dans l échantillon 2 IQR Interquartile Range= 25 ème percentiles et 75 ème percentiles (1 er et 3 ème quartiles) 10
Association statistiques brutes Variables explicatives : Ce sont des variables qui vont expliquer la variable d intérêt Ex : sexe, âge.. Tableau des fréquences croisées pour 2 variables qualitatives Variable d intérêt : C est la variable qu on veut expliquer Ex : fréquence d une pathologie Ici t Pourcentage en colonne : 25,7% des médecins exerçant en secteur 1 sont des femmes contre 25% en secteur 2 Pourcentage en ligne : 12% d hommes médecins exercent dans le secteur 2 contre 11,6% de femmes Les tests statistiques : Les tests comparent : 25,6% versus 25,0% (% en colonne) 12% versus 11,6% (% en ligne) Les effectifs attendus sous H0 sont tous >5 (sinon Epi Info vous avertit) On lit le test p du Chi2 non corrigé bilatéral (2-tailed) 11
Si les effectifs théoriques sont entre 3 et 5, on regarder Chi2 corrigé (Yates) et quand les effectifs théoriques <3, alors il faut regarder le test de Fisher exacte 12
quantitative Tableau des fréquences croisées pour 1 variable qualitative et 1 variable Il y a 148 médecins qui exercent en secteur 1 et 20 qui exercent en secteur 2 Moyenne et écart-type de l âge? Médiane et intervalle interquartiles Comparaison des moyennes par le test d Anova : (54,1 versus 51,3) Valeur du p > 0,05 (p=0.13) Les 2 moyennes d âges sont non significativement différentes entre le secteur 1 et le secteur 2 Comparaison des variances par le test de Barlett (seulement si effectifs<30) Valeur de p > 0,05 (p=0.73) Variances sont non significativement Distribution non normales : Comparaison des médianes par les tests de Wilcoxon Mann-Witney (variable binaire) ou kruskal-wallis (pour les variables à plus de 2 classes) 55,0 versus 53,0 Valeur de p >0,05 (p=0.11) Les Médiane d âges ne diffèrent pas significativement entre les médecins exerçant en secteur 1 et ceux exerçant en secteur 2 13 Guide d aide statistique à la préparation de la thèse -12/12/2013 Esther GUERY, Julien LE BRETON, Emilie FERRAT,