INTRODUCTION A LA RECHERCHE QUANTITATIVE Première partie : du questionnaire à la base de données Juin 2010 Julien Gelly, Caroline Huas, Josselin Le Bel
Plan 2 1. Introduction 2. Saisie des données : Epi Data Constitution du masque de saisie Saisie des données Exportation des données 3. Analyse des données : Epi Info Représentations graphiques Description des données Tests statistiques
Epi Data : saisie des données 3 Téléchargement http://www.epidata.dk/php/downloadc.php?file=setup_ epidata_fr.exe Aide http://www.epidata.dk/downloads/epdintro_fr.pdf Site de Bruno Falissard http://h0.web.u-psud.fr/biostatistiques/#livre&id=01
4 Introduction Les différents types d études Le hasard et les probabilités Les variables aléatoires La loi normale Comment présenter les résultats?
Types d étude (1) 5 Classification chronologique Prospective Maladie Temps Rétrospective Transversale
Types d étude (2) 6 Selon les caractéristiques de la population Cohorte : enquête idéale, individus d une population (d un échantillon représentatif), avant l exposition au(x) facteur(s) Cas-témoins : comparaison de malades et de non malades «identiques» Transversale : échantillon représentatif de la population, indépendant de l exposition et de l état de santé
Le hasard et les probabilités 7 Hasard Traduction de notre ignorance Donc relatif Probabilités Physico-probabilités : fréquence limite Psycho-probabilités : plausibilité Comment conclure à une différence entre deux chiffres? «Hasard» (variabilité de la mesure) tests statistiques On s autorise une marge d erreur connue (5%)
Les variables aléatoires 8 Variables quantitatives Ordre de grandeur et possibilité d interpréter un écart Discrète (TA) ou continue (CRP) et variable continue discrétisée (classes d âge) Variables qualitatives Pas d ordre de grandeur ni de notion d écart Ordonnée (ACR) ou non-ordonnée (couleur des yeux) Binaire = dichotomique : si 2 classes (pile ou face)
La loi normale 9 Mesure d un phénomène dans une population (numération des hématies) Loi normale associée Même moyenne Même écart type (même variabilité de la mesure)
Comment présenter les résultats? (1) 10 Représenter la population d intérêt par un flowchart XXX personnes sélectionnées Non inclus XX personnes incluses Inclus à tort Perdus de vue Déviations au protocole Données manquantes X personnes ayant suivi le protocole jusqu au bout
Comment présenter les résultats? (2) 11 Présenter la population de l étude (tableau) Sexe, âge, variables d intérêts Variables qualitatives : effectifs et pourcentages Variables quantitatives Grands effectifs : moyenne, intervalle de confiance à 95% Petits effectifs : médiane, minimum-maximum Population totale (n = XXX) Sexe Age (années) Moyenne / Médiane IC à 95% / Min-Max Effectif Pourcentage Homme XX XX% Femme XX XX% XX / XX [ XX ; XX] / XX-XX
Comment présenter les résultats? (3) 12 Sexe Age (années) Groupe 1 (n = XXX) Groupe 2 (n = XXX) Test statistique correspondant Effectif Pourcentage Effectif Pourcentage (t Student, χ², etc) Homme XX XX% XX XX% Femme XX XX% XX XX% Moyenne XX XX Variable qualitative IC à 95% [ XX ; XX] [ XX ; XX] Modalité A XX XX% XX XX% Modalité B XX XX% XX XX% Modalité C XX XX% XX XX% Variable quantitative (unité) Moyenne XX XX IC à 95% [ XX ; XX] [ XX ; XX] p < 0,05? p < 0,05? p < 0,05? p < 0,05?
13 Epi Data : objectifs 1. Constitution du masque de saisie Construction du questionnaire (.qes) Création du fichier de données (.rec) Appliquer des contrôles (.chk) Vérification de la structure du fichier 2. Saisie des données 3. Exportation des données
Construction du questionnaire (1) 14 Créer un nouveau questionnaire Puis «Enregistrer sous» : TP.qes
Construction du questionnaire (2) 15 VARIABLES SIGNIFICATION CODAGE id Numéro de fiche Entier (4 chiffres) age Age de l'étudiant(e) Entier (ans) sexe tabact Sexe de l'étudiant(e) Actuellement, fumezvous du tabac? 1 = homme 2 = femme 1 = oui 0 = non tabactfq Fréquence 1 = je fume tous les jours 2 = je fume occasionnellement 3 = j ai été fumeur(se) mais j ai arrêté 4 = j ai essayé mais je ne suis jamais devenu fumeur(se) 5 = je n ai jamais fumé poids Poids de l'étudiant(e) Entier (kg) taille Taille de l'étudiant(e) Deux décimales (m)
Construction du questionnaire (3) 16 Syntaxe sous Epi Data id Numéro de fiche <IDNUM> age Age ### sexe Sexe # tabact Tabac actuellement # tabactfq Tabac actuellement fréquence # poids Poids ### taille Taille #.##
Construction du questionnaire (4) 17 «Nom de la variable» Le plus explicite possible Maximum 8 caractères alphanumériques Jamais de chiffre en premier, ni d accents, ni de signes de ponctuation «Intitulé de la variable» Le plus complet possible (format libre) Au moins 8 espaces entre le nom de la variable et son intitulé (pour éviter de fusionner «nom» et «intitulé»)
Construction du questionnaire (5) 18 «Champ de saisie» = format de la variable <idnum> : numérotation automatiquement les sujets <dd/mm/yyyy> : date au format 24/12/2009 ## ou #.## : un chiffre pour chaque # : une lettre pour chaque _ <Y> : pour une question booléenne (oui ou non) NE PAS UTILISER LE FORMAT BOOLEEN!!! (problème de la gestion des données manquantes)
Construction du questionnaire (6) 19 Pour la variable «id» 4 onglets : Numérique Texte Date Autres
Construction du questionnaire (7) 20 Pour la variable «age»
Construction du questionnaire (8) 21 Pour la variable «tabact»
Construction du questionnaire (9) 22 Pour la variable «taille»
23 Création du fichier de données
Appliquer des contrôles (1) 24 Ouvrir le fichier «TP.rec»
Appliquer des contrôles (2) 25 Pour chaque variable Range : détermine l étendue (ex : 1-130) Legal : pour attribuer une valeur aux données manquantes (ex: 1-130,999) Must Enter : rend la saisie obligatoire Editer : pour les contrôles avec saut de question Permet de limiter les erreurs de saisie
Appliquer des contrôles (3) 26 Pour les variables «age» et «sexe»
Appliquer des contrôles (4) 27 Pour la variable «tabact»
Vérification de la structure 28 Avant de saisir les données Variables : nom, libellé, codage Contrôles
Saisie des données (1) 29 Ouvrir le fichier «TP.rec»
Saisie des données (2) 30 A vous de jouer!
Données à rentrer 31 id age sexe tabact tabactfq poids taille 1 20 2 1 1 59 1,74 2 2 55 1,7 3 21 2 1 1 70 1,75 4 19 2 0 57 1,72
Après la saisie des données 32 Table des données Mise à plat : caractéristiques générales
Exportation des données 33 Exportation du fichier «TP.rec» Au format «Excel» (compatibles avec Epi Info )
A la semaine prochaine! 34 1. Introduction 2. Saisie des données : Epi Data Constitution du masque de saisie Saisie des données Exportation des données 3. Analyse des données : Epi Info Représentations graphiques Description des données Tests statistiques