Aide pour la création d'une base de données L analyse des données est un processus long et complexe qui comprend : o la compréhension des données (population, objectif, modalités de recueil des données, ) ; o la préparation des données (vérification du codage des données, contrôle de cohérence,, création de variables, ) ; o les analyses en elles-mêmes descriptives puis comparatives (univariées voir multivariées) ; o l interprétation et la présentation des résultats. Si dans le cadre de votre thèse ou de votre mémoire de spécialité, vous prévoyez de demander une aide pour l'analyse de vos données, voir pour la création de votre base de données, vous devez prendre contact avec le CRC ou le DSP au moment de la rédaction du protocole et du questionnaire afin d éviter des erreurs méthodologiques (irrattrapables au moment de l analyse) et surtout afin de programmer le travail d analyse au minimum 1 à 3 mois à l'avance selon votre disponibilité et de celle des praticiens concernés, mais aussi en fonction de la complexité de vos données et des analyses à faire. Si vous ne maîtrisez pas l outil informatique, le CRC ou le DSP peut vous fournir une aide (selon vos besoins et les disponibilités) afin d initier votre base de données et/ou vous faciliter la saisie. A - Quelques règles de préparation des données pour l analyse 1) Généralités : Les données doivent être saisies sur un tableur (type Excel,..) : o chaque ligne correspond à une observation (un patient) et chaque colonne à une variable ; o la première colonne doit obligatoirement contenir un identifiant unique (aucun fichier nominatif ne doit nous être adressé) pour chaque observation (c est-à-dire chaque ligne) : soit un numéro de 1 à x qui correspondra à l ordre de saisie des observations, soit un identifiant prédéfini si vos questionnaires comportent déjà un numéro d identifiant ; Elsa Parot-Schinkel (EPS), interne de santé publique 1 / 6
o si une observation correspond à un évènement spécifique (et non pas à un patient), plusieurs observations peuvent correspondre à un même patient (ex : chaque observation correspond à une localisation de cancer mais un même patient peut avoir eu plusieurs cancers distincts), alors il faut un deuxième identifiant qui sera unique pour chaque patient et qui permettra ainsi d identifier les différentes observations relatives à un patient donné; 2) Noms des variables : La première ligne du tableur correspond aux noms des variables, ils doivent être simples et explicites. Il faut : o éviter les phrases, les caractères spéciaux, o préférer un seul mot ou un code, sexe pour Quel est le sexe du patient? ; DDN pour Date de naissance du patient ; ES_TT pour Survenue d un effet secondaire au traitement? et ES_TT1 pour Précisez le premier effet secondaire puis ES_TT2 etc Q1, Q2a, Q2b, Q3, Q3x, si questionnaire simple et court ; o si vous avez des mesures répétées, chaque mesure doit garder le même nom précédé ou suivi d un qualificatif temporel, T0_poids pour Poids initial et T1_poids pour Poids à 1 mois de traitement ; C1_D pour Date de la première consultation? puis C2_D etc ; 3) Codage des données : o les colonnes correspondant aux variables quantitatives (poids, âge, tension artérielle, ) ne doivent comporter aucun texte. Si vous voulez informer le fait que la donnée est non applicable utilisez un nombre composé avec le chiffre 8. Si la donnée est manquante, la cellule doit rester vide ou bien doit être codée avec un nombre composé avec le chiffre 9(il est préférable que le codage des données non applicables et manquantes reste le même pour l'ensemble de la base). Parité = - 0 si la patiente n a pas d enfant ; - 2 si la patiente a 2 enfants ; - 888 s il s agit d un homme (pas 8 car il est possible d avoir 8 enfants) et - ou 999 si la donnée est manquante ; Elsa Parot-Schinkel (EPS), interne de santé publique 2 / 6
o les réponses aux variables qualitatives dont les modalités de réponses sont prédéfinies (questions fermées) doivent être codées en chiffre dans le tableur (éviter au maximum d avoir plus de 3 modalités de réponse), Sexe = - 0 pour Femme ; - 1 pour Homme et - ou 999 pour Donnée manquante HTA = - 0 pour Non ; - 1 pour Oui et - ou 999 pour Donnée manquante o les réponses aux variables qualitatives dont les modalités de réponses ne sont pas prédéfinies (questions ouvertes) doivent être, dans la mesure du possible, recodées en prévoyant une modalité de réponse Autre et en précisant l information au moyen d une question ouverte. Pour la question Précisez les éventuels effets secondaires au vaccin BCG intradermique observés, il faut découper la question en plusieurs sous-questions (selon les réponses attendues et/ou observées sur les premiers questionnaires) afin d obtenir un maximum de variables directement exploitables : ES_BCG pour L enfant a-t-il eu des effets secondaires suite au vaccin BCG intradermique? = - 0 pour Non ; - 1 pour Oui et PUIS Compl_BCG pour Si oui, donnez la principale complication = - 1 pour Abcès ; - 2 pour Adénite ; - 3 pour BCGite ; - 4 pour Ulcération ; - 5 pour Autre ; - 888 si pas de complication Compl_text pour Si autre, précisez : <TETE> Elsa Parot-Schinkel (EPS), interne de santé publique 3 / 6
Dans le cas ou un patient peut avoir plusieurs de ces complications, une autre manière de coder est nécessaire puisqu'une cellule ne peut contenir qu'une et une seule information. Donc avec le même exemple: ES_BCG pour L enfant a-t-il eu des effets secondaires suite au vaccin BCG intradermique? = - 0 pour Non ; - 1 pour Oui et PUIS ES_Abces = 0 (Non) / 1 (Oui) / 888 (si pas de complication) / 999 (Donnée manquante) ; ES_Adenite = 0 (Non) / 1 (Oui) / 888 (si pas de complication) / 999 (Donnée manquante) ; ES_BCGite = 0 (Non) / 1 (Oui) / 888 (si pas de complication) / 999 (Donnée manquante) ;; ES_Ulceration = 0 (Non) / 1 (Oui) / 888 (si pas de complication) / 999 (Donnée manquante) ;; ES_Autre = 0 (Non) / 1 (Oui) / 888 (si pas de complication) / 999 (Donnée manquante) ;; ES_Autre_text = < TETE > 4) Consignes diverses : o Listing des variables : un document Word ou Excel (une feuille du classeur Excel pour la base de données et une feuille pour le listing) doit lister les caractéristiques de chaque variable : le nom de la variable, la question (+/- précise) correspondante et le codage des réponses. 1) Sous WORD : sexe pour Quel est le sexe du patient? = - 0 pour Femme ; - 1 pour Homme et csp pour Quelle est la catégorie socio-professionnelle du patient? = - 0 pour Sans emploi (femme au foyer, étudiant, chômeur, ) ; - 1 pour Agriculteurs ; - 2 pour Artisans, commerçants et chefs d entreprise ; - 3 pour Cadres et professions intellectuellement supérieurs ; - 4 pour Professions intermédiaires ; - 5 pour Employés ; - 6 pour Ouvriers ; - 888 pour Non applicable (enfant, retraité) et Age_Dg pour Quel âge avait le patient au moment du diagnostic? = - ### pour l âge renseigné jusqu à 3 chiffres sans décimale ; 2) Sous ECEL (++) : Elsa Parot-Schinkel (EPS), interne de santé publique 4 / 6
o Nom du fichier : il est plus prudent que le nom du fichier comporte le sujet du travail et les initiales de l étudiant. La base de données Excel de Mr. Yates PEARSON dont la thèse concerne les effets secondaires du vaccin BCG pourrait se nommer Base_YPE _BCG.xls o Une fois que vous nous avez adressé votre base préparée, il est préférable que vous n ayez plus de modification à faire sinon prévenez-nous dès que possible! o Si vous devez modifier votre base de données (remplacement des données aberrantes, corrections, nouvelle variable, nouveau codage, etc ), les données modifiées doivent être surlignées en couleur afin qu'elles soient facilement repérables et la base modifiée doit être IMPERATIVEMENT enregistrée sous un nouveau nom (pertinent en terme de suivi chronologique = numéro de la version ou date de modification), Base modifiée nommée Base_YPE _Schmiblick _v1.xls Base modifiée nommée Base_YPE _Schmiblick _15_09_2006.xls B - Quelques consignes pour l élaboration du plan d analyse : o Indiquer clairement (dans le listing des variables ou ailleurs) les variables qui ne feront pas l objet d analyses : identifiant, numéro de dossier, variables utilisées pour créer de nouvelles variables (recodages ou transformations) mais non exploitables en tant que telles; o Formaliser un plan d analyse pour les analyses comparatives = à quelles questions voulez-vous répondre? Quelles variables voulez-vous comparer? Cibler vos demandes sur les analyses nécessaires c est-à-dire utiles en terme d interprétation, de compréhension et/ou de comparaison d après les données cliniques consensuelles et d après la LITTERATURE! o Simplifier au maximum vos variables (l idéal = variables binaires «oui» / «non») afin de pouvoir réaliser des analyses pertinentes car en dehors de l intérêt descriptif, une variable qui Elsa Parot-Schinkel (EPS), interne de santé publique 5 / 6
comporte plus de 4 ou 5 modalités de réponse différentes ne sera pas utilisable du point de vue statistique (cela dépend aussi de votre effectif et du type d analyse souhaitée)! o Vous pouvez présenter votre plan d analyse sous forme de tableaux! Recherche des variables associées à la présence d une HTA comme la catégorie socioprofessionnelle, l âge au moment du diagnostic, : HTA Sexe Age_dg CSP Diabète Naevus Tabac Recherche des variables associées au motif de consultation ou à la réponse positive aux tests : MOTIF R_TEST MOTIF LESION_S SEE AGE* IMC* SPDS_A HTA HTA_TT* HIRSU * identification facile des variables quantitatives surlignées en jaune (test statistique différent)! Consignes pour les publications : Pour la valorisation du travail effectué par les praticiens du CRC et du DSP, que ce soit pour la thèse ou un article publié, le nom du praticien ou de l interne qui a réalisé une aide méthodologique et/ou des analyses statistiques conséquentes doit être mentionné avec les références de son service de rattachement : Centre de Recherche Clinique (C.R.C.) Centre Hospitalier Universitaire d Angers 4 rue Larrey 49 033 ANGERS Cedex 01 Département de Santé Publique (D.S.P.) Faculté de médecine d Angers 1 rue haute de reculée 49 045 ANGERS Cedex Elsa Parot-Schinkel (EPS), interne de santé publique 6 / 6