Exploitation analyse et valorisation des données issues d une enquête de population IFSI Carcassonne, Octobre 2015 Elodie Lagneaux, directrice CODES11 Le traitement des données 1
Définition Le traitement des données a lieu après la collecte de toutes les données pertinentes auprès de diverses sources et leur saisie dans un ordinateur qui en fera le traitement pour produire l'information (résultats). Objectifs Répondre à la question/problématique et aux éventuelles hypothèses formulées Interpréter les résultats inattendus, la mise en évidence d autres faits (soit intégrés à la recherche proprement dite, soit pistes de réflexion et de recherche) 2
Les grandes opérations de l analyse 1. Le dépouillement Tableaux de comptage (observation et questionnaire) Retranscriptions et annotation du discours (entretiens) 2. L analyse des données Tris à plat et tris croisés (questionnaire et observation) Analyse de contenu thématique (entretiens et questions ouvertes du questionnaire) 3. La comparaison des résultats observés et des résultats attendus Exploitation des entretiens : l analyse de contenu 1. Numérotation des entretiens 2. Retranscription du discours 2 ou 3 colonnes 1 colonne pour le discours 1 ou 2 colonnes pour les annotations sur les mots clés, phrases ou paragraphe en rapport avec les thèmes explorés 3
Exploitation des entretiens : l analyse de contenu (2) 3. analyse thématique du contenu des entretiens 4. synthèse des résultats en chiffrant le nombre d entretiens présentant un discours en lien avec les thèmes explorés Exploitation des entretiens : l analyse de contenu (3) Exemple : 4
Dépouillement questionnaires (1) 1. Dépouillement manuel Justifié si peu de questionnaires, beaucoup de questions qualitatives, traitements statistiques simples 2. Dépouillement automatique Logiciels d enquête ou de traitement des données (Ethnos, Sphinx ) Codification du questionnaire L opération de codification consiste à reconvertir le langage ordinaire du questionnaire en un langage qui se prête au traitement informatique. 5
Codification du questionnaire (2) Comment procéder? L opération de codification correspond à un chiffrement, elle consiste à accorder un chiffre unique à une variable, à une modalité ou une réponse donnée. Pourquoi un code? Rendre possible le traitement et l analyse numérique de données recueillies Codification du questionnaire (3) Types de codes? Numérique : composé uniquement de chiffres : Simple : 1 à n Décimal : 1, 2, 3, 11, 12, 13, 21, 22, 23, 31, 32, 33, 111, 112, 121, 122, 131, 132, etc. Alphanumérique : combine des chiffres et des alphabets, comme par exemple : 12a, 12b, 12c ou A1, A2, A3. 6
Codification du questionnaire (4) Étape de la codification? Elle s'effectue en général en deux temps : Pré codage du questionnaire : Codification préalable des questions fermées et semi fermées Codage a posteriori : Codification complémentaires après la réalisation des enquêtes sur terrain (Codification des réponses aux questions ouvertes, etc.) Codification du questionnaire (5) Exemple question fermée 1. L exploitant recrute-t-il de la main d œuvre extérieure? Code : [1. Oui, 2. Non] En cas de oui 1 En cas de Non 2 7
Codification du questionnaire (6) Exemple question semi-fermée Quelle est l activité secondaire du chef de l'ue? Code : 1. Agriculture; 2. Élevage; 3. Cueillette; 4. Exploitation du bois; 5. Commerce; 6. Fonctionnaire; 7. Artisanat; 8. Apiculture; 9.Tourisme; 10. Autre (préciser) : En cas de Agriculture 1 En cas de Élevage Etc. En cas de «autre» 2 10 Codification du questionnaire (7) Exemple question ouverte Le codage est effectué lors de l'opération de dépouillement après avoir cerner les réponses et les grouper, après quoi un code leur sera accordé. Exemple : si, pour un échantillon de 50 individus, les réponses à la question se présentent comme suit : Augmenter la production : 25 individus Améliorer la qualité : 10 individus Accroître la part de la production biologique : 8 individus Diverses réponses différentes pour les 7 restants Le code sera par exemple le suivant : 1. Augmenter la production, 2. Améliorer la qualité, 3. Accroître la part de la production biologique, 4. autres 8
Saisie des données Transcription sur tableau de données: Le tableau de données est une matrice (tableau à double entrée) constitué de n lignes (individus) et m colonnes (caractères) Caractères N Individus V 1 V 2 V j.. V m M caractères Ind. 1. Ind. i.. Ind. n Saisie des données (2) Caractères Individus Age** (Années) Activité principale* Superficie (Ha)** 1 65 20 0,4 2 40 21 1,5 3 30 21 0,8 4 83 21 2,0.... * Variables qualitatives, ** Variables quantitatives 9
Saisie des données (3) L analyse des données 10
L analyse des données (1) Description d une variable quantitative comme l âge : classiquement on indique l âge moyen (paramètre de position) et l écart type de l âge (paramètre de dispersion). En cas de distribution asymétrique, on peut utiliser également la médiane de l âge (position) et l intervalle interquartile [1er quartile ; 3ème quartile] (dispersion). Il est également possible de détailler les valeurs extrêmes (minimum et maximum). L analyse des données (2) Description d une variable qualitative (en classes), comme le traitement, on indiquera l effectif et le pourcentage dans chacune des classes. Tous ces indicateurs sont faciles à obtenir dans Excel 11
L analyse des données : les tris a) Les tris à plat Les résultats sont obtenus question par question ; Les résultats sont donnés en valeur absolue et en valeur relative (%). Ex. : A la question : «Pratiquez-vous un sport?», 650 lycéens, soit 65 % de la population interrogée, ont répondu «Oui». b) Les tris croisés Permettent d obtenir les résultats sur 2 questions à la fois ; Ex. : Sur les personnes déclarant pratiquer un sport, 60 % sont des filles et 40 % des garçons. L analyse des questionnaires : les tris à plat 1. Questions classiques : % nombre entier Calcul effectifs et % par catégorie de réponses Tenir compte des NR 2. Questions à choix multiples ordonnés Effectifs et % par réponses données en rang 1, rang n 3. échelles d attitude Au niveau de chaque item (LIKERT) 12
L analyse des questionnaires : les tris croisés. Comparaisons de 2 variables : Dépouillement d enquête sous Excel 13
Excel c est quoi? Excel est un tableur, c est-à-dire une grille comportant des cellules : Les formules (1) Une formule est une équation qui analyse les données d'une feuille de calcul. Les formules effectuent des opérations telles que l'addition, la multiplication et la comparaison de valeurs de feuilles de calcul ; elles peuvent aussi combiner des valeurs. Les formules peuvent faire référence à d'autres cellules de la même feuille de calcul, des cellules d'autres feuilles de calcul du même classeur ou des cellules de feuilles dans d'autres classeurs. 14
Les formules (2) Exemple : Les formules (3) 15
Les formules (4) Les formules calculent les valeurs dans un certain ordre constituant leur syntaxe. La syntaxe d'une formule décrit la méthode de calcul. Toute formule de Microsoft Excel commence par le signe égal (=) suivi par l'objet du calcul. Les formules (5) Fonctions de base : Addition : «+» Multiplication : «*» Soustraction : «-» Division : «/» Addition de plusieurs cellules : SOMME(D5 :F5) Les deux-points créent des groupes de cellules (ex. D5:F5 signifie «D5 à F5») Les points-virgules séparent les cellules ou les groupes de cellules (ex. D5:F5;F10 signifie «D5 à F5, et F10») 16
Les formules (6) Moyenne Renvoie la moyenne (arithmétique) des arguments. =MOYENNE(nombre1;nombre2;...) Médiane Renvoie la valeur médiane des nombres. La médiane est la valeur qui se trouve au centre d'un ensemble de nombres. En d'autres termes, les nombres appartenant à la première moitié de l'ensemble ont une valeur inférieure à la médiane, tandis que ceux appartenant à l'autre moitié ont une valeur supérieure à la médiane. =MEDIANE(nombre1;nombre2;...) Les formules (7) Mode Renvoie la valeur la plus fréquente ou la plus répétitive dans une matrice ou une plage de données. Comme la fonction MEDIANE, MODE est une caractéristique de valeur centrale (ou caractéristique de position). =MODE(nombre1;nombre2;...) nombre1, nombre2,... représentent les 1 à 30 arguments dont vous souhaitez déterminer le mode. Vous pouvez également utiliser une matrice unique ou une référence à une matrice, au lieu d'arguments séparés par des points-virgules. 17
Les formules (8) Écart moyen Renvoie la moyenne des écarts absolus des observations par rapport à leur moyenne arithmétique. ECART.MOYEN mesure la dispersion dans un ensemble de données. =ECART.MOYEN(nombre1;nombre2;...) nombre1,nombre2,... représentent les 1 à 30 arguments pour lesquels vous recherchez la moyenne des écarts par rapport à leur moyenne. Vous pouvez également substituer à des arguments séparés par un point-virgule, une matrice unique ou une référence à une matrice. Les formules (9) =QUARTILE(matrice;quart) =ECARTYPE(nombre1;nombre2; ) =VARIANCE(nombre1;nombre2; ) Etc. 18
Les graphiques Pourquoi un graphique? Pour simplifier l'analyse d'une masse de données. Pour ressortir rapidement des tendances à partir de séries de données. Pour pouvoir comparer les données. Pour faire ressortir des proportions. 37 Les graphiques Le graphique dépend du type de données Un titre pour indiquer la nature des informations Sous le graphique Attention aux échelles! Indiquer les unités de mesure en abscisses et en ordonnées Eviter de mettre des fonds colorés ou hachurés Ne pas déformer l information Attention aux représentations 3D Choix des intensités de couleur des modalités+++ Attention au noir et blanc! 19
Création d un graphique Il s agit de créer un graphique au format «histogramme 2D» à partir du tableau suivant: 39 Création d un graphique (2) Sélectionner la zone pour laquelle on veut créer notre graphique (i.e A1:M5) Ensuite sélectionner Insertion/Graphique La fenêtre suivante sera affichée 40 20
Création d un graphique (3) Choisir le format qui vous intéresse en cliquant dessus Cliquer sur suivant jusqu à l étape 4 où il est demandé de Soit inclure le graphique dans une nouvelle feuille Soit l inclure dans la feuille courante Choisir de l inclure en tant qu objet dans la feuille courante 41 Création d un graphique (4) Titre 42 21
Création d un graphique (5) Représentation graphique (secteurs) 43 Création d un graphique (6) Représentation graphique (bâtons) 44 22
octobre août juillet juin mai avril mars février janvier Création d un graphique (7) On juge que notre graphique n est pas assez parlant. En fait on voudrait le transformer en un «histogramme3d» Cliquer avec le bouton droit sur le graphique Modifier son format 45 Création d un graphique (8) 70 60 50 40 30 20 10 0 Ordinteurs Camescopes Hi-Fi Télés Télés Hi-Fi Camescopes Ordinteurs septembre novembre décembre 46 23
Création d un graphique (9) Représentation graphique (courbe) 47 Création d un graphique (10) Conclusion: Excel offre une grande variété de formes de représentations graphiques Chacune est adéquate pour un certain type d analyse L outil est souple dans le sens où l on a la possibilité de modifier les caractéristiques du graphique à notre guise 48 24
Les listes, filtres, tris (1) Un liste dans le langage Excel n est rien d autre qu un Tableau de données où les colonnes ont un intitulé Attention: ceci ne veut pas dire que les colonnes ont un nom Chaque ligne désigne un enregistrement Excel offre la possibilité de manipuler les listes pour Les interroger très facilement 49 Les listes (2) 50 25
Les listes (3) On peut trier une liste sur n importe quelle colonne: Données/Trier 51 Les listes (4) 26
Les listes (5) On peut filtrer une liste: n afficher que les lignes qui satisfont un certain critère On peut extraire des lignes pour les recopier à un autre endroit Pour exprimer les conditions, nous avons Les filtres automatiques Les filtres élaborés Tous les deux accessibles par le menu Données 53 Les listes (6) 54 27
Les listes (7) Les Tableaux Croisés Dynamiques (1) Excel offre la possibilité de construire des tableaux de «synthèse» sur des listes de données 56 28
Les Tableaux Croisés Dynamiques (2) 57 Les Tableaux Croisés Dynamiques (3) La fenêtre suivante apparaît : Revenir sur la feuille 1 et sélectionner l ensemble de la base de données. Attention : sélectionner aussi les titres des colonnes! 58 29
Les Tableaux Croisés Dynamiques (4) 59 Les Tableaux Croisés Dynamiques (5) Un tableau vide apparaît avec le nom des variables à droite. Au dessous des variables à droite apparait la structure du tableau (variables en colonnes, variables en ligne et contenu du tableau), pour l instant ce contenu est vide. 60 30
Les Tableaux Croisés Dynamiques (6) calculer la moyenne d âge par sexe : Cocher ou faire glisser la variable sexe en ligne 62 31
Les Tableaux Croisés Dynamiques (7) Puis cocher ou glisser la variable age à l intérieur du tableau 63 Les Tableaux Croisés Dynamiques (8) On peut faire cette manipulation directement dans la table ou dans la structure du tableau au dessous des variables. Si on préfère faire un tableau en colonne, glisser la variable sexe sur les étiquettes en colonne plutôt qu en ligne. 64 32
Les Tableaux Croisés Dynamiques (9) 65 Les Tableaux Croisés Dynamiques (10) Pour le moment, Excel affiche la somme des âges par sexe, ce qui ne nous intéresse pas, on souhaite plutôt calculer la moyenne d âge par sexe. Pour modifier la fonction mathématique appliquée aux données : clic gauche sur «Somme de âge» (dans la structure du tableau sous les noms de variables) puis sélectionner «Paramètres des champs de valeur». ou bien sur les valeurs affichées dans le tableau croisé, clic droit > «paramètres des champs de valeur» Sélectionner la fonction mathématique souhaitée ; ici «Moyenne» De la même manière, on pourra calculer l écart type en fonction du sexe par la fonction «ECARTYPE» 66 33
Les Tableaux Croisés Dynamiques (11) 67 Les Tableaux Croisés Dynamiques (12) On obtient la moyenne d âge par sexe 68 34
Les Tableaux Croisés Dynamiques (13) On peut ajouter en enlever des décimales 69 Présentation des résultats 1.Analyse et commentaires des résultats - Présenter les résultats sous forme de tableaux et graphiques pour mettre en évidence les facteurs qui peuvent avoir un effet sur une action ou une opinion. - Mettre en évidence les chiffres qui ont une valeur significative - interpréter les valeurs - commenter - rédiger un rapport d enquête 35
Le rapport d enquête (1) 1. un descriptif de l enquête caractéristiques de l enquête (institution à l origine de l enquête, durée, population interrogée, type d enquête) analyse de la situation (problème) objectifs de l enquête outil de recueil (un exemplaire du questionnaire est joint au rapport) méthode de recueil partenaires Le rapport d enquête (2) 2. résultats de l enquête tableaux graphiques commentaires les résultats bruts (tableaux de dépouillement sont mis en annexe) 36
Le rapport d enquête (3) 3. conclusions résumé des observations les plus importantes propositions d actions Pour aller plus loin : http://www.drees.sante.gouv.fr/les-enquetes-handicap-sante,4267.html http://www.top-assistante.com/bureau/excel/tcd/tcd2.php 37
Contacts Comité Départemental d Education pour la Santé de l Aude (Codes11) 31 boulevard Omer Sarraut 11000 Carcassonne 04 68 71 32 65 codes11@orange.fr 38