Chapitre 11 METHODOLOGIE D ENQUÊTES



Documents pareils
La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

Rédiger et administrer un questionnaire

Guide méthodologique de mise en place d une enquête de satisfaction

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

1. Les types d enquêtes

Nobody s Unpredictable

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Les Français et le chauffage. Résultats de l étude menée

Formation PME Etude de marché

Ressources nécessaires (avec budget)

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

ANNEXE 4. Réaliser un diagnostic de sécurité Principales méthodes de collecte d information. (Module 3, partie I, section 2.5)

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

CONSTRUIRE UNE QUESTION ET ELABORER UN QUESTIONNAIRE?

BAROMÈTRE DE LA PROTECTION SOCIALE DES AGENTS TERRITORIAUX

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

QUE PENSEZ-VOUS DE VOTRE CLUB? Un outil indispensable pour évaluer les clubs

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les Français et la carte bancaire

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

Etude sur l équipement des TPE / PME. en complémentaire santé

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Structure typique d un protocole de recherche. Préparé par Johanne Desrosiers dans le cadre d une formation au réseau FORMSAV

Guide méthodologique : Enquêtes en ligne

Sommaire La méthodologie Les résultats de l'étude... 4

Les Français et les complémentaires santé

Modèle de plan d action pour le sondage en ligne

I. Définition des objectifs :

Les Français et les nuisances sonores

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

La Banque Postale / CNP Assurances

La culture financière des Français

Les différents modes de diffusion d un questionnaire

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES

Trouver un job grâce au numérique : les défis du marché du recrutement en ligne

Planification financière

Sondage de référence 2005 sur la satisfaction des clients du CRSH

Les Français et la confiance

Baromètre BVA Santé. Vieillissement & Silver économie - Vague 1 - pour Orange Healthcare et MNH

Observatoire Orange Terrafemina vague 14. La ville connectée. Sondage de l institut CSA

SÉNAT PROPOSITION DE LOI

Enquête auprès du grand public sur le projet de réforme du système ferroviaire Vague 2 Juin 2014

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise

Chapitre 3 : INFERENCE

Préoccupations, attentes et prévoyance des travailleurs non salariés et des dirigeants de très petites entreprises

les travailleurs non-salari

L ACCÈS AU CRÉDIT ET LES ATTITUDES DES QUÉBÉCOIS QUANT À L ENDETTEMENT UN SONDAGE RÉALISÉ POUR JECOMPRENDS.CA. de la vie aux idées

Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance

Rapport final. Présenté à : Par :

Rapport Lille. Sondage National de Satisfaction de la CNAV auprès des entreprises

L analyse de la gestion de la clientèle

données en connaissance et en actions?

Les internautes français et la confiance numérique. Lundi 7 avril 2014

SONDAGES RELATIFS AUX SERVICES D INFORMATION ET DE RÉFÉRENCE OFFERTS PAR LA DIRECTION GÉNÉRALE DE LA DIFFUSION DE BANQ

COMPTE RENDU DU QUESTIONNAIRE DE SATISFACTION

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE

Dossier de suivi de stage d observation en entreprise en classe de 3 ème

La nouvelle planification de l échantillonnage

La pratique du coaching en France. Baromètre 2010

Le banquier idéal des Français et des Américains

Image de la carte bancaire auprès des porteurs - France

Théorie des sondages : cours 5

Écoutez ce qui se dit sur l épargne-retraite au Canada

Gestion du capital Rapport de vérification final Rapport n o 13/13 17 février 2014

Les salariés et les Jeux Olympiques de 2024 à Paris

L observatoire de la dématérialisation

Les Français et l économie Les journées de l économie Patrick Haas 13 novembre 2014

Les groupes de médecine familiale (GMF) Sondage Omniweb. Dossier septembre 2012

Baromètre 2014 Club de l Epargne Salariale - Harris Interactive

BD/MSPS. Guide de création de la base de données

Evaluation de l organisation interne

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Etude du niveau stress ressenti par les salariés de plusieurs entreprises du tertiaire. Un outil de mesure.

GROUPE DE CONTACT DES DIRECTEURS

Evaluation générale de la qualité des données par âge et sexe

SPHINX Logiciel de dépouillement d enquêtes

Processus d Informatisation

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

«Identifier et définir le besoin en recrutement»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LOG2420 Analyse et conception d interfaces utilisateur

Conseils pour l évaluation et l attribution de la note

Le comportement d achat des internautes européens: Evolutions et tendances

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

I. LE CAS CHOISI PROBLEMATIQUE

Comprendre les différentes formes de communication

Les Français et le don d organes

3 - Sélection des fournisseurs Marche courante Conditionnement Transport Livraison... 5

ECOLE DES HAUTES ETUDES COMMERCIALES CORRIGÉ TYPE DE L EXAMEN

Voulez-vous mieux connaître vos clients et savoir ce qu ils pensent de vous?

Outils Voix du client Guide pratique

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

T de Student Khi-deux Corrélation

Transcription:

Chapitre 11 METHODOLOGIE D ENQUÊTES PLAN DU CHAPITRE 11 11.1 LE QUESTIONNAIRE 11.1.1 Qu est-ce qu un questionnaire? 11.1.2 Etapes de la construction d un questionnaire 11.1.3 Règles de base pour l élaboration du questionnaire 11.1.4 Types de questions 11.1.5 Formulation des questions 11.1.6 Agencement du questionnaire 11.1.7 Les erreurs induites par le questionnaire 11.2 LA COLLECTE DES DONNEES 11.2.1 Modes de collecte les plus courants 11.2.2 Facteurs influençant le choix d une méthode de collecte 11.2.3 Travail à faire durant la collecte 11.2.4 Mesures à mettre en oeuvre pour améliorer le taux de réponse 11.3 SOURCES D ERREUR DANS UNE ENQUÊTE 11.3.1 Erreur de couverture 11.3.2 Erreur due à la non-réponse 11.3.3 Erreur d échantillonnage 11.3.4 Erreur de mesure 1

11.1 LE QUESTIONNAIRE 11.1.1 Qu est-ce qu un questionnaire? Un document rédigé contenant des questions et des informations Un moyen de communication Un outil à exploiter 11.1.2 Etapes de la construction d un questionnaire a) Définitions préalables Objectifs du questionnaire Population concernée Mode de consultation b) Analyse exploratoire qualitative (définition des concepts, du vocabulaire,... ) c) Premières versions du questionnaire Définir la structure Première formulation des questions N.B.) Importance du travail en équipe, de la consultation de spécialistes,... d) Enquête pilote e) Version définitive du questionnaire 2

11.1.3 Règles de base pour l élaboration du questionnaire Distinguer les catégories d information recherchées : faits, connaissances, opinions, attitudes ou comportements, convictions, motivations,... Pertinence et utilité des questions Motiver et faciliter la tâche de l enquêté avant de simplifier celle du chargé d études Souci d objectivité (neutralité) Tenir compte du mode de consultation utilisé (par enquêteur, enquête postale, par téléphone,... ) Penser aux étapes ultérieures : dépouillement, codification, saisie, vérifications, traitements,... 11.1.4 Types de questions 1) Renseignements signalétiques 2) Questions ouvertes a) Exemple Que pensez-vous de la manière dont le cours est donné? N.B.) La question est suivie d un espace délimité destiné à recevoir la réponse, fournie librement par l enquêté. 3

b) Utilisation Analyse exploratoire Analyse qualitative Formulation naturelle d un problème Offre la possibilité d exprimer tous les aspects d une opinion, d une motivation, d une conviction, d une attitude,... Permet d obtenir des données numériques précises c) Avantages c.1) Pour l enquêté : Latitude dans le choix et la formulation des réponses Possibilité de diversité et de nuance c.2) Pour l enquêteur : Latitude dans la formulation de la question Utile quand on ne connaît pas le champ des réponses possibles ou qu il est très vaste d) Inconvénients c.1) Pour l enquêté : Risque de mauvaise compréhension des questions Possibilité de ne pas répondre complètement Travail exigeant c.2) Pour l enquêteur : Travail plus important de saisie des réponses Plus grande difficulté de codage, analyse et interprétation N.B.) Recours à des méthodes d analyse spécifiques (analyse de contenu, analyse de données textuelles,... ) 4

3) Questions fermées L ensemble des réponses possibles est proposé. a) Types de questions fermées a.1) Question dichotomique Ex. : Possédez-vous un ordinateur? Oui Non a.2) Question à choix multiple à réponse unique Ex. : Combien avez-vous d enfants? Zéro Un Deux Trois ou plus a.3) Question avec échelle d évaluation Ex. : Quelle est votre opinion sur le ministre Untel? Très mauvaise Mauvaise Bonne Très bonne Sans opinion Une telle échelle peut comporter ou non une case sans opinion. 5

Le nombre de modalités peut varier. Ex. : Les échelles d évaluation permettent d analyser à la fois le contenu et l intensité de l attitude des répondants vis-à-vis d un concept : cf. échelles de sémantique différentielle d Osgood. Personnel incompétent Agences mal situées Mauvais travail Extrê- Très Assez Ni l un Assez Très Extrêmement ni l autre mement (-3) (-2) (-1) (0) (1) (2) (3) Personnel compétent Agences bien situées Bon travail 6

a.4) Question avec réponses à cocher Ex. : Quel moyen de transport avez-vous utilisé hier? Voiture Vélo Autobus Tram Métro Train Avion Autre N.B.) On peut dans ce cas cocher toutes les cases pertinentes. 7

a.5) Question avec classement Il s agit ici de donner un certain nombre de propositions et de demander aux interrogés de les classer par ordre de préférence. Ex. : Voici une liste de façons de préparer un examen de première année d université. Vous êtes invités à les classer par ordre d efficacité en écrivant 1 dans la case située à côté de la méthode que vous jugez la plus efficace, puis 2 pour celle que vous jugez la plus efficace en deuxième lieu et ainsi de suite. Etudier dans le livre de référence Etudier dans ses notes prises au cours Etudier dans les notes d un autre étudiant Consulter un ou plusieurs ouvrages à la bibliothèque Prendre un professeur particulier Chercher et résoudre les questions des années précédentes Etudier un seul chapitre et compter sur la chance N.B.) On peut ne demander d indiquer que les 3 ou 4 premières méthodes choisies. 8

b) Avantages b.1) Pour l enquêté : Facile à répondre, souvent rapide Plus anonyme b.2) Pour l enquêteur : Facilité de dépouillement, de codage et d analyse Moins coûteux Réponses plus consistantes Peuvent servir de questions filtres Ex. : Possédez-vous un ordinateur? Oui Non Si OUI : quand l avez-vous acheté? Cette année L an passé Il y a deux ans Il y a trois ans Il y a quatre ans ou plus Si NON : pensez-vous en acheter prochainement? Oui Non 9

c) Inconvénients Risque de trop simplifier un problème. Peut susciter une réponse non naturelle. Peut engendrer une réponse en l absence de connaissance ou d opinion. Peut engendrer une réponse valorisante. Les modalités proposées peuvent amener des non-réponses (liste non exhaustive, question délicate,... ) 4) Questions semi-ouvertes (ou semi-fermées) Elles comportent des réponses proposées et offrent la possibilité d ajouter des réponses libres. Ex. : Pourquoi suivez-vous cet enseignement? Parce qu il m est imposé dans un programme de cours Parce qu il constitue un préalable à d autres enseignements que je souhaite suivre Parce que le sujet m intéresse Parce qu il me permet d améliorer une formation Parce qu il me permettra d avoir une promotion dans ma profession Autres raisons : 1..................................... 2..................................... 3..................................... 10

Caractéristiques : Utiles quand on ne maîtrise qu une partie du champ des réponses possibles. Plus faciles à manipuler que les questions ouvertes. Permet de diminuer les non-réponses pour absence d exhaustivité. 5) Formulation des questions Il est bon d anticiper les possibilités de non-réponses. En particulier, il faut prévoir, explicitement ou non, la possibilité de dire je ne sais pas, je suis sans opinion ou je refuse de répondre. Attention cependant à la tentation de se réfugier dans ces rubriques. Le choix des mots utilisés dans une question et sa formulation sont importants. 11

11.1.5 Formulation des questions L objectif d une question est d obtenir une réponse traduisant exactement ou le plus fidèlement possible une réalité. Il existe quelques consignes générales à respecter : Une question ne doit contenir qu une et une seule idée. Elle doit être simple (utiliser des mots simples du langage courant parlé). Elle doit être claire et précise (choisir des mots qui ont une seule signification et qui ne peuvent être mal interprétés par l enquêté). Elle doit être courte et directe (craindre les négations et surtout ne pas utiliser de doubles négations). Elle doit être lue (ou entendue) facilement. Elle ne doit pas suggérer une réponse particulière. Elle ne doit pas comporter d éléments d émotivité. Les questions ne doivent pas - dans la mesure du possible - contribuer à la production de non-réponses (manque d exhaustivité, questions délicates,... ). 12

11.1.6 Agencement du questionnaire a) Introduction et demande de collaboration Transparence de l origine de l enquête et des objectifs. b) Renseignements d identification Nom, adresse, sexe,... c) Premières questions Questions générales et simples, faciles à répondre. Il ne faut pas rebuter la personne interrogée et lui faire renoncer à continuer. d) Enchaînement des questions 1) Rassembler les questions par thème. 2) Les premières questions d un thème doivent être suffisamment larges pour que l on soit certain que la population visée soit incluse dans ce premier ensemble. Ensuite, par une série de questions plus précises, on définit une partition de ce dernier et on délimite précisément la cible. 3) Intercaler entre les questions difficiles des questions plus faciles, dites questions de repos. 4) Veiller à la cohérence, aux liaisons entre thèmes, aux redondances, aux contrôles. 5) Etre attentif à la longueur du questionnaire. 13

11.1.7 Les erreurs induites par le questionnaire Nous considérons ici à la fois les erreurs réelles et les effets impliquant des réponses incorrectes, biaisées. a) Erreurs dues au questionnaire 1) Questions fermées avec liste de réponses non exhaustive. 2) Questions incompréhensibles. 3) Questions suggérant des réponses. Ex. : Que préférez-vous de ces deux éventualités? Que Monsieur X soit nommé président. Que la guerre civile éclate. 4) Effet de halo : influence d une question sur la question suivante. Ex. : Pensez-vous que la grande criminalité soit en progression? Etes-vous favorable au rétablissement de la peine de mort? 5) Biais de réponse sur liste : l ordre de présentation des réponses à une question fermée a un effet sur les réponses. b) Erreurs dues à l enquêté Biais d acquiescement : Tendance à répondre oui pour ne pas contrarier l interlocuteur, ou d accord pour ne pas avoir à discuter Désir d impressionner (réponse valorisante) Crainte d être mal jugé Désir de se conformer à la norme sociale Refus d être impliqué 14

Gêne pour répondre Défaillances de la mémoire Refus de répondre Désir de saboter l enquête... N.B.) Pour mieux apprécier la proportion de personnes qui possèdent une caractéristique délicate, c est-à-dire telle que certaines d entre elles n osent pas (ou ne veulent pas) affirmer au grand jour qu elles possèdent cette caractéristique, on peut recourir à une méthode de réponses aléatoires. 15

11.2 LA COLLECTE DES DONNEES Après avoir défini la population pour laquelle on a besoin d informations et identifié ses unités, il faut définir une technique de collecte des données en tenant compte des coûts, des délais et de l existence ou non d une base de sondage. L étape de la collecte des données est une étape très importante, caractérisée par : - elle est souvent la plus coûteuse - elle prend beaucoup de temps - elle mobilise de grandes ressources humaines et matérielles - elle affecte directement la qualité des données 11.2.1 Modes de collecte les plus courants a) Auto-dénombrement L information requise est fournie par le répondant qui complète lui-même le questionnaire. Avantages : + Bonne couverture + Coût moins élevé + Meilleure confidentialité + Plus de temps pour répondre (si nécessaire) 16

Désavantages : Taux de réponse faible Impersonnel Pas indiqué pour les analphabètes ou quasi-illettrés Modes de livraison : - mise à la poste / retour par la poste (fax) - livraison par une personne / retour par la poste (fax) - livraison par une personne / reprise par une personne b) Entrevue personnelle L information requise est obtenue par une visite personnelle au lieu de résidence (enquête sociale) ou au lieu de travail (enquête entreprises). Avantages : + Taux de réponse élevé + Contact personnel avec le répondant + Permet de faire des observations + Permet la prise de mesures directes Désavantages : Coût élevé Formation des enquêteurs Déplacement des enquêteurs 17

c) Entrevue téléphonique L information requise est obtenue par un contact téléphonique avec le répondant. Avantages : + Permet un contact direct + Moins coûteuse et plus rapide qu une entrevue personnelle + Compromis entre une visite et la poste + Centralisée Désavantages : Pas d informations visuelles Problème éventuel de couverture de la population (toutes les unités de la population sont-elles contactables par téléphone?... ) Formation des enquêteurs Confidentialité Taux de réponse inférieur à l entrevue personnelle La composition d un numéro téléphonique peut aboutir à : - une résidence - une entreprise - une institution - une cabine téléphonique - un numéro hors-service - un problème technique 18

- un signal occupé - une sonnerie sans réponse Taux de succès : pourcentage de numéros de téléphone composés faisant partie de la population cible L échantillon de numéros de téléphone peut être obtenu de différentes manières : 1) à partir de l annuaire téléphonique Avantages : + Base de sondage facile d accès + Taux de succès très élevé Désavantages : Peut demander beaucoup de temps (pour une enquête nationale par exemple) Numéros non publiés n ont aucune chance d être sélectionnés 2) par génération (composition) aléatoire de numéros de téléphone Permet de joindre des numéros confidentiels et de nouveaux numéros d) Mode mixte de collecte Consiste à utiliser plusieurs méthodes de collecte. Ex. : Entrevue personnelle et téléphonique Entrevue personnelle et auto-dénombrement (recensement de la population) 19

11.2.2 Facteurs influençant le choix d une méthode de collecte - Objectifs de l enquête - Disponibilité des bases de sondage - Caractéristiques de la population cible - Complexité des concepts - Nature des questions - Qualité des données requise (taux de non-réponse) - Coût - Echéancier - Ressources disponibles (facilité d exploitation) Tableau comparatif des principales méthodes de collecte : Entrevue Autodénombrement poste/poste personnelle téléphonique coût élevé moyen faible délais moyens courts longs taux de élevé moyen à faible (très) réponse élevé 20

11.2.3 Travail à faire durant la collecte Identifier les membres de l échantillon Dépistage des unités de l échantillon : - nécessaire pour suivre les unités qui déménagent, changent de nom, etc. - coûteux mais requis pour la longitudinalité - différencie les non-répondants des unités hors-champ Appliquer les procédures de collecte et de dépouillement Contrôler la collecte : - rapidité des retours - rappels si nécessaire Vérification des réponses 21

11.2.4 Mesures à mettre en oeuvre pour améliorer le taux de réponse a) A l étape de la conception Choisir une bonne méthode de collecte Anticiper le taux de non-réponse Tester les questions Avoir un bon questionnaire Avoir une bonne base de sondage Lettres d information sur l enquête ou rapports sur les résultats de l enquête (à la suite de l enquête) b) A l étape de la collecte Etablir un bon contact avec le répondant Susciter l intérêt du répondant Bien former les intervieweurs Superviser adéquatement le déroulement de la collecte Argent ou cadeaux 22

11.3 SOURCES D ERREUR DANS UNE ENQUÊTE Il existe, dans une enquête, de nombreuses sources d erreur. Les principales sont l erreur de couverture l erreur due à la non-réponse l erreur d échantillonnage l erreur de mesure 11.3.1 Erreur de couverture Elle est due au fait que certains individus dans la population ont une probabilité nulle de figurer dans l échantillon. La population définie par la base de sondage ne coïncide pas avec la population que l on désire réellement étudier. Ex. : usage de l annuaire téléphonique qui ne contient pas la liste des numéros privés Ex. : sous-dénombrement, sur-dénombrement ou doubles comptes ; information incorrecte dans la base de sondage (classification ou adresses postales désuètes ou fausses,... ) 23

11.3.2 Erreur due à la non-réponse Elle est présente si l on ne peut pas réaliser l enquête auprès de tous les individus de l échantillon qui a été constitué. Causes : refus, non-contact, inaptitude, invalidité de la réponse, destruction des documents,... Il faut distinguer 2 catégories de non-réponses : a) les non-réponses partielles : non-réponses à certaines questions du questionnaire. Elles peuvent être dues à - un refus de répondre - une ignorance ou une incompréhension - une question sautée par l enquêteur - des réponses supprimées parce qu incohérentes, lors de la phase de vérification b) les non-réponses intégrales : non-réponses à l entièreté de l enquête. Elles peuvent être dues à - un refus de répondre - une absence lors du passage de l enquêteur - une incapacité à répondre (langue,... ) - une incapacité à retracer une unité qui a déménagé - une perte du questionnaire 24

Le traitement des non-réponses intégrales se pose différemment selon que l on se situe : - dans une méthode empirique (méthode des quotas) où l on ne possède pas d information, en général, sur les non-répondants ; - dans une méthode aléatoire où l on connaît le nombre et, parfois, les causes des non-réponses ; - dans un panel où on a beaucoup d informations sur les nonrépondants. De manière spécifique pour les panels, on a aussi a) la non-réponse de vague : non-réponse intégrale qui se produit à une ou plusieurs vagues, mais pas de façon permanente. Elle crée des trous dans la série de vagues. Causes possibles : - impossibilité de répondre pour une vague spécifique (données non disponibles,... ) - absence temporaire b) l érosion (ou attrition) : réduction de la taille du panel causée par la non-réponse intégrale chronique. Causes possibles : - augmentation du taux de non-réponse (refus catégoriques,... ) - difficulté à retracer les unités longitudinales (changements d adresse, fusion d entreprises,... ) - pas de rotation au sein de l échantillon (haut fardeau de réponse au cours du temps pour l enquêté,... ) 25

L érosion peut souvent être réduite en utilisant des incitatifs (cadeaux,... ) et en utilisant de la rotation au sein de l échantillon. L érosion doit être traitée avec soin à cause de biais potentiels si la non-réponse est non-ignorable (cf. ci-dessous). Les unités non répondantes sont souvent celles qui sont d intérêt. On peut également classifier les non-réponses en a) ignorables : le fait qu une personne réponde ou non à une question n est pas relié à la réponse à cette question. Ex. : On ne renvoie pas le questionnaire simplement par paresse. b) non ignorables : tend à biaiser les résultats de l enquête. Ex. : Enquête sur la satisfaction des employés où seuls les employés non satisfaits renvoient le questionnaire. Effet des réponses manquantes : elles créent un biais qui dépend - du taux de non-réponse - de l écart entre les comportements des répondants et des nonrépondants en ce qui concerne la variable étudiée (cf. non-réponse non ignorable). 26

Redressement pour non-réponses a) Relance des non-répondants (méthode de Hansen) Parmi les n individus sélectionnés pour l échantillon, n 1 ont répondu au questionnaire et n 2 n ont pas répondu. Parmi ces n 2 non-répondants, on tire de façon équiprobable et sans remise un sous-échantillon s 2 de taille n 2 = λn 2 (0 < λ < 1), et on s arrange pour obtenir les réponses des n 2 individus réenquêtés. L estimateur de Hansen est où y H = n 1 n y 1 + n 2 n y 2 y aurait été la moyenne de l échantillon initial si celui-ci avait été complet y 1 est la moyenne parmi les n 1 répondants (avant la relance) y 2 est la moyenne qui résulterait des observations auprès des n 2 non-répondants ; y 2 est inconnue mais peut être approchée par y 2, la moyenne parmi les n 2 individus qui ont répondu suite à la relance. L étude des propriétés de y H prend en compte le fait que la procédure repose sur 2 niveaux d aléas : 1) n est fixé mais aléas sur le nombre n 2 de non-répondants et sur les individus qui seront non-répondants ; 2) n 2 est connu au moment de la relance mais aléas sur les n 2 individus qui seront sélectionnés lors de cette relance. On montre que E(y H ) = µ (non biais) 27

N.B.) On peut aussi étudier le cas de relances successives. b) Méthodes de redressement sur critère Ces méthodes permettent de réduire une partie du biais dû aux nonréponses en corrigeant les estimations de leurs déformations dues à des sous-représentations ou sur-représentations de certaines classes (strates) de la population. Les données de l échantillon observé sont triées a posteriori selon les H modalités d un critère dont on connaît la répartition dans la population : w h = N h (h=1,...,h) N Ex. : critère=sexe - On connaît la proportion d hommes et de femmes dans la population. Pour chaque strate h, on note : n 1h : nombre de réponses obtenues dans la strate h y 1h : moyenne parmi les réponses obtenues dans la strate h Hypothèse : le critère de stratification n est pas corrélé avec la variable Réponse - Non réponse. Dans ce cas, on prend comme estimateur redressé (même principe que la post-stratification) : On montre que y REDR = H w h y 1h h=1 E(y REDR ) = µ (non biais) 28

Remarques : Dans ce type de méthodes, on estime, classe par classe, le comportement des non-répondants grâce à celui des répondants. On peut généraliser cette méthode au cas de plusieurs critères de pondération par l utilisation d algorithmes dits de redressement sur critères multiples. Imputation : forme de traitement de la non-réponse - Souvent employée dans les enquêtes à défaut de pouvoir recontacter les non-répondants. - On impute une valeur plausible à une donnée manquante. - Evaluer diverses méthodes d imputation en se basant sur des données réelles. - Analyser les répercussions de l imputation sur les estimations finales. a) Méthodes d imputation pour la non-réponse intégrale Consiste à assigner une valeur plausible à l ensemble des variables de la personne non répondante. Il existe plusieurs méthodes d imputation : le choix dépend du nombre de contraintes que l on désire associer à la valeur imputée de sorte qu elle reflète le mieux possible la vraie valeur. a.1) Imputation par la moyenne - On remplace la valeur manquante par une moyenne calculée à partir des unités répondantes. 29

- Ne peut pas être appliquée dans le cas de variables qualitatives. - Variante : a.2) Hot deck * Diviser préalablement l ensemble des répondants en classes d imputation pour ensuite calculer les moyennes à l intérieur de celles-ci. * On doit savoir à quelle classe d imputation appartient chaque unité non répondante (difficile si l information est tirée de l entrevue elle-même). - Consiste à tirer au hasard un des répondants de l échantillon que l on appelle alors un donneur ; les valeurs des variables du donneur sont ensuite assignées à un non-répondant donné. - Particulièrement utile parce qu elle assigne automatiquement aux non-répondants des valeurs cohérentes provenant directement des répondants. - Fonctionne autant pour les variables quantitatives que qualitatives. - Peut s employer à l intérieur des classes d imputation. a.3) Cold deck Elle diffère du hot deck par le fait qu elle choisit le donneur au sein d une source de données externe (Ex. : données administratives ou enquêtes précédentes) 30

a.4) Imputation multiple - Consiste à imputer, pour un non-répondant donné, différentes valeurs ; les estimations sont alors calculées en utilisant un ou plusieurs des ensembles de données produits. Ex. : plusieurs imputations par hot deck - Permet de mesurer la variabilité des estimations introduite par l utilisation de valeurs imputées. - Peu employée en pratique, principalement à cause de la multiplication des ensembles de données. b) Méthodes d imputation pour la non-réponse partielle Consiste à assigner une valeur plausible aux variables où la valeur est manquante, sans modifier les variables qui possèdent déjà des valeurs. Les méthodes d imputation pour le traitement de la non-réponse intégrale (imputation par la moyenne, hot deck, cold deck, imputation multiple) peuvent être utilisées. Problèmes : Ces méthodes ne tiennent pas compte de la valeur des variables où il y a eu réponse ; elles peuvent ainsi détruire les relations entre les variables (structure des données). b.1) Imputation déterministe (ou imputation par déduction) S applique lorsque l on peut déterminer sans aucune ambiguïté la valeur des variables manquantes. 31

b.2) Imputation par le plus proche voisin - Le donneur est choisi en prenant celui qui se trouve le plus proche selon une distance calculée en utilisant une ou plusieurs des variables connues. - Préserve assez bien la structure des données puisque l on choisit le donneur ressemblant le plus à l unité pour laquelle une valeur doit être imputée. b.3) Imputation par modélisation On estime la valeur de la variable manquante au moyen d un modèle qui utilise les variables connues comme variables auxiliaires explicatives ; pour estimer les valeurs des paramètres du modèle, on utilise les données disponibles de l ensemble des répondants. (Ex. : modèles linéaires, modèles logit, probit,... ) Important!! Identifier dans les ensembles de données les variables où il y a eu imputation afin de bien tenir compte du fait qu une partie des valeurs proviennent non pas des unités interrogées mais d une assignation par imputation. 32

c) Imputation pour les panels Pour les panels, les méthodes d imputation doivent tenir compte des données des vagues précédentes et suivantes, en plus de la vague courante. Utiliser seulement les données de la vague courante peut créer des changements (ou transitions) artificiels. Utiliser les données des vagues précédentes et suivantes seulement peut sous-représenter les changements. Méthodes d imputation utilisables : - imputation par le plus proche voisin (imputation par donneur) en utilisant les données des vagues précédentes, suivantes et actuelle pour aider à trouver le donneur ; - imputation par modélisation en utilisant des variables auxiliaires provenant des vagues précédentes, suivantes et actuelle. Exemple : Valeurs pour i Vague 1 Vague 2 Vague 3 Ventes 10 000? 11 000 Profits 15 000 30 000 16 000 Moyenne 25 000 50 000 30 000 des ventes - Imputation par la moyenne : ventes imputées = 50 000 (pas plausible si comparées aux vagues 1 et 3) 33

- Imputation historique : ventes imputées = 10 500 (pas plausible si comparées à la moyenne des ventes pour la vague 2 et également si les profits sont corrélés avec les ventes) - Solutions utilisant les données des vagues précédentes, suivantes et actuelle : a) Modèle 1 : Ventes = α + β(moyenne des ventes) + erreur = 5 000 + 0.2(moyenne des ventes) + erreur (α et β sont estimés sur base des vagues précédentes et suivantes) ventes imputées = 5 000 + 0.2(50 000) = 15 000 b) Modèle 2 : Ventes = α + β(profits) + erreur = -5 000 + profits + erreur (α et β sont estimés sur base des vagues précédentes et suivantes) ventes imputées = -5 000 + 30 000 = 25 000 34

11.3.3 Erreur d échantillonnage Cette erreur a été examinée dans les chapitres précédents. 11.3.4 Erreur de mesure Elle provient des inexactitudes des réponses enregistrées. Les principales causes de cette erreur sont : a) l effet induit par l enquêteur sur les réponses des enquêtés. b) l erreur due aux répondants : incapacité de répondre aux questions (défaillances de la mémoire, oublis,... ), manque de sincérité (crainte des ennuis, désir d impressionner favorablement, désir de valorisation, réponses pour ne pas paraître ignorant, gêne pour répondre, réponses conformes au modèle social,... ),... c) l erreur due aux défauts du questionnaire ou de l instrument de mesure. Erreurs dans la conception du questionnaire : - Difficultés de vocabulaire - Incompréhension ou mauvaise compréhension du sens des questions - Questionnaire trop long Ce à quoi il faut faire attention : - Les concepts utilisés doivent satisfaire les objectifs de l enquête et permettre d obtenir des réponses claires et cohérentes. - Si le concept est déjà employé par une autre enquête, on tâche alors d utiliser le même concept, la même désignation et la même définition. 35

Remarques : - Importance d une étude qualitative préalable (entretiens en profondeur,... ) pour connaître le vocabulaire, les thèmes employés par les interviewés. - Importance du pré-test du questionnaire. - Une fois l enquête effectuée, il est parfois possible de valider les concepts et les questions par des entrevues détaillées sur le terrain auprès d un échantillon de répondants ; on vérifie alors si le répondant a bien compris le questionnaire et a bien fourni une information exacte (étude cognitive). d) l erreur de saisie (transcription imprécise des réponses,... ) et de traitement. Cette erreur est liée à la manipulation des questionnaires et à l usage de mauvaises techniques de traitement. 36