PRISE EN COMPTE D UN PLAN DE SONDAGE COMPLEXE DANS L EVALUATION DE LA PAUVRETE AU CAMEROUN



Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Chapitre 3 : INFERENCE

Théorie des sondages : cours 5

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Observatoire Economique et Statistique d Afrique Subsaharienne

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Les indices à surplus constant

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

TABLE DES MATIERES. C Exercices complémentaires 42

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La nouvelle planification de l échantillonnage

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

La classification automatique de données quantitatives

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

REPUBLIQUE DU CAMEROUN

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Résumé des communications des Intervenants

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Probabilités III Introduction à l évaluation d options

Introduction à l approche bootstrap

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

DÉCISIONS À PRENDRE AVANT DE COMMENCER

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Estimation et tests statistiques, TD 5. Solutions

Table des matières. I Mise à niveau 11. Préface

Cours de Tests paramétriques

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Filtrage stochastique non linéaire par la théorie de représentation des martingales

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Correction du Baccalauréat S Amérique du Nord mai 2007

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Principe de symétrisation pour la construction d un test adaptatif

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Analyse de la variance Comparaison de plusieurs moyennes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

4. Résultats et discussion

Chapitre 3. Les distributions à deux variables

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Enquête sur les investissements dans l industrie

Probabilités Loi binomiale Exercices corrigés

22 Nous Reconnaissons la force du pardon

Loi binomiale Lois normales

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

23. Interprétation clinique des mesures de l effet traitement

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Programmes des classes préparatoires aux Grandes Ecoles

Misereor a-t-elle besoin «d études de base»? Document d information à l intention des partenaires

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

PROBABILITES ET STATISTIQUE I&II

PRIME D UNE OPTION D ACHAT OU DE VENTE

Soutenance de stage Laboratoire des Signaux et Systèmes

3 Approximation de solutions d équations

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

MÉTHODOLOGIE PROJET SYSTÈME D INFORMATION DÉCISIONNEL BI - BUSINESS INTELLIGENCE. En résumé :

1. Les types d enquêtes

Etude sur l équipement des TPE / PME. en complémentaire santé

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

Définitions. Définitions sur le logement

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Le WACC est-il le coût du capital?

Chapitre 1 : Évolution COURS

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

INF6304 Interfaces Intelligentes

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Sécurité et insécurité alimentaire chez les Québécois : une analyse de la situation en lien avec leurs habitudes alimentaires

Statistiques Descriptives à une dimension

Assurance maladie publique et «Opting out» - Réflexions théoriques

Principe d un test statistique

Introduction à l étude des Corps Finis

Les principales méthodes d évaluation

Le théorème des deux fonds et la gestion indicielle

Evaluation générale de la qualité des données par âge et sexe

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Probabilités conditionnelles Loi binomiale

Transcription:

PRISE EN COMPTE D UN PLAN DE SONDAGE COMPLEXE DANS L EVALUATION DE LA PAUVRETE AU CAMEROUN Mémoire présenté et soutenu en vue de l obtention d un Master de Statistique Appliquée Par: EVINA KUISU Christine Michèle Etudiante en Master II de Statistique Appliquée Sous la direction de: Encadreur académique: Encadreur professionnel: Pr. Henri GWET Ing. Sévérin TCHOMTHE Chef de Département de Chef de cellule de la Mathématiques et Sciences Recherche Appliquée à Physiques à l ENSP de Yaoundé l INS Responsable du Master de Statistique Appliquée Octobre 2012

DÉDICACES i Dédicaces Qu il me soit permis de dédier ce travail à ma très regrettée mère bien aimée Mme KUISU née YIMDJO Pauline. «Maman, de ton vivant tu as été toujours là pour moi. Tu n as jamais cessé de te battre pour que j aie un avenir meilleur. Je te remercie pour les conseils et le soutien immense que tu m as apporté, et surtout pour l amour inconditionnel dont tu m as comblée. J espère que tu verras en ce mémoire le fruit des nombreux sacrifices que tu n as cessé de faire pour moi.»

REMERCIEMENTS ii Remerciements Je remercie Dieu tout puissant pour sa protection incessante ainsi que pour l intelligence, la force morale et physique qu il m a accordé pour pouvoir réaliser ce travail. Ce travail n aurait pas pu être concrétisé sans l appui et le soutien de nombreuses personnes que je tiens à remercier, notamment : Pr Henri GWET, Chef de Département à l Ecole Nationale Supérieure Polytechnique pour sa contribution à notre formation, sa supervision dans nos travaux de mémoire et pour ses conseils. Dr NDONG NGUEMA pour l examen préliminaire de ce travail, son encadrement et son dévouement tout au long de notre formation. Dr Jacques TAGOUDJEU pour sa disponibilité et son apport moral permanent. Dr TOUSSILE pour sa disponibilité, ses conseils. Dr Joseph TADJUIDJE, Dr Nicolas VERZELEN, Dr Jules TEWA, Dr Bressaud pour leurs enseignements et leurs conseils. Je tiens aussi à remercier mon encadreur Mr Séverin TCHOMTHE, Chef de cellule de la Recherche Appliquée de l Institut National de la Statistique pour m avoir suivi tout au long de mon stage à l Institut National de la Statistique. Je pense aussi à : Mon père et mentor Mr KAMDEM Albert pour son soutien et ses encouragements incessants, «Papa, tu m as toujours enseigné le goût du travail. Tu m as orienté durant mon parcours scolaire. Tu t es battu sans relâche pour m offrir un futur meilleur. Malgré les tempêtes, tu n as jamais cessé de croire en moi et, pour cela, je t en serai éternellement reconnaissante.» Mon père Mr KUISU Elias, «Papa, tu as toujours été là pour moi, tu n as jamais cessé de m apporter ton soutien dans chacune des ambitions que j ai eue. Merci pour ton amour et ton soutien inconditionnels.» Mes oncles TCHUENGUIA Narcisse et TOUNGSI Jean-François, «Vous n avez jamais cessé de me donner des conseils. Merci pour le soutien que vous m avez apporté dans chacun des projets que j ai eu à réaliser et pour le goût de l effort que vous avez fait naître en moi.»

REMERCIEMENTS iii Ma mère Mme KAMDEM Agnès, «Maman, ton amour, tes efforts et ton soutien ont contribué à ceci. Je te dis grandement MERCI.» Mes grands-parents, mes oncles et tantes, mes frères et soeurs pour leurs encouragements et leurs conseils permanents. Mes camarades et amis de promotion, pour leurs soutiens, leurs esprits d équipe et de solidarité face aux expériences que nous avons partagées tout au long de notre formation. Je remercie particulièrement Olivier WADJORE. A tous ceux que je n ai pas mentionnés dans ce mémoire et qui, de près ou de loin, ont contribué à l élaboration de ce mémoire. Voyez en ce mémoire un des fruits de toute l aide que vous n avez jamais cessé de m apporter.

TABLE DES MATIÈRES iv Table des matières Dédicaces Remerciements Abréviations Lexique des termes techniques Résumé Abstract Résumé Exécutif i ii viii ix xi xii xiii Introduction générale 1 I Notions de sondage et indicateurs de pauvreté FGT 3 1 Généralités sur la théorie des sondages et estimation de la précision 4 1.1 Généralités sur la théorie des sondages..................... 4 1.1.1 Introduction................................ 4 1.1.2 Formalisation et vocabulaire de base.................. 6 1.1.3 Loi et intervalle de confiance d un estimateur.............. 8 1.1.4 Bases de sondage............................. 9 1.1.5 Différents types d erreurs rencontrés dans les enquêtes......... 10 1.2 Les plans de sondage probabilistes et calcul de la précision d un estimateur. 11 1.2.1 Introduction................................ 11 1.2.2 Probabilités d inclusion.......................... 12 1.2.3 Choix des probabilités d inclusion et P-estimation........... 13 1.2.4 Calcul et estimation de la variance................... 14

TABLE DES MATIÈRES v 1.2.5 Méthodes de calcul de précision..................... 15 1.2.6 Sondage aléatoire simple......................... 16 1.2.7 Sondage stratifié............................. 17 1.2.8 Sondage à probabilités inégales..................... 18 1.2.9 Sondage à plusieurs dégrés :Cas du tirage à deux dégrés........ 22 2 Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 26 2.1 Généralités sur les indicateurs de pauvreté FGT................ 26 2.1.1 Notion de pauvreté............................ 26 2.1.2 Indicateurs de pauvreté monétaire.................... 27 2.2 Adaptation des indicateurs FGT au plan de sondage utilisé par ECAM 3.. 28 2.2.1 Présentation du plan de sondage d ECAM 3.............. 28 2.2.2 Estimations des indicateurs de pauvreté FGT et calcul de la préscision 30 2.3 Adaptation des indicateurs FGT au plan de sondage aléatoire simple.... 34 2.3.1 Propriétés de l estimateur Îsas α sous le plan d un sondage aléatoire simple 35 2.3.2 Propriétés de l estimateur Îsas α sous le plan de sondage utilisé par ECAM 3.................................. 36 II Applications numériques 38 3 Présentation et Analyse descriptive des données 39 3.1 Présentation des données............................. 39 3.1.1 Origine des données............................ 39 3.1.2 Présentation des variables........................ 40 3.2 Analyse descriptive des données......................... 42 3.2.1 Analyse univariée............................. 42 3.2.2 Analyse bivariée.............................. 46 4 Applications aux données d ECAM 3 60 4.1 Application de l analyse pour le plan de sondage aléatoire simple....... 60 4.2 Application de l analyse pour le plan de sondage utilisé par ECAM 3.... 62 4.3 Comparaison des précisions........................... 65 Conclusion 67 Annexes 69 Bibliographie et liens internet 97

TABLE DES FIGURES vi Table des figures 1.1 Bootstrap général pour un plan à probabilités inégales. Chauvet 2007 [6]. 21 1.2 Bootstrap général pour un plan à deux degrés. Chauvet 2007 [6]...... 25 3.1 Boîte à moustaches de DEPUC......................... 43 3.2 Distribution empirique de DEPUC....................... 44 3.3 Distribution empirique par strate de DEPUC dans la région de l Adamaoua 47 3.4 Distribution empirique par strate de DEPUC dans la région du Centre... 48 3.5 Distribution empirique de DEPUC dans la ville de Douala.......... 49 3.6 Distribution empirique par strate de DEPUC dans la région de l Est..... 50 3.7 Distribution empirique par strate de DEPUC dans la région de l Extrême-Nord 51 3.8 Distribution empirique par strate de DEPUC dans la région du littoral... 52 3.9 Distribution empirique par strate de DEPUC dans la région du Nord-Ouest 53 3.10 Distribution empirique par strate de DEPUC dans la région du Nord.... 54 3.11 Distribution empirique par strate de DEPUC dans la région de l Ouest... 55 3.12 Distribution empirique par strate de DEPUC dans la région du Sud-Ouest. 56 3.13 Distribution empirique par strate de DEPUC dans la région du Sud..... 57 3.14 Distribution empirique de DEPUC dans la ville de Yaoundé......... 58 4.1 Distribution empirique des estimateurs Îsas α des I α............... 62 4.2 Distribution empirique des estimateurs Îα des I α................ 64

LISTE DES TABLEAUX vii Liste des tableaux 1 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. xiv 3.1 Sections du questionnaire utilisées, extraites de l ECAM 3.......... 40 3.2 Variables qualitatives............................... 41 3.3 Variables quantitatives.............................. 42 3.4 Résumé numérique des variables quantitatives................. 43 3.5 Résumé numérique des variables qualitatives.................. 45 3.6 Ecart-type et moyenne de DEPUC dans chaque strate............ 59 4.1 Estimations des indicateurs de pauvreté FGT Îsas α sous le plan de sondage utilisé par ECAM 3................................ 60 4.2 Test de normalité des estimateurs Îsas α des indicateurs FGT.......... 61 4.3 Intervalles de confiance des indicateurs FGT................... 61 4.4 Estimations des indicateurs de pauvreté FGT Îα, et de leurs précisions dans le cas du plan de sondage utilisé par ECAM3.................. 63 4.5 Test de normalité des estimateurs Îα des indicateurs FGT........... 64 4.6 Intervalles de confiance des indicateurs FGT................... 65 4.7 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. 66 4.8 Echelle d équivalence-adulte........................... 89 4.9 Répartition de l échantillon des ZD et des ménages par région et strate... 90 4.10 Structure du questionnaire de l enquête ECAM3................ 91

ABRÉVIATIONS viii Abréviations BUCREP ECAM 3 EQM INS RGPH ZD : Bureau Central des Recensements et des Etudes de Population : Troisième Enquête Camerounaise Auprès des Ménages : Erreur Quadratique Moyenne : Institut National de la Statistique : Recensement Général de la Population et de l Habitat : Zone de dénombrement

LEXIQUE DES TERMES TECHNIQUES ix Lexique des termes techniques Agrégation : C est une procédure mathématique permettant de regrouper les réponses collectées auprès des individus enquêtés. Champ d enquête : Population sur laquelle s appliquent les résultats issus de l enquête. Population sur laquelle on réalise l inférence. Enquête : C est une démarche qui consiste à collecter et à traiter de l information pour mieux connaître la population au travers d un agrégat. Estimateur d un indicateur : C est une expression mathématique qui permet, lorsque les données ont été collectées, de proposer une valeur pour l indicateur qui nous intéresse et qui est défini sur l ensemble de la population. Identifiant : Information de nature quelconque permettant de repérer précisément et sans aucune ambiguïté un individu dans une population donnée. Indicateur : Information ou un outil de mesure ou encore un critère d appréciation qui récapitule au mieux une situation. Il renseigne sur une situation ou un événement complexe. C est un agrégat, c est-à-dire une variable issue d une agrégation de données. Information auxiliaire : Variable qualitative ou quantitative autre que la variable d intêret et autre que les variables nécéssaires et suffisantes à l indentification des individus de la population. Ménage ordinaire : désigne l ensemble des personnes qui partagent la même résidence principale, que ces personnes aient des liens de parenté ou non. Plan de sondage : C est la donnée d une méthode de sélection de l échantillon et d une formulation de l estimateur. Précision d un estimateur : C est une formule mathématique permettant d évaluer la qualité d un estimateur. Recensement : C est une démarche qui consiste à collecter et à traiter de l information auprès de tous les individus d une population donnée. Sondage : C est une démarche qui consiste à collecter et à traiter de l information auprès des individus d un échantillon représentatif d une population donnée.

LEXIQUE DES TERMES TECHNIQUES x Unité d échantillonnage : C est celle qu on interroge pour avoir les informations sur l unité d observation. Unité d observation : C est celle sur laquelle on collecte de l information.

RÉSUMÉ xi Résumé Notre étude avait pour objectif principal de faire une analyse critique autour de la construction des indicateurs de pauvreté FGT pour l évaluation de la pauvreté monétaire au Cameroun. Cette étude était motivée par le fait que ces indicateurs sont souvent utilisés en attribuant un même poids à chaque unité statistique échantillonné. Il était question pour nous, d une part, d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3 plan de sondage stratifié à deux degrés et, d autre part, de faire une comparaison des estimations de précisions obtenues. Nous avons utilisé pour cela les techniques d estimation dans les plans de sondage, en particulier celles des plans de sondage probabilistes pour construire les estimateurs de précisions des indicateurs de pauvreté FGT. A cause de la présence des probabilités d inclusion double dans les expressions d estimateurs de précision que nous avons obtenus, nous avons également utilisé la méthode d estimation de variance par Bootstrap dans le cas des plans de sondage pour obtenir des estimations des précisions des indicateurs de pauvreté FGT. Sous l hypothèse que les critères de validité du Bootstrap sont vérifiés, nous avons obtenu le résultat suivant : les estimations des indicateurs de pauvreté FGT établies suivant le plan de sondage utilisé par ECAM 3 sont plus précises que celles établies suivant le plan de sondage aléatoire simple. Mots clés : plan de sondage, indicateurs de pauvreté FGT, estimateurs, précisions, Bootstrap, ECAM 3.

ABSTRACT xii Abstract The principal objective of our study was to carry out a critical analysis around the construction of FGT poverty indicators for the evaluation of poverty in Cameroon. This study was motivated by the fact that these indicators are often used by attributing the same weights to each sampled statistical unit. We were interested, on one hand, in evaluating the precisions of FGT poverty indicator estimators following the simple random survey plan and the survey plan used by ECAM 3 two-stage stratified survey plan and, on the other hand, to compare the estimations of the obtained precisions. To do so, we have used estimation techniques in survey plans, in particular, those for probabilistic survey plans to construct the precision estimators of FGT poverty indicators. Due to the presence of double inclusion probabilities in the expressions of precision estimators we have obtained, we have also used the Bootstrap method of estimating variance in the case of survey plans to obtain precision estimators of FGT poverty indicators. Under the hypothesis that the criteria for Bootstrap validation are verified, we have obtained the following result : the FGT poverty indicators estimations established following ECAM 3 survey plan are more precise than those established following the simple random survey plan. key words : sampling design, FGT poverty indicators, estimators, precisions, Bootstrap, ECAM 3.

RÉSUMÉ EXÉCUTIF xiii Résumé Exécutif Problématique En 2007 l INS a réalisé la troisième Enquête Camerounaise Auprès des Ménages ECAM 3 dont le but principal était d actualiser le profil de pauvreté et les différents indicateurs des conditions de vie des ménages établis en 2001 et d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté. Au cours de cette enquête la méthode de tirage de l échantillon utilisé est celle d un sondage stratifié à deux degrés, dont au premier degré a été effectué un tirage à probabilité inégales et au second tirage a été effectué un sondage aléatoire simple. Pour répondre à l un des objectifs spécifiques de cette enquête à savoir : l évaluation de la pauvreté monétaire à partir des indicateurs de pauvreté FGT ; la construction de leurs estimateurs, leurs estimations, et le calcul de leur précision ont été faites sur le principe d un échantillonnage aléatoire simple. De ce fait, le non respect du plan de sondage utilisé par ECAM 3 dans ces analyses constitue une préoccupation sur la qualité des estimations effectuées, ceci suscitant par conséquent une analyse comparative. Données Pour notre étude, les données mises à notre disposition sont issues de la base de données D ECAM 3. Ces données proviennent des informations recueillies sur un échantillon de 11391 ménages. Pour obtenir cet échantillon de ménages, dans chaque région du Cameroun, des strates 32 stratesont été formées notamment :des strates urbaines, seme-urbaines, et rurales. Nous préciserons que Douala et Yaoundé ont eté considérées comme des strates urbaines. Dans chaque strate de chaque région, des ZD ont été tirés et à l issue d un dénombrement dans chaque ZD tiré des ménages ont été tirés soit : 12 ménages par ZD ont été tirés au cours de l enquête proprement dite et 18 ménages par ZD ont été tirés au cours de l enquête légère à Douala et Yaoundé 18 ménages par ZD ont été tirés au cours de l enquête proprement dite et 24 ménages par ZD ont été tirés au cours de l enquête légère dans les autres strates

RÉSUMÉ EXÉCUTIF xiv Méthodologie Pour répondre au problème posé, nous avons utilisé les outils statistiques suivants : les techniques de sondages probabilistes notamment le sondage aléatoire simple, le sondage stratifié, le sondage à probabilités inégales et le sondage à deux degrés pour construire des estimateurs des indicateurs FGT ainsi que leurs précisions premièrement en considérant le plan de sondage utilisé par ECAM 3, et deuxièmement en considérant le plan de sondage aléatoire simple la technique de replication par Bootstrap dans le cadre des sondages pour calculer les précisions des estimateurs des indicateurs de pauvreté FGT obtenues suivant le plan de sondage utilisé par ECAM 3, puis suivant le plan de sondage aléatoire simple. Résultats L application des outils statistiques énoncés précedemment nous ont permit d avoir les résultats suivants : Nous constatons que les estimateurs des indicateurs de pauvreté FGT Tab. 1 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. Indicateurs eqm.boot.sas σ.boot.sadg Deff.sas ρ.sas Deff.sadg ρ.sadg Incidence 1.36e 03 1.3e 03 0.119 1.3e 07 0.108 1.16e 07 de pauvreté Profondeur 4.2e 04 3.85e 04 0.102 1.23e 08 0.086 1.03e 08 de pauvreté Sévérité 1.8e 04 1.6e 04 0.0892 2.38e 09 0.067 1.78e 09 de pauvreté eqm.boot.sas : erreur quadratique moyenne de Îα sas sous le plan de sondage utilisé par ECAM 3, σ.boot.sadg : écart-type de Îα pour le plan de sondage utilisé par ECAM 3, Deff.sas : Effet du plan de sondage pour Îsas α, ρ.sas : Effet de grappe pour Îsas α, Deff.sadg : Effet du plan de sondage pour Îα, ρ.sadg : Effet de grappe pour Îα. obtenus suivant le plan de sondage utilisé par ECAM 3 sont plus précis que ceux obtenus suivant le plan de sondage aléatoire simple. Nous pouvons aussi constater que pour chacun des estimateurs des indicateurs de pauvreté FGT, l effet de plan de sondage est inférieur à 1, ce qui veut dire que le fait de supposer à tort que les données lors d ECAM 3 ont été recueillies suivant un sondage aléatoire simple entraine des sous-estimations des variances des estimateurs des indicateurs de pauvreté FGT. De plus comme un tirage à deux degrés avait été effectué lors d ECAM 3, nous remarquons à travers ce tableau que pour chacun des estimateurs des indicateurs de pauvreté FGT, une estimation de l effet de grappe du premier

RÉSUMÉ EXÉCUTIF xv degré du tirage est négatif. Ce qui signifie que dans chaque ZD echantillonné les ménages sont différents les uns des autres et par conséquent d après la définition de l effet de grappe a permis à l amélioration des précisions calculées dans le plan de sondage utilisé par ECAM 3. Conclusion et recommandations L objectif de notre étude était de faire une analyse critique autour la construction des indicateurs de pauvreté FGT pour l évaluation de la pauvreté monétaire, ceci étant du au fait que ces indicateurs sont souvent utilisés en attribuant un même poids à chaque unité statistique échantillonné. La base de données qui était à notre disposition était issue de la troisième Enquête Camerounaise Auprès des Ménages ECAM 3, réalisée au Cameroun en 2007. Cette enquête avait pour but principal d une part d actualiser le profil de pauvreté à travers certains indicateurs dont les indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984 et d actualiser les différents indicateurs des conditions de vie des ménages établis en 2001 et d autre part d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté. Il était donc question pour nous d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas d un plan de sondage aléatoire simple, ensuite d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas du plan de sondage utilisé par ECAM 3 plan de sondage stratifié à deux degrés et enfin de faire une comparaison des estimations de précisions obtenues dans chacun des deux plans de sondage. Ce qui nous premettrait de savoir s il y a gain ou perte de précision dans l estimation des indicateurs de pauvreté selon qu ils soient construits suivant le principe d un échantillonnage aléatoire simple ou le principe d échantillonnage stratifiée à deux degrés. Les techniques d estimations dans différents plans de sondage, en particulier celles du sondage aléatoire simple, du sondage stratifié, du sondage à probabilités inégales et du sondage à deux degrés, et les méthodes d estimation de variance par Bootstrap dans les plan de sondage à probabilités inégales et de sondage à deux degrés nous ont permis de répondre, à ces questions. Nous avons trouvé que les estimations des indicateurs de pauvreté FGT sont plus précis lorsqu on tient compte du plan de sondage utilisé par ECAM 3 que lorsqu on tient compte du plan de sondage aléatoire simple. Toutefois, nous devons souligner que dans le cas du plan de sondage utilisé par ECAM 3 les estimations de précisions pourrait être améliorées si on prenait soin de mieux élaborer la stratification des régions du Cameroun. En effet nous avons remarqué lors de l analyse descriptive que la qualité de la stratification n était pas bonne à cause d une forte hétérogéneité du point de vue de la dépense de consommation annuelle moyenne des ménages dans chacune des strates. De plus, concernant les méthodes d estimation Bootstrap dans les plans de sondage, il serait judicieux de s interesser aux critères de validité de Bootstrap afin de savoir si les estimations de variance obtenues par Bootstrap sont consistantes. Compte tenu du fait que le temps

RÉSUMÉ EXÉCUTIF xvi imparti ne nous a pas permis d approfondir ces travaux, nous envisageons le faire à l avenir. Nous recommandons à l INS, pour la prochaine ECAM de reconsidérer le choix d une information auxiliaire pour la procédure de stratification et dans chaque strate constituée de faire porter l effort d une augmentation de taille de l échantillon des ZD plutôt que sur la taille de l échantillon des ménages dans chaque ZD. Ceci pour permettre d améliorer la qualité des estimations. Nul ne conteste la multidimensionnalité de la pauvreté. Pauvreté peut rimer avec mauvaise santé, éducation insuffisante, faible revenu, faible dépense des consommations, logement précaire, travail difficile ou non protégé, insécurité alimentaire ou encore rejet des riches. Ainsi nous leur suggérons aussi d envisager une mesure de la pauvreté multidimentionnelle et ce partant d une extension des indicateurs de pauvreté FGT proposée par Alkire et Foster 2007 ; 2009. ce qui permettra de mieux caracteriser le pauvre au Cameroun.

INTRODUCTION GÉNÉRALE 1 Introduction générale Contexte et Problématique Dans l optique de faire une évaluation de la pauvreté monétaire au Cameroun depuis 1996, le Gouvernement camerounais a réalisé, à travers l Institut National de la Statistique INS, trois Enquêtes Camerounaises Auprès des Ménages ECAM. Au cours de ces enquêtes, notamment lors de la troisième Enquête Camerounaise Auprès des Ménages ECAM 3 réalisée en 2007 dont le but principal était d actualiser le profil de pauvreté et les différents indicateurs des conditions de vie des ménages établis en 2001 et d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté, la méthode de tirage de l échantillon utilisée est celle d un sondage stratifié à deux degrés. Cependant, dans le cadre de l évaluation de la pauvreté monétaire, au cours de l analyse des données recueillies à l issue des interviews effectués, la construction des estimateurs d indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984, leurs estimations, et la mesure de leur précision ont été faites sur le principe d un échantillonnage aléatoire simple. Ainsi, le non respect du plan de sondage utilisé par ECAM 3 dans ces analyses constitue une préoccupation sur la qualité des estimations effectuées, ceci suscitant par conséquent une analyse comparative. L intérêt de cette comparaison réside dans le fait que, en général, lorsqu on veut évaluer la pauvreté monétaire en se servant des indicateurs de pauvreté FGT, on attribue un même poids aux unités statitistiques, ceci imposant une expression particulière aux estimateurs de ces indicateurs et qui coïncide avec un estimateur de la moyenne empirique dans le cas d un sondage aléatoire simple. De ce fait, l on aimerait savoir s il y a gain ou perte de précision dans l estimation des indicateurs de pauvreté selon qu ils soient construits suivant le principe d un échantillonnage aléatoire simple ou le principe d un échantillonnage stratifié à deux degrés. Le résultat escompté étant le gain de précision dans les estimations suivant le plan de sondage utilisé par ECAM 3, cette analyse critique permettra donc lors de la prochaine ECAM, de mieux considérer le choix de la procédure d analyse des indicateurs de pauvreté. Dans la présente étude, notre travail consistera donc à faire une analyse critique autour de la construction des indicateurs de pauvreté. Sur la base des estimations de leur précision,

INTRODUCTION GÉNÉRALE 2 il s agira alors d apprécier la qualité des différentes possibilités de construction des estimateurs d indicateurs de pauvreté. Pour répondre à la problématique posée, nous utiliserons les techniques d estimation dans différents plans de sondage, en particulier celles des sondages probabilistes. Travail à faire Notre travail s articule autour de deux parties composées chacune de deux chapitres. Dans la première partie : Le chapitre 1 présente, de façon synthétique, la théorie des sondages probabilistes. On parlera du sondage aléatoire simple, du sondage stratifié, du sondage à probabilités inégales, et du sondage à plusieurs degrés. Suite à la difficulté que l on rencontre dans le calcul des probabilités d inclusion doubles et qui entraine les problèmes d estimations des précisions, ce chapitre présente aussi les principales méthodes d estimation de précision par Bootstrap pour différents plans de sondage qui ont été évoqués. Le chapitre 2 introduit la notion de pauvreté et présente de façon concise les indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984. Il propose des estimateurs, ainsi que leurs calculs et estimateurs de précision respectifs pour les indicateurs FGT suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3. Dans la deuxième partie : Le chapitre 3 propose une présentation et une analyse descriptive des données soumises à notre étude. Le chapitre 4 présente et analyse les résultats des estimations des indicateurs FGT, ainsi que les résultats des estimations des précisions et ensuite propose une comparaison entre les différentes estimations de précision obtenues suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3. Nous terminerons par une Conclusion qui proposera une synthèse de ce qui aura été évoqué dans les précedents chapitres et les différents résultats numériques et graphiques seront obtenus, d une part, par le logiciel EXCEL de MICROSOFT et, d autre part, par les commandes écrites à partir du logiciel R.

3 Première partie Notions de sondage et indicateurs de pauvreté FGT

Généralités sur la théorie des sondages et estimation de la précision 4 Chapitre 1 Généralités sur la théorie des sondages et estimation de la précision Dans ce chapitre nous présenterons quelques notions statistiques en sondage nécessaires pour l étude de notre problématique. Nous nous intéresserons uniquement aux sondages probabilistes. 1.1 Généralités sur la théorie des sondages 1.1.1 Introduction Un sondage est une démarche qui consiste à collecter et à traiter de l information auprès des individus d un échantillon représentatif d une population donnée. Le sondage est l une des disciplines statistiques s appliquant à de nombreux domaines tels que : le domaine électoral : l estimation des pourcentages de voix obtenues par les candidats lors d une élection s effectue par sondage ; le domaine social : le calcul des indices l indice des prix à la consommation, l indicateur de bien-être,... sont directement issus de relevés obtenus par sondage ; le domaine industriel : le contrôle de qualité de fabrication de produits sur une chaîne d usine s effectue par sondage. De manière générale l on distingue deux grandes classes de sondage : les sondages probabilistes : ils sont ceux pour lesquels chaque individu de la population à une probabilité connue d avance d être selectionné dans l échantillon. les sondages empiriques : ils sont opposés aux sondages probabilistes. Dans la suite du chapitre, nous parlerons de la théorie mathématique fondée sur des sondages, et nous nous intéresserons uniquement aux sondages probabilistes. Considérons une population U {1,..., N} constituée d un ensemble d individus représentant les unités de base auxquelles on s intéresse. Nous supposons que cette population est

Généralités sur la théorie des sondages et estimation de la précision 5 bien déterminée les unités sont identifiables, de taille finie et connue notée N. Considérons aussi une variable d intérêt quantitative ou qualitative représentant l information qui nous intéresse, que l on notera Y, définie sur chaque individu de cette population. Cette variable doit être définie de façon aussi précise que possible afin d éviter les erreurs d observation. L identifiant d un individu de la population sera noté i, et la valeur prise par la variable Y sur cet individu sera notée Y i. Par la suite, on supposera que Y i ne dépend que de i. En général, on ne cherche pas à connaître la valeur prise par chacun des individus i de la population, mais plutôt une fonction des Y i qui constitue l information qu on cherche à acquérir. Cette fonction peut être une somme une moyenne la variance la dispersion σ 2 = 1 N T = Y = 1 N Y i Y i Yi Y 2 S 2 = 1 N 1 Yi Y 2 ou une fonction complexe telle qu un coefficient de corrélation linéaire entre deux variables Y et Z ρ = N N Yi Y Z i Z Yi Y 2 N ou encore le ratio des totaux de deux variables Y et Z Zi Z 2 R = N Y i N Z i L enquête statistique ne s intéresse donc pas aux individus en tant que tels, mais seulement à l agrégation de leurs réponses individuelles pour atteindre le but proposé. Nous noterons que ce problème d agrégation est plus ou moins simple selon qu on réalise une enquête par recensement ou une enquête par sondage. Mais la plupart de temps, un recensement étant généralement très couteux en argent, et en temps d analyse statistique, nous sommes souvent obligés d utiliser une enquête par sondage. En dehors de la question des coûts, l enquête par sondage présente d autres avantages tels que : le nettoyage rapide des données, l approfondissement de certains domaines qui ne peuvent être qu effleurés lors d un recensement où le questionnaire se doit d être très simple et rapide à remplir. Les problèmes fondamentaux du sondage réside dans :

Généralités sur la théorie des sondages et estimation de la précision 6 La sélection de l échantillon d individus. On s interroge sur la méthode à utiliser pour tirer les individus de l échantillon, appalée «plan de sondage» ; Le problème de l agrégation des réponses collectées auprès des individus enquêtés. On souhaiterait savoir comment agréger les réponses obtenues et jusqu à quel point peut-on avoir confiance aux résultats obtenus. Dès lors, nous constatons que le sondage n est conçu qu en examinant les quatre questions suivantes : l estimateur d un agrégat et sa précision dépendent fondamentalement de la méthode de tirage ; la précision dépend de l estimateur utilisé ; la méthode de tirage est autonome dans sa réalisation, mais elle est choisie en fonction de la précision souhaitée et de la complexié qu il y a à calculer les estimateurs ; la méthode de tirage et, éventuellement, la formulation de l estimateur déterminent le coût global de l enquête, et vice versa. 1.1.2 Formalisation et vocabulaire de base Dans la conception d un sondage, nous serons donc amenés à répondre aux quatre questions précédemment évoquées. Cet activité nécessitant une théorie mathématique, nous nous proposons, dans cette section, de faire une formalisation relative à ces questions. Paramètre et estimateur La fonction des valeurs individuelles inconnues Y i qui nous intéresse est un paramètre de la population U que nous cherchons à calculer, c est-à-dire une grandeur fixée, mais inconnue, que nous noterons : θ = g Y 1, Y 2, Y 3,..., Y N, où N est la taille connue de la population. Dans notre étude, nous ne nous intéresserons qu au cas où θ est un paramètre numérique. Ce paramètre représente la vraie valeur qu il faut estimer, puisqu il fait intervenir tous les individus de la population. Compte tenu du fait qu effectuer un recensement serait très couteux, la variable d intérêt Y est alors collectée sur un échantillon noté s de taille n tiré par une méthode appropriée. Dans ce cas, nous nous intéressons aux individus de l échantillon et, par conséquent, pour les identifier, il est nécessaire d utiliser un système de double indice pour être clair et continuer à raisonner sur les identifiants. L identifiant du j e individu de l échantillon sera donc noté i j, j = 1,..., n et i = 1,..., N. Une fois l échantillon tiré, nous disposons de l information suivante sous réserve que tout le monde réponde et que les réponses soient exactes : Y i1, Y i2, Y i3,..., Y in

Généralités sur la théorie des sondages et estimation de la précision 7 Cherchant toujours θ, il faut combiner ces n valeurs pour obtenir une expression dont la valeur numérique soit on l espère proche de θ et la formule agrégeant les n valeurs s appelle l estimateur de θ que nous noterons : θ = g Y i1, Y i2, Y i3,..., Y in Les mesures des erreurs d échantillonnage Lorsqu on construit un estimateur, il est nécessaire d évaluer sa pertinence. Cette évaluation n est pas immédiate pour la simple raison que l on ne connait pas θ. Cependant, grâce à l outil statistique, nous pouvons apporter des réponses satisfaisantes en exploitant l aspect probabiliste des sondages. Dans les sondages, la nature de l aléa se situe exclusivement au niveau des identifiants des individus de l échantillon. Ainsi l aléa provient de l échantillon i 1, i 2, i 3,..., i n, et non des données Y i1, Y i2, Y i3,..., Y in. Notre estimateur θ est donc aléatoire, car est une fonction de l échantillon s qui est aléatoire. C est l étude des «dégats»occasionnés par l aléa sur θ qui constitue la réponse à la question : jusqu a quel point peut-on avoir confiance en l estimateur de θ? Dans cette section nous parlerons du biais, de la variance et de l EQM comme outils possibles d évaluation de l ampleur de ces dégats. Notons E = s 1, s 2,..., s K la liste des K échantillons de taille n qu on peut obtenir à partir de la population U de taille N. K = N n, si on fait un tirage avec remise K = C n N, si on fait un tirage sans remise Notons ps k la probabilité de tirer l échantillon s k. Les probabilités ps 1,..., ps K vérifient la contrainte K ps k = 1 k=1. Les ps k sont contrôlées par le sondeur qui choisit une méthode de tirage permettant de les respecter : donc il impose a priori de «bonnes»valeurs des ps k d une part, et fait en sorte que le mécanisme de tirage mis en oeuvre respecte ces valeurs a posteriori d autre part. Avant de réaliser un quelconque tirage, on obtiendra en moyenne pour la variable aléatoire θ, E θ = s E ps. θs où θs représente l estimation du paramètre θ dans l échantillon s. La préoccupation des sondeurs étant de réaliser un tirage pour lequel E θ soit proche de θ, on cherche à réduire la quantité : BIAIS = E θ θ = E θ θ

Généralités sur la théorie des sondages et estimation de la précision 8 qui constitue la première mesure de l erreur d échantillonnage que l on commet. En dehors du biais, une autre manière de mesurer la qualité d un échantillonnage est de calculer la variance de l estimateur θ définit par : V θ = E θ E θ 2 = ps. θs E θ 2 s E Dans le but de la comparer avec l estimateur ou de l utiliser pour le calcul des intervalles de confiance, il convient d utiliser sa racine carré qui nous donne une grandeur appelée écarttype de l estimateur θ et noté σ θ. Ces deux grandeurs constituent la seconde mesure de l erreur de l échantillonnage que l on commet : plus elles sont grandes, moins le plan de sondage est bon. Une autre grandeur permettant de mesurer la qualité d un échantillonnage est le coefficient de variation défini par si θ 0 : CV θ = σ θ θ. La troisième mesure de l erreur de l échantillonnage que l on commet est l Erreur Quadratique Moyenne EQM, qui englobe les notions de biais et de variance. Cette mesure se définit de la manière suivante : EQM = E θ θ 2 Et on montre que EQM = VARIANCE + BIAIS 2. Les différentes mesures que l on vient d exposer sont dues au fait que l on n enquête qu un échantillon s et non toute la population, et l ensemble de ces mesures constitue l erreur d échantillonnage. L existence d une erreur d échantillonnage peut s avérer immédiate lorsque l échantillon contient trop d individus atypiques. Ainsi, pour éviter une forte surestimation ou sous-estimation de l estimateur, une idée serait de supprimer les individus atypiques si on a une bonne connaissance de la population. Dans le cas contraire, la démarche la plus appropriée est d utiliser l une des procédures de redressement d estimateurs, notion que nous n aborderons pas dans cette étude. 1.1.3 Loi et intervalle de confiance d un estimateur Pour déterminer la précision de l estimateur θ d un paramètre θ, on utilise souvent la notion d intervalle de confiance. On détermine un intervalle, généralement centré sur l estimateur θ, et contenant la vraie valeur du paramètre avec un niveau de confiance fixé qui est généralement de 95%. Produire un intervalle de confiance suppose de connaître, même de façon approchée, la loi de l estimateur θ. Le plus souvent, on doit se contenter d une approximation asymptotique de cette loi. A l heure actuelle, la normalité asymptotique n est strictement établie que pour un nombre limité de plans de sondages, voir Chauvet 2007. De plus, dans une situation pratique d enquête, le sondeur est souvent confronté à des mécanismes aléatoires non maîtrisés tels que la non-réponse partielle ou totale de certains

Généralités sur la théorie des sondages et estimation de la précision 9 individus enquêtés dont l influence sur le comportement asymptotique des estimateurs est difficile à prendre en compte. Mais cela ne signifie pas qu il faut renoncer à définir des intervalles de confiance. Même si elle n est pas totalement validée sur le plan théorique, de nombreuses études empiriques par simulations ont démontré le bien-fondé de l hypothèse de normalité dans des situations réalistes, voir Chauvet 2007. Ainsi, pour construire un intervalle de confiance, on fait souvent l hypothèse que θ suit une loi gaussienne. Donc si on suppose que θ est sans biais et que θ N E θ = θ, σ 2 θ, l intervalle de confiance IC de niveau 95% de l estimateur θ s obtient comme suit : Soit Z α, le quantile d ordre α de la loi normale centrée réduite, avec α = 0.05. On a alors, comme Z α/2 = Z 1 α 2 : or, θ θ σ θ N 0, 1, 1 α = P r Z 1 α 2 N 0, 1 Z 1 α 2 1 α = P r Z 1 α θ θ 2 σ θ Z 1 α 2 = P r Z 1 α σ θ θ θ Z 2 1 α σ θ 2 = P r θ Z1 α σ θ θ θ + Z 2 1 α σ θ 2 IC = [ θ Z1 α σ θ; θ ] + Z 2 1 α σ θ 2 Il est à noter que dans l expression de cet intervalle de confiance, le terme σ 2 θ est inconnu car son expression littérale fait intervenir les valeurs Y i de tous les individus de la population, valeurs que nous ne possèdons pas. Pour donc palier à ce problème, il serait judicieux de trouver un estimateur de la variance σ 2 θ que nous noterons V θ. 1.1.4 Bases de sondage Pour pouvoir bien réaliser un tirage probabiliste, il est nécessaire de disposer, avant toute chose d une liste de toutes les unités d échantillonnage faisant partie du champ de l enquête appelée base de sondage. Nous considérons toujours que l unité d échantillonnage et l unité d observation coïncident. Cette liste doit avoir trois qualités principales, à savoir : Elle doit permettre de repérer l unité sans aucune ambiguïté. Une base de sondage doit être donc une liste d identifiants de bonne qualité. Par exemple, on identifie un logement par : la commune, le district, l immeuble auquel il appartient, le rang numérique qu on lui attribue dans l immeuble. Elle doit être exhaustive, c est-à-dire chaque unité faisant partie du champ de l enquête doit être nécessairement dans la liste des identifiants. Autrement dit, il ne faut

Généralités sur la théorie des sondages et estimation de la précision 10 oublier personne. Si ce n est pas le cas, on parle de base de sondage incomplète ou de défaut de couverture, et il s en suit un biais de l estimateur. Une manière de limiter ce biais est de procéder comme lorsqu on a à faire à des non-réponses. Elle doit être sans double compte, c est-à-dire aucun individu ne doit être présent deux fois dans la base, même et surtout sous deux identifiants différents. Dans le cas contraire, on introduit un biais de l estimateur. Notons que, dans la pratique, il est difficile de s affranchir du manque d exhaustivité et de la présence des doubles comptes. L important est de juger de leur impact et de ne conserver que les bases faiblement imparfaites. Par exemple, pour ce qui concerne les ménages, on considère le Recensement Général de la Population et de l Habitat RGPH comme une bonne base de sondage. Aux trois conditions précédentes, il est très fortement conseillé de conserver toute information auxiliaire de bonne qualité dont on dispose dans la base, car celle-ci pourra servir pour améliorer soit la méthode de tirage, soit l estimateur, soit les deux. C est la raison pour laquelle la première tâche du sondeur est de rechercher toutes les bases de sondage disponibles concernant la population qui l interesse, de juger de leur pertinence et éventuellement d utiliser des sources d information de diverses provenances pour enrichir au maximun sa base primitive. Il est à noter tout de même que l une des difficultés pratiques de l utilisation des sources de diverses provenances est de gérer l échantillonnage et la phase de collecte terrain à partir des systèmes d identification hétérogènes. L absence totale de base de sondage est un problème que l on rencontre dès que l on touche des populations d individus rares marginaux ou personnes travaillant dans un domaine professionnel très spécialisé, ou des populations au sein desquelles une rotation importante s effectue population vivant en communauté : communautés réligieuses, maison de retraite, foyers de personnes sans abri,... L absence totale de base de sondage peut aussi se constater lorsqu on s intéresse à d autres populations que celles composées d individus physiques. Par exemple pour mener une enquête agricole, il est impossible d avoir une base de sondage des champs cultivés sur l ensemble du territoire camerounais. 1.1.5 Différents types d erreurs rencontrés dans les enquêtes Lors des enquêtes, l on rencontre divers types d erreurs, notamment l erreur d échantillonnage que nous avons vu plus haut et qui n existe que dans les enquêtes par sondage, les erreurs due au défaut de couverture et à la non -réponse et l erreur d observation qui est due à la mauvaise obsevation de la variable d intérêt Y auprès d un individu i. L erreur d observation survient dans les questions sensibles sur des sujets tels que : le revenu, la sexualité, la drogue,... et est issu de : erreurs de bonne foi de l enquêté mémoire défaillante ; mauvaise compréhension de la question par l enquêté ;

Généralités sur la théorie des sondages et estimation de la précision 11 erreurs de codification gérance des questions ouvertes. L on rencontre aussi plusieurs autres causes d erreurs d observation. Pour pouvoir les éviter, il est recommandé de faire une formation des enquêteurs, faire une enquête pilote pour tester le questionnaire, effectuer des enquêtes de contrôle de l enquêteur en interrogeant à nouveaux des ménages tirés au sort parmi ceux qu il a enquêtés, bien formuler les questions posées. Les erreurs dues au défaut de couverture et à la non-réponse sont essentiellement liées à l existence d une base de sondage incomplète et à la non-réponse de certains individus aux questions posées. La base incomplète cause des biais. La non-réponse occasionne des pertes de précision et cause aussi des biais dans le sens où la non exhaustivité d une base se comporte comme une non-réponse. Une manière de corriger ces erreurs est d utiliser des procédures de redressement En résumé pour une enquête par sondage, ERREUR TOTALE = ERREUR D ÉCHANTILLONNAGE + ERREUR D OBSERVATION + ERREURS DUES AU DÉFAUT DE COUVERTURE ET A LA NON-RÉPONSE En général, les efforts de modélisation et de mesure sont portés sur l erreur d échantillonnage et sur l erreur due à la non-réponse. On ne sait que très peu de chose sur les erreurs d observation et de défaut de couverture. Pour mener à bien une enquête, plusieurs étapes à suivre sont élaborées et celles-ci sont résumées par le schéma suivant : 1.2 Les plans de sondage probabilistes et calcul de la précision d un estimateur 1.2.1 Introduction En général, la réalisation d un sondage tourne autour de deux grandes étapes qui sont : la méthode de tirage et l expression de l estimateur. Le choix de la méthode de tirage et de l estimateur constituent ce qu on appelle le plan de sondage. Définition 1.2.1 On appelle support du plan de sondage p, et on note Sp, l ensemble des échantillons ayant une probabilité non nulle d être selectionnés : Sp = {s k E; p s k > 0 avec 1 k K} Définition 1.2.2 Un plan de sondage p est dit de taille fixe égale à n si son support est inclus dans l ensemble des échantillons de taille n, autrement dit si seuls les échantillons de taille n ont une probabilité non nulle d être sélectionnés.

Généralités sur la théorie des sondages et estimation de la précision 12 On note s l échantillon aléatoire. Sa taille, qui peut être également aléatoire, sera notée n S. Dans notre étude où le plan de sondage est de taille fixe, on notera simplement n la taille de l échantillon. Comme nous l avons vu au début du chapitre, l on distingue deux classes de sondage, à savoir : le sondage probabiliste et le sondage empirique. Dans cette section, nous présenterons certains plans de sondage probabilistes classiques et nous nous intéresserons au paramètre θ ayant la forme d un total. Par conséquent, θ = α i.y i = T, où les α i, 1 i N, sont des coefficients données Son estimateur se met sous la forme : θ = W i s.y i = T i s où s représente l échantillon de taille n, W i s représente le poids de sondage attaché à l individu i de l échantillon s. Ce poids de sondage est égale à l inverse de la probabilité de sélection de l individu i dans l échantillon s. Le problème de sondage est donc un problème de pondération, c est-à-dire que chaque individu de l échantillon représente un certain nombre d individus de la population. Nous considérons aussi dans cette section que les biais et les variances ne traduisent que les erreurs d échantillonnage. Donc nous supposerons qu on travaille avec une base de sondage parfaite, des enquêteurs, des enquêtés, et un système de codification-saisie qui n introduisent aucune erreur d observation, et nous supposerons en plus qu il n existe pas de non-réponse. Dans la présentation des plans de sondage que nous ferons, notre préoccupation tournera autour des trois questions fondamentales suivantes : expression et calcul de l estimateur θ du paramètre θ ; expression de son biais et de sa variance vraie ; expression et calcul de l estimateur de cette variance. On notera E. respectivement V. l espérance respectivement la variance sous le plan de sondage p. De plus lors des calculs des erreurs d echantillonnage, on ne manipulera plus la probabilité de tirer l échantillon s notée ps,car complètement inopérationnelle parce ce que son calcul en pratique est trop complexe, mais on utilisera plutôt la probabibilté de sélection ou d inclusion d un individu i dans l échantillon. 1.2.2 Probabilités d inclusion Pour un plan de sondage fixé, on appelle probabilité d inclusion d ordre 1 de l individu i la probabilité P i qu a cet individu d être retenu dans l échantillon. Cette probabilité dépend

Généralités sur la théorie des sondages et estimation de la précision 13 du plan de sondage : P i = s E/i s ps. On appelle probabilité d inclusion d ordre 2 la probabilité que deux individus distincts i et j soient retenus conjointement dans l échantillon : P ij = s E/i,j s ps. Notons δ i, la variable aléatoire definie par : { 1 si i est tiré dans l échantillon, δ i = 0 sinon ; δ i suit une loi de Bernoulli BP i, car P i = P rδ i = 1. Propriété 1.2.1 Soit un plan de sondage, P i i U respectivement P ij i,j U, les probabilités d inclusion d ordre 1 respectivement d ordre 2 associées. Alors pour tous les individus i, j U, les variables aléatoires δ i et δ j vérifient les propriétés suivantes : E δ i = P i ; V δ i = P i 1 P i ; cov δ i, δ j = P ij P i P j. Démonstration. Voir Annexe de la section 1.2.2. Propriété 1.2.2 Soit un plan de sondage de taille fixe égale à n, P i i U respectivement P ij i,j U, les probabilités d inclusion d ordre 1 respectivement d ordre 2 associées. Alors : N P i = n; j U, N P ij = P j n 1 ; i j j U, N P ij P i P j = 0. Démonstration. Cette propriété est une conséquence de la précédente, en utilisant le fait que, comme le tirage est de taille fixe, N δ i = n. Voir Annexe de la section 1.2.2. 1.2.3 Choix des probabilités d inclusion et P-estimation Lorsque l on réalise une enquête, il est théoriquement possible de calculer la probabilité de sélection d une partie quelconque de U, éventuellement à un facteur près. On impose généralement au minimum que le plan de sondage respecte des probabilités d inclusion d ordre 1 préalablement fixées généralement proportionnellement à une variable auxiliaire. Le respect de ces probabilités d inclusion est primordial, car le théorême suivant assure que leur connaissance permet d estimer sans biais une fonctionnelle linéaire.