PRISE EN COMPTE D UN PLAN DE SONDAGE COMPLEXE DANS L EVALUATION DE LA PAUVRETE AU CAMEROUN Mémoire présenté et soutenu en vue de l obtention d un Master de Statistique Appliquée Par: EVINA KUISU Christine Michèle Etudiante en Master II de Statistique Appliquée Sous la direction de: Encadreur académique: Encadreur professionnel: Pr. Henri GWET Ing. Sévérin TCHOMTHE Chef de Département de Chef de cellule de la Mathématiques et Sciences Recherche Appliquée à Physiques à l ENSP de Yaoundé l INS Responsable du Master de Statistique Appliquée Octobre 2012
DÉDICACES i Dédicaces Qu il me soit permis de dédier ce travail à ma très regrettée mère bien aimée Mme KUISU née YIMDJO Pauline. «Maman, de ton vivant tu as été toujours là pour moi. Tu n as jamais cessé de te battre pour que j aie un avenir meilleur. Je te remercie pour les conseils et le soutien immense que tu m as apporté, et surtout pour l amour inconditionnel dont tu m as comblée. J espère que tu verras en ce mémoire le fruit des nombreux sacrifices que tu n as cessé de faire pour moi.»
REMERCIEMENTS ii Remerciements Je remercie Dieu tout puissant pour sa protection incessante ainsi que pour l intelligence, la force morale et physique qu il m a accordé pour pouvoir réaliser ce travail. Ce travail n aurait pas pu être concrétisé sans l appui et le soutien de nombreuses personnes que je tiens à remercier, notamment : Pr Henri GWET, Chef de Département à l Ecole Nationale Supérieure Polytechnique pour sa contribution à notre formation, sa supervision dans nos travaux de mémoire et pour ses conseils. Dr NDONG NGUEMA pour l examen préliminaire de ce travail, son encadrement et son dévouement tout au long de notre formation. Dr Jacques TAGOUDJEU pour sa disponibilité et son apport moral permanent. Dr TOUSSILE pour sa disponibilité, ses conseils. Dr Joseph TADJUIDJE, Dr Nicolas VERZELEN, Dr Jules TEWA, Dr Bressaud pour leurs enseignements et leurs conseils. Je tiens aussi à remercier mon encadreur Mr Séverin TCHOMTHE, Chef de cellule de la Recherche Appliquée de l Institut National de la Statistique pour m avoir suivi tout au long de mon stage à l Institut National de la Statistique. Je pense aussi à : Mon père et mentor Mr KAMDEM Albert pour son soutien et ses encouragements incessants, «Papa, tu m as toujours enseigné le goût du travail. Tu m as orienté durant mon parcours scolaire. Tu t es battu sans relâche pour m offrir un futur meilleur. Malgré les tempêtes, tu n as jamais cessé de croire en moi et, pour cela, je t en serai éternellement reconnaissante.» Mon père Mr KUISU Elias, «Papa, tu as toujours été là pour moi, tu n as jamais cessé de m apporter ton soutien dans chacune des ambitions que j ai eue. Merci pour ton amour et ton soutien inconditionnels.» Mes oncles TCHUENGUIA Narcisse et TOUNGSI Jean-François, «Vous n avez jamais cessé de me donner des conseils. Merci pour le soutien que vous m avez apporté dans chacun des projets que j ai eu à réaliser et pour le goût de l effort que vous avez fait naître en moi.»
REMERCIEMENTS iii Ma mère Mme KAMDEM Agnès, «Maman, ton amour, tes efforts et ton soutien ont contribué à ceci. Je te dis grandement MERCI.» Mes grands-parents, mes oncles et tantes, mes frères et soeurs pour leurs encouragements et leurs conseils permanents. Mes camarades et amis de promotion, pour leurs soutiens, leurs esprits d équipe et de solidarité face aux expériences que nous avons partagées tout au long de notre formation. Je remercie particulièrement Olivier WADJORE. A tous ceux que je n ai pas mentionnés dans ce mémoire et qui, de près ou de loin, ont contribué à l élaboration de ce mémoire. Voyez en ce mémoire un des fruits de toute l aide que vous n avez jamais cessé de m apporter.
TABLE DES MATIÈRES iv Table des matières Dédicaces Remerciements Abréviations Lexique des termes techniques Résumé Abstract Résumé Exécutif i ii viii ix xi xii xiii Introduction générale 1 I Notions de sondage et indicateurs de pauvreté FGT 3 1 Généralités sur la théorie des sondages et estimation de la précision 4 1.1 Généralités sur la théorie des sondages..................... 4 1.1.1 Introduction................................ 4 1.1.2 Formalisation et vocabulaire de base.................. 6 1.1.3 Loi et intervalle de confiance d un estimateur.............. 8 1.1.4 Bases de sondage............................. 9 1.1.5 Différents types d erreurs rencontrés dans les enquêtes......... 10 1.2 Les plans de sondage probabilistes et calcul de la précision d un estimateur. 11 1.2.1 Introduction................................ 11 1.2.2 Probabilités d inclusion.......................... 12 1.2.3 Choix des probabilités d inclusion et P-estimation........... 13 1.2.4 Calcul et estimation de la variance................... 14
TABLE DES MATIÈRES v 1.2.5 Méthodes de calcul de précision..................... 15 1.2.6 Sondage aléatoire simple......................... 16 1.2.7 Sondage stratifié............................. 17 1.2.8 Sondage à probabilités inégales..................... 18 1.2.9 Sondage à plusieurs dégrés :Cas du tirage à deux dégrés........ 22 2 Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 26 2.1 Généralités sur les indicateurs de pauvreté FGT................ 26 2.1.1 Notion de pauvreté............................ 26 2.1.2 Indicateurs de pauvreté monétaire.................... 27 2.2 Adaptation des indicateurs FGT au plan de sondage utilisé par ECAM 3.. 28 2.2.1 Présentation du plan de sondage d ECAM 3.............. 28 2.2.2 Estimations des indicateurs de pauvreté FGT et calcul de la préscision 30 2.3 Adaptation des indicateurs FGT au plan de sondage aléatoire simple.... 34 2.3.1 Propriétés de l estimateur Îsas α sous le plan d un sondage aléatoire simple 35 2.3.2 Propriétés de l estimateur Îsas α sous le plan de sondage utilisé par ECAM 3.................................. 36 II Applications numériques 38 3 Présentation et Analyse descriptive des données 39 3.1 Présentation des données............................. 39 3.1.1 Origine des données............................ 39 3.1.2 Présentation des variables........................ 40 3.2 Analyse descriptive des données......................... 42 3.2.1 Analyse univariée............................. 42 3.2.2 Analyse bivariée.............................. 46 4 Applications aux données d ECAM 3 60 4.1 Application de l analyse pour le plan de sondage aléatoire simple....... 60 4.2 Application de l analyse pour le plan de sondage utilisé par ECAM 3.... 62 4.3 Comparaison des précisions........................... 65 Conclusion 67 Annexes 69 Bibliographie et liens internet 97
TABLE DES FIGURES vi Table des figures 1.1 Bootstrap général pour un plan à probabilités inégales. Chauvet 2007 [6]. 21 1.2 Bootstrap général pour un plan à deux degrés. Chauvet 2007 [6]...... 25 3.1 Boîte à moustaches de DEPUC......................... 43 3.2 Distribution empirique de DEPUC....................... 44 3.3 Distribution empirique par strate de DEPUC dans la région de l Adamaoua 47 3.4 Distribution empirique par strate de DEPUC dans la région du Centre... 48 3.5 Distribution empirique de DEPUC dans la ville de Douala.......... 49 3.6 Distribution empirique par strate de DEPUC dans la région de l Est..... 50 3.7 Distribution empirique par strate de DEPUC dans la région de l Extrême-Nord 51 3.8 Distribution empirique par strate de DEPUC dans la région du littoral... 52 3.9 Distribution empirique par strate de DEPUC dans la région du Nord-Ouest 53 3.10 Distribution empirique par strate de DEPUC dans la région du Nord.... 54 3.11 Distribution empirique par strate de DEPUC dans la région de l Ouest... 55 3.12 Distribution empirique par strate de DEPUC dans la région du Sud-Ouest. 56 3.13 Distribution empirique par strate de DEPUC dans la région du Sud..... 57 3.14 Distribution empirique de DEPUC dans la ville de Yaoundé......... 58 4.1 Distribution empirique des estimateurs Îsas α des I α............... 62 4.2 Distribution empirique des estimateurs Îα des I α................ 64
LISTE DES TABLEAUX vii Liste des tableaux 1 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. xiv 3.1 Sections du questionnaire utilisées, extraites de l ECAM 3.......... 40 3.2 Variables qualitatives............................... 41 3.3 Variables quantitatives.............................. 42 3.4 Résumé numérique des variables quantitatives................. 43 3.5 Résumé numérique des variables qualitatives.................. 45 3.6 Ecart-type et moyenne de DEPUC dans chaque strate............ 59 4.1 Estimations des indicateurs de pauvreté FGT Îsas α sous le plan de sondage utilisé par ECAM 3................................ 60 4.2 Test de normalité des estimateurs Îsas α des indicateurs FGT.......... 61 4.3 Intervalles de confiance des indicateurs FGT................... 61 4.4 Estimations des indicateurs de pauvreté FGT Îα, et de leurs précisions dans le cas du plan de sondage utilisé par ECAM3.................. 63 4.5 Test de normalité des estimateurs Îα des indicateurs FGT........... 64 4.6 Intervalles de confiance des indicateurs FGT................... 65 4.7 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. 66 4.8 Echelle d équivalence-adulte........................... 89 4.9 Répartition de l échantillon des ZD et des ménages par région et strate... 90 4.10 Structure du questionnaire de l enquête ECAM3................ 91
ABRÉVIATIONS viii Abréviations BUCREP ECAM 3 EQM INS RGPH ZD : Bureau Central des Recensements et des Etudes de Population : Troisième Enquête Camerounaise Auprès des Ménages : Erreur Quadratique Moyenne : Institut National de la Statistique : Recensement Général de la Population et de l Habitat : Zone de dénombrement
LEXIQUE DES TERMES TECHNIQUES ix Lexique des termes techniques Agrégation : C est une procédure mathématique permettant de regrouper les réponses collectées auprès des individus enquêtés. Champ d enquête : Population sur laquelle s appliquent les résultats issus de l enquête. Population sur laquelle on réalise l inférence. Enquête : C est une démarche qui consiste à collecter et à traiter de l information pour mieux connaître la population au travers d un agrégat. Estimateur d un indicateur : C est une expression mathématique qui permet, lorsque les données ont été collectées, de proposer une valeur pour l indicateur qui nous intéresse et qui est défini sur l ensemble de la population. Identifiant : Information de nature quelconque permettant de repérer précisément et sans aucune ambiguïté un individu dans une population donnée. Indicateur : Information ou un outil de mesure ou encore un critère d appréciation qui récapitule au mieux une situation. Il renseigne sur une situation ou un événement complexe. C est un agrégat, c est-à-dire une variable issue d une agrégation de données. Information auxiliaire : Variable qualitative ou quantitative autre que la variable d intêret et autre que les variables nécéssaires et suffisantes à l indentification des individus de la population. Ménage ordinaire : désigne l ensemble des personnes qui partagent la même résidence principale, que ces personnes aient des liens de parenté ou non. Plan de sondage : C est la donnée d une méthode de sélection de l échantillon et d une formulation de l estimateur. Précision d un estimateur : C est une formule mathématique permettant d évaluer la qualité d un estimateur. Recensement : C est une démarche qui consiste à collecter et à traiter de l information auprès de tous les individus d une population donnée. Sondage : C est une démarche qui consiste à collecter et à traiter de l information auprès des individus d un échantillon représentatif d une population donnée.
LEXIQUE DES TERMES TECHNIQUES x Unité d échantillonnage : C est celle qu on interroge pour avoir les informations sur l unité d observation. Unité d observation : C est celle sur laquelle on collecte de l information.
RÉSUMÉ xi Résumé Notre étude avait pour objectif principal de faire une analyse critique autour de la construction des indicateurs de pauvreté FGT pour l évaluation de la pauvreté monétaire au Cameroun. Cette étude était motivée par le fait que ces indicateurs sont souvent utilisés en attribuant un même poids à chaque unité statistique échantillonné. Il était question pour nous, d une part, d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3 plan de sondage stratifié à deux degrés et, d autre part, de faire une comparaison des estimations de précisions obtenues. Nous avons utilisé pour cela les techniques d estimation dans les plans de sondage, en particulier celles des plans de sondage probabilistes pour construire les estimateurs de précisions des indicateurs de pauvreté FGT. A cause de la présence des probabilités d inclusion double dans les expressions d estimateurs de précision que nous avons obtenus, nous avons également utilisé la méthode d estimation de variance par Bootstrap dans le cas des plans de sondage pour obtenir des estimations des précisions des indicateurs de pauvreté FGT. Sous l hypothèse que les critères de validité du Bootstrap sont vérifiés, nous avons obtenu le résultat suivant : les estimations des indicateurs de pauvreté FGT établies suivant le plan de sondage utilisé par ECAM 3 sont plus précises que celles établies suivant le plan de sondage aléatoire simple. Mots clés : plan de sondage, indicateurs de pauvreté FGT, estimateurs, précisions, Bootstrap, ECAM 3.
ABSTRACT xii Abstract The principal objective of our study was to carry out a critical analysis around the construction of FGT poverty indicators for the evaluation of poverty in Cameroon. This study was motivated by the fact that these indicators are often used by attributing the same weights to each sampled statistical unit. We were interested, on one hand, in evaluating the precisions of FGT poverty indicator estimators following the simple random survey plan and the survey plan used by ECAM 3 two-stage stratified survey plan and, on the other hand, to compare the estimations of the obtained precisions. To do so, we have used estimation techniques in survey plans, in particular, those for probabilistic survey plans to construct the precision estimators of FGT poverty indicators. Due to the presence of double inclusion probabilities in the expressions of precision estimators we have obtained, we have also used the Bootstrap method of estimating variance in the case of survey plans to obtain precision estimators of FGT poverty indicators. Under the hypothesis that the criteria for Bootstrap validation are verified, we have obtained the following result : the FGT poverty indicators estimations established following ECAM 3 survey plan are more precise than those established following the simple random survey plan. key words : sampling design, FGT poverty indicators, estimators, precisions, Bootstrap, ECAM 3.
RÉSUMÉ EXÉCUTIF xiii Résumé Exécutif Problématique En 2007 l INS a réalisé la troisième Enquête Camerounaise Auprès des Ménages ECAM 3 dont le but principal était d actualiser le profil de pauvreté et les différents indicateurs des conditions de vie des ménages établis en 2001 et d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté. Au cours de cette enquête la méthode de tirage de l échantillon utilisé est celle d un sondage stratifié à deux degrés, dont au premier degré a été effectué un tirage à probabilité inégales et au second tirage a été effectué un sondage aléatoire simple. Pour répondre à l un des objectifs spécifiques de cette enquête à savoir : l évaluation de la pauvreté monétaire à partir des indicateurs de pauvreté FGT ; la construction de leurs estimateurs, leurs estimations, et le calcul de leur précision ont été faites sur le principe d un échantillonnage aléatoire simple. De ce fait, le non respect du plan de sondage utilisé par ECAM 3 dans ces analyses constitue une préoccupation sur la qualité des estimations effectuées, ceci suscitant par conséquent une analyse comparative. Données Pour notre étude, les données mises à notre disposition sont issues de la base de données D ECAM 3. Ces données proviennent des informations recueillies sur un échantillon de 11391 ménages. Pour obtenir cet échantillon de ménages, dans chaque région du Cameroun, des strates 32 stratesont été formées notamment :des strates urbaines, seme-urbaines, et rurales. Nous préciserons que Douala et Yaoundé ont eté considérées comme des strates urbaines. Dans chaque strate de chaque région, des ZD ont été tirés et à l issue d un dénombrement dans chaque ZD tiré des ménages ont été tirés soit : 12 ménages par ZD ont été tirés au cours de l enquête proprement dite et 18 ménages par ZD ont été tirés au cours de l enquête légère à Douala et Yaoundé 18 ménages par ZD ont été tirés au cours de l enquête proprement dite et 24 ménages par ZD ont été tirés au cours de l enquête légère dans les autres strates
RÉSUMÉ EXÉCUTIF xiv Méthodologie Pour répondre au problème posé, nous avons utilisé les outils statistiques suivants : les techniques de sondages probabilistes notamment le sondage aléatoire simple, le sondage stratifié, le sondage à probabilités inégales et le sondage à deux degrés pour construire des estimateurs des indicateurs FGT ainsi que leurs précisions premièrement en considérant le plan de sondage utilisé par ECAM 3, et deuxièmement en considérant le plan de sondage aléatoire simple la technique de replication par Bootstrap dans le cadre des sondages pour calculer les précisions des estimateurs des indicateurs de pauvreté FGT obtenues suivant le plan de sondage utilisé par ECAM 3, puis suivant le plan de sondage aléatoire simple. Résultats L application des outils statistiques énoncés précedemment nous ont permit d avoir les résultats suivants : Nous constatons que les estimateurs des indicateurs de pauvreté FGT Tab. 1 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. Indicateurs eqm.boot.sas σ.boot.sadg Deff.sas ρ.sas Deff.sadg ρ.sadg Incidence 1.36e 03 1.3e 03 0.119 1.3e 07 0.108 1.16e 07 de pauvreté Profondeur 4.2e 04 3.85e 04 0.102 1.23e 08 0.086 1.03e 08 de pauvreté Sévérité 1.8e 04 1.6e 04 0.0892 2.38e 09 0.067 1.78e 09 de pauvreté eqm.boot.sas : erreur quadratique moyenne de Îα sas sous le plan de sondage utilisé par ECAM 3, σ.boot.sadg : écart-type de Îα pour le plan de sondage utilisé par ECAM 3, Deff.sas : Effet du plan de sondage pour Îsas α, ρ.sas : Effet de grappe pour Îsas α, Deff.sadg : Effet du plan de sondage pour Îα, ρ.sadg : Effet de grappe pour Îα. obtenus suivant le plan de sondage utilisé par ECAM 3 sont plus précis que ceux obtenus suivant le plan de sondage aléatoire simple. Nous pouvons aussi constater que pour chacun des estimateurs des indicateurs de pauvreté FGT, l effet de plan de sondage est inférieur à 1, ce qui veut dire que le fait de supposer à tort que les données lors d ECAM 3 ont été recueillies suivant un sondage aléatoire simple entraine des sous-estimations des variances des estimateurs des indicateurs de pauvreté FGT. De plus comme un tirage à deux degrés avait été effectué lors d ECAM 3, nous remarquons à travers ce tableau que pour chacun des estimateurs des indicateurs de pauvreté FGT, une estimation de l effet de grappe du premier
RÉSUMÉ EXÉCUTIF xv degré du tirage est négatif. Ce qui signifie que dans chaque ZD echantillonné les ménages sont différents les uns des autres et par conséquent d après la définition de l effet de grappe a permis à l amélioration des précisions calculées dans le plan de sondage utilisé par ECAM 3. Conclusion et recommandations L objectif de notre étude était de faire une analyse critique autour la construction des indicateurs de pauvreté FGT pour l évaluation de la pauvreté monétaire, ceci étant du au fait que ces indicateurs sont souvent utilisés en attribuant un même poids à chaque unité statistique échantillonné. La base de données qui était à notre disposition était issue de la troisième Enquête Camerounaise Auprès des Ménages ECAM 3, réalisée au Cameroun en 2007. Cette enquête avait pour but principal d une part d actualiser le profil de pauvreté à travers certains indicateurs dont les indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984 et d actualiser les différents indicateurs des conditions de vie des ménages établis en 2001 et d autre part d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté. Il était donc question pour nous d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas d un plan de sondage aléatoire simple, ensuite d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas du plan de sondage utilisé par ECAM 3 plan de sondage stratifié à deux degrés et enfin de faire une comparaison des estimations de précisions obtenues dans chacun des deux plans de sondage. Ce qui nous premettrait de savoir s il y a gain ou perte de précision dans l estimation des indicateurs de pauvreté selon qu ils soient construits suivant le principe d un échantillonnage aléatoire simple ou le principe d échantillonnage stratifiée à deux degrés. Les techniques d estimations dans différents plans de sondage, en particulier celles du sondage aléatoire simple, du sondage stratifié, du sondage à probabilités inégales et du sondage à deux degrés, et les méthodes d estimation de variance par Bootstrap dans les plan de sondage à probabilités inégales et de sondage à deux degrés nous ont permis de répondre, à ces questions. Nous avons trouvé que les estimations des indicateurs de pauvreté FGT sont plus précis lorsqu on tient compte du plan de sondage utilisé par ECAM 3 que lorsqu on tient compte du plan de sondage aléatoire simple. Toutefois, nous devons souligner que dans le cas du plan de sondage utilisé par ECAM 3 les estimations de précisions pourrait être améliorées si on prenait soin de mieux élaborer la stratification des régions du Cameroun. En effet nous avons remarqué lors de l analyse descriptive que la qualité de la stratification n était pas bonne à cause d une forte hétérogéneité du point de vue de la dépense de consommation annuelle moyenne des ménages dans chacune des strates. De plus, concernant les méthodes d estimation Bootstrap dans les plans de sondage, il serait judicieux de s interesser aux critères de validité de Bootstrap afin de savoir si les estimations de variance obtenues par Bootstrap sont consistantes. Compte tenu du fait que le temps
RÉSUMÉ EXÉCUTIF xvi imparti ne nous a pas permis d approfondir ces travaux, nous envisageons le faire à l avenir. Nous recommandons à l INS, pour la prochaine ECAM de reconsidérer le choix d une information auxiliaire pour la procédure de stratification et dans chaque strate constituée de faire porter l effort d une augmentation de taille de l échantillon des ZD plutôt que sur la taille de l échantillon des ménages dans chaque ZD. Ceci pour permettre d améliorer la qualité des estimations. Nul ne conteste la multidimensionnalité de la pauvreté. Pauvreté peut rimer avec mauvaise santé, éducation insuffisante, faible revenu, faible dépense des consommations, logement précaire, travail difficile ou non protégé, insécurité alimentaire ou encore rejet des riches. Ainsi nous leur suggérons aussi d envisager une mesure de la pauvreté multidimentionnelle et ce partant d une extension des indicateurs de pauvreté FGT proposée par Alkire et Foster 2007 ; 2009. ce qui permettra de mieux caracteriser le pauvre au Cameroun.
INTRODUCTION GÉNÉRALE 1 Introduction générale Contexte et Problématique Dans l optique de faire une évaluation de la pauvreté monétaire au Cameroun depuis 1996, le Gouvernement camerounais a réalisé, à travers l Institut National de la Statistique INS, trois Enquêtes Camerounaises Auprès des Ménages ECAM. Au cours de ces enquêtes, notamment lors de la troisième Enquête Camerounaise Auprès des Ménages ECAM 3 réalisée en 2007 dont le but principal était d actualiser le profil de pauvreté et les différents indicateurs des conditions de vie des ménages établis en 2001 et d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté, la méthode de tirage de l échantillon utilisée est celle d un sondage stratifié à deux degrés. Cependant, dans le cadre de l évaluation de la pauvreté monétaire, au cours de l analyse des données recueillies à l issue des interviews effectués, la construction des estimateurs d indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984, leurs estimations, et la mesure de leur précision ont été faites sur le principe d un échantillonnage aléatoire simple. Ainsi, le non respect du plan de sondage utilisé par ECAM 3 dans ces analyses constitue une préoccupation sur la qualité des estimations effectuées, ceci suscitant par conséquent une analyse comparative. L intérêt de cette comparaison réside dans le fait que, en général, lorsqu on veut évaluer la pauvreté monétaire en se servant des indicateurs de pauvreté FGT, on attribue un même poids aux unités statitistiques, ceci imposant une expression particulière aux estimateurs de ces indicateurs et qui coïncide avec un estimateur de la moyenne empirique dans le cas d un sondage aléatoire simple. De ce fait, l on aimerait savoir s il y a gain ou perte de précision dans l estimation des indicateurs de pauvreté selon qu ils soient construits suivant le principe d un échantillonnage aléatoire simple ou le principe d un échantillonnage stratifié à deux degrés. Le résultat escompté étant le gain de précision dans les estimations suivant le plan de sondage utilisé par ECAM 3, cette analyse critique permettra donc lors de la prochaine ECAM, de mieux considérer le choix de la procédure d analyse des indicateurs de pauvreté. Dans la présente étude, notre travail consistera donc à faire une analyse critique autour de la construction des indicateurs de pauvreté. Sur la base des estimations de leur précision,
INTRODUCTION GÉNÉRALE 2 il s agira alors d apprécier la qualité des différentes possibilités de construction des estimateurs d indicateurs de pauvreté. Pour répondre à la problématique posée, nous utiliserons les techniques d estimation dans différents plans de sondage, en particulier celles des sondages probabilistes. Travail à faire Notre travail s articule autour de deux parties composées chacune de deux chapitres. Dans la première partie : Le chapitre 1 présente, de façon synthétique, la théorie des sondages probabilistes. On parlera du sondage aléatoire simple, du sondage stratifié, du sondage à probabilités inégales, et du sondage à plusieurs degrés. Suite à la difficulté que l on rencontre dans le calcul des probabilités d inclusion doubles et qui entraine les problèmes d estimations des précisions, ce chapitre présente aussi les principales méthodes d estimation de précision par Bootstrap pour différents plans de sondage qui ont été évoqués. Le chapitre 2 introduit la notion de pauvreté et présente de façon concise les indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984. Il propose des estimateurs, ainsi que leurs calculs et estimateurs de précision respectifs pour les indicateurs FGT suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3. Dans la deuxième partie : Le chapitre 3 propose une présentation et une analyse descriptive des données soumises à notre étude. Le chapitre 4 présente et analyse les résultats des estimations des indicateurs FGT, ainsi que les résultats des estimations des précisions et ensuite propose une comparaison entre les différentes estimations de précision obtenues suivant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3. Nous terminerons par une Conclusion qui proposera une synthèse de ce qui aura été évoqué dans les précedents chapitres et les différents résultats numériques et graphiques seront obtenus, d une part, par le logiciel EXCEL de MICROSOFT et, d autre part, par les commandes écrites à partir du logiciel R.
3 Première partie Notions de sondage et indicateurs de pauvreté FGT
Généralités sur la théorie des sondages et estimation de la précision 4 Chapitre 1 Généralités sur la théorie des sondages et estimation de la précision Dans ce chapitre nous présenterons quelques notions statistiques en sondage nécessaires pour l étude de notre problématique. Nous nous intéresserons uniquement aux sondages probabilistes. 1.1 Généralités sur la théorie des sondages 1.1.1 Introduction Un sondage est une démarche qui consiste à collecter et à traiter de l information auprès des individus d un échantillon représentatif d une population donnée. Le sondage est l une des disciplines statistiques s appliquant à de nombreux domaines tels que : le domaine électoral : l estimation des pourcentages de voix obtenues par les candidats lors d une élection s effectue par sondage ; le domaine social : le calcul des indices l indice des prix à la consommation, l indicateur de bien-être,... sont directement issus de relevés obtenus par sondage ; le domaine industriel : le contrôle de qualité de fabrication de produits sur une chaîne d usine s effectue par sondage. De manière générale l on distingue deux grandes classes de sondage : les sondages probabilistes : ils sont ceux pour lesquels chaque individu de la population à une probabilité connue d avance d être selectionné dans l échantillon. les sondages empiriques : ils sont opposés aux sondages probabilistes. Dans la suite du chapitre, nous parlerons de la théorie mathématique fondée sur des sondages, et nous nous intéresserons uniquement aux sondages probabilistes. Considérons une population U {1,..., N} constituée d un ensemble d individus représentant les unités de base auxquelles on s intéresse. Nous supposons que cette population est
Généralités sur la théorie des sondages et estimation de la précision 5 bien déterminée les unités sont identifiables, de taille finie et connue notée N. Considérons aussi une variable d intérêt quantitative ou qualitative représentant l information qui nous intéresse, que l on notera Y, définie sur chaque individu de cette population. Cette variable doit être définie de façon aussi précise que possible afin d éviter les erreurs d observation. L identifiant d un individu de la population sera noté i, et la valeur prise par la variable Y sur cet individu sera notée Y i. Par la suite, on supposera que Y i ne dépend que de i. En général, on ne cherche pas à connaître la valeur prise par chacun des individus i de la population, mais plutôt une fonction des Y i qui constitue l information qu on cherche à acquérir. Cette fonction peut être une somme une moyenne la variance la dispersion σ 2 = 1 N T = Y = 1 N Y i Y i Yi Y 2 S 2 = 1 N 1 Yi Y 2 ou une fonction complexe telle qu un coefficient de corrélation linéaire entre deux variables Y et Z ρ = N N Yi Y Z i Z Yi Y 2 N ou encore le ratio des totaux de deux variables Y et Z Zi Z 2 R = N Y i N Z i L enquête statistique ne s intéresse donc pas aux individus en tant que tels, mais seulement à l agrégation de leurs réponses individuelles pour atteindre le but proposé. Nous noterons que ce problème d agrégation est plus ou moins simple selon qu on réalise une enquête par recensement ou une enquête par sondage. Mais la plupart de temps, un recensement étant généralement très couteux en argent, et en temps d analyse statistique, nous sommes souvent obligés d utiliser une enquête par sondage. En dehors de la question des coûts, l enquête par sondage présente d autres avantages tels que : le nettoyage rapide des données, l approfondissement de certains domaines qui ne peuvent être qu effleurés lors d un recensement où le questionnaire se doit d être très simple et rapide à remplir. Les problèmes fondamentaux du sondage réside dans :
Généralités sur la théorie des sondages et estimation de la précision 6 La sélection de l échantillon d individus. On s interroge sur la méthode à utiliser pour tirer les individus de l échantillon, appalée «plan de sondage» ; Le problème de l agrégation des réponses collectées auprès des individus enquêtés. On souhaiterait savoir comment agréger les réponses obtenues et jusqu à quel point peut-on avoir confiance aux résultats obtenus. Dès lors, nous constatons que le sondage n est conçu qu en examinant les quatre questions suivantes : l estimateur d un agrégat et sa précision dépendent fondamentalement de la méthode de tirage ; la précision dépend de l estimateur utilisé ; la méthode de tirage est autonome dans sa réalisation, mais elle est choisie en fonction de la précision souhaitée et de la complexié qu il y a à calculer les estimateurs ; la méthode de tirage et, éventuellement, la formulation de l estimateur déterminent le coût global de l enquête, et vice versa. 1.1.2 Formalisation et vocabulaire de base Dans la conception d un sondage, nous serons donc amenés à répondre aux quatre questions précédemment évoquées. Cet activité nécessitant une théorie mathématique, nous nous proposons, dans cette section, de faire une formalisation relative à ces questions. Paramètre et estimateur La fonction des valeurs individuelles inconnues Y i qui nous intéresse est un paramètre de la population U que nous cherchons à calculer, c est-à-dire une grandeur fixée, mais inconnue, que nous noterons : θ = g Y 1, Y 2, Y 3,..., Y N, où N est la taille connue de la population. Dans notre étude, nous ne nous intéresserons qu au cas où θ est un paramètre numérique. Ce paramètre représente la vraie valeur qu il faut estimer, puisqu il fait intervenir tous les individus de la population. Compte tenu du fait qu effectuer un recensement serait très couteux, la variable d intérêt Y est alors collectée sur un échantillon noté s de taille n tiré par une méthode appropriée. Dans ce cas, nous nous intéressons aux individus de l échantillon et, par conséquent, pour les identifier, il est nécessaire d utiliser un système de double indice pour être clair et continuer à raisonner sur les identifiants. L identifiant du j e individu de l échantillon sera donc noté i j, j = 1,..., n et i = 1,..., N. Une fois l échantillon tiré, nous disposons de l information suivante sous réserve que tout le monde réponde et que les réponses soient exactes : Y i1, Y i2, Y i3,..., Y in
Généralités sur la théorie des sondages et estimation de la précision 7 Cherchant toujours θ, il faut combiner ces n valeurs pour obtenir une expression dont la valeur numérique soit on l espère proche de θ et la formule agrégeant les n valeurs s appelle l estimateur de θ que nous noterons : θ = g Y i1, Y i2, Y i3,..., Y in Les mesures des erreurs d échantillonnage Lorsqu on construit un estimateur, il est nécessaire d évaluer sa pertinence. Cette évaluation n est pas immédiate pour la simple raison que l on ne connait pas θ. Cependant, grâce à l outil statistique, nous pouvons apporter des réponses satisfaisantes en exploitant l aspect probabiliste des sondages. Dans les sondages, la nature de l aléa se situe exclusivement au niveau des identifiants des individus de l échantillon. Ainsi l aléa provient de l échantillon i 1, i 2, i 3,..., i n, et non des données Y i1, Y i2, Y i3,..., Y in. Notre estimateur θ est donc aléatoire, car est une fonction de l échantillon s qui est aléatoire. C est l étude des «dégats»occasionnés par l aléa sur θ qui constitue la réponse à la question : jusqu a quel point peut-on avoir confiance en l estimateur de θ? Dans cette section nous parlerons du biais, de la variance et de l EQM comme outils possibles d évaluation de l ampleur de ces dégats. Notons E = s 1, s 2,..., s K la liste des K échantillons de taille n qu on peut obtenir à partir de la population U de taille N. K = N n, si on fait un tirage avec remise K = C n N, si on fait un tirage sans remise Notons ps k la probabilité de tirer l échantillon s k. Les probabilités ps 1,..., ps K vérifient la contrainte K ps k = 1 k=1. Les ps k sont contrôlées par le sondeur qui choisit une méthode de tirage permettant de les respecter : donc il impose a priori de «bonnes»valeurs des ps k d une part, et fait en sorte que le mécanisme de tirage mis en oeuvre respecte ces valeurs a posteriori d autre part. Avant de réaliser un quelconque tirage, on obtiendra en moyenne pour la variable aléatoire θ, E θ = s E ps. θs où θs représente l estimation du paramètre θ dans l échantillon s. La préoccupation des sondeurs étant de réaliser un tirage pour lequel E θ soit proche de θ, on cherche à réduire la quantité : BIAIS = E θ θ = E θ θ
Généralités sur la théorie des sondages et estimation de la précision 8 qui constitue la première mesure de l erreur d échantillonnage que l on commet. En dehors du biais, une autre manière de mesurer la qualité d un échantillonnage est de calculer la variance de l estimateur θ définit par : V θ = E θ E θ 2 = ps. θs E θ 2 s E Dans le but de la comparer avec l estimateur ou de l utiliser pour le calcul des intervalles de confiance, il convient d utiliser sa racine carré qui nous donne une grandeur appelée écarttype de l estimateur θ et noté σ θ. Ces deux grandeurs constituent la seconde mesure de l erreur de l échantillonnage que l on commet : plus elles sont grandes, moins le plan de sondage est bon. Une autre grandeur permettant de mesurer la qualité d un échantillonnage est le coefficient de variation défini par si θ 0 : CV θ = σ θ θ. La troisième mesure de l erreur de l échantillonnage que l on commet est l Erreur Quadratique Moyenne EQM, qui englobe les notions de biais et de variance. Cette mesure se définit de la manière suivante : EQM = E θ θ 2 Et on montre que EQM = VARIANCE + BIAIS 2. Les différentes mesures que l on vient d exposer sont dues au fait que l on n enquête qu un échantillon s et non toute la population, et l ensemble de ces mesures constitue l erreur d échantillonnage. L existence d une erreur d échantillonnage peut s avérer immédiate lorsque l échantillon contient trop d individus atypiques. Ainsi, pour éviter une forte surestimation ou sous-estimation de l estimateur, une idée serait de supprimer les individus atypiques si on a une bonne connaissance de la population. Dans le cas contraire, la démarche la plus appropriée est d utiliser l une des procédures de redressement d estimateurs, notion que nous n aborderons pas dans cette étude. 1.1.3 Loi et intervalle de confiance d un estimateur Pour déterminer la précision de l estimateur θ d un paramètre θ, on utilise souvent la notion d intervalle de confiance. On détermine un intervalle, généralement centré sur l estimateur θ, et contenant la vraie valeur du paramètre avec un niveau de confiance fixé qui est généralement de 95%. Produire un intervalle de confiance suppose de connaître, même de façon approchée, la loi de l estimateur θ. Le plus souvent, on doit se contenter d une approximation asymptotique de cette loi. A l heure actuelle, la normalité asymptotique n est strictement établie que pour un nombre limité de plans de sondages, voir Chauvet 2007. De plus, dans une situation pratique d enquête, le sondeur est souvent confronté à des mécanismes aléatoires non maîtrisés tels que la non-réponse partielle ou totale de certains
Généralités sur la théorie des sondages et estimation de la précision 9 individus enquêtés dont l influence sur le comportement asymptotique des estimateurs est difficile à prendre en compte. Mais cela ne signifie pas qu il faut renoncer à définir des intervalles de confiance. Même si elle n est pas totalement validée sur le plan théorique, de nombreuses études empiriques par simulations ont démontré le bien-fondé de l hypothèse de normalité dans des situations réalistes, voir Chauvet 2007. Ainsi, pour construire un intervalle de confiance, on fait souvent l hypothèse que θ suit une loi gaussienne. Donc si on suppose que θ est sans biais et que θ N E θ = θ, σ 2 θ, l intervalle de confiance IC de niveau 95% de l estimateur θ s obtient comme suit : Soit Z α, le quantile d ordre α de la loi normale centrée réduite, avec α = 0.05. On a alors, comme Z α/2 = Z 1 α 2 : or, θ θ σ θ N 0, 1, 1 α = P r Z 1 α 2 N 0, 1 Z 1 α 2 1 α = P r Z 1 α θ θ 2 σ θ Z 1 α 2 = P r Z 1 α σ θ θ θ Z 2 1 α σ θ 2 = P r θ Z1 α σ θ θ θ + Z 2 1 α σ θ 2 IC = [ θ Z1 α σ θ; θ ] + Z 2 1 α σ θ 2 Il est à noter que dans l expression de cet intervalle de confiance, le terme σ 2 θ est inconnu car son expression littérale fait intervenir les valeurs Y i de tous les individus de la population, valeurs que nous ne possèdons pas. Pour donc palier à ce problème, il serait judicieux de trouver un estimateur de la variance σ 2 θ que nous noterons V θ. 1.1.4 Bases de sondage Pour pouvoir bien réaliser un tirage probabiliste, il est nécessaire de disposer, avant toute chose d une liste de toutes les unités d échantillonnage faisant partie du champ de l enquête appelée base de sondage. Nous considérons toujours que l unité d échantillonnage et l unité d observation coïncident. Cette liste doit avoir trois qualités principales, à savoir : Elle doit permettre de repérer l unité sans aucune ambiguïté. Une base de sondage doit être donc une liste d identifiants de bonne qualité. Par exemple, on identifie un logement par : la commune, le district, l immeuble auquel il appartient, le rang numérique qu on lui attribue dans l immeuble. Elle doit être exhaustive, c est-à-dire chaque unité faisant partie du champ de l enquête doit être nécessairement dans la liste des identifiants. Autrement dit, il ne faut
Généralités sur la théorie des sondages et estimation de la précision 10 oublier personne. Si ce n est pas le cas, on parle de base de sondage incomplète ou de défaut de couverture, et il s en suit un biais de l estimateur. Une manière de limiter ce biais est de procéder comme lorsqu on a à faire à des non-réponses. Elle doit être sans double compte, c est-à-dire aucun individu ne doit être présent deux fois dans la base, même et surtout sous deux identifiants différents. Dans le cas contraire, on introduit un biais de l estimateur. Notons que, dans la pratique, il est difficile de s affranchir du manque d exhaustivité et de la présence des doubles comptes. L important est de juger de leur impact et de ne conserver que les bases faiblement imparfaites. Par exemple, pour ce qui concerne les ménages, on considère le Recensement Général de la Population et de l Habitat RGPH comme une bonne base de sondage. Aux trois conditions précédentes, il est très fortement conseillé de conserver toute information auxiliaire de bonne qualité dont on dispose dans la base, car celle-ci pourra servir pour améliorer soit la méthode de tirage, soit l estimateur, soit les deux. C est la raison pour laquelle la première tâche du sondeur est de rechercher toutes les bases de sondage disponibles concernant la population qui l interesse, de juger de leur pertinence et éventuellement d utiliser des sources d information de diverses provenances pour enrichir au maximun sa base primitive. Il est à noter tout de même que l une des difficultés pratiques de l utilisation des sources de diverses provenances est de gérer l échantillonnage et la phase de collecte terrain à partir des systèmes d identification hétérogènes. L absence totale de base de sondage est un problème que l on rencontre dès que l on touche des populations d individus rares marginaux ou personnes travaillant dans un domaine professionnel très spécialisé, ou des populations au sein desquelles une rotation importante s effectue population vivant en communauté : communautés réligieuses, maison de retraite, foyers de personnes sans abri,... L absence totale de base de sondage peut aussi se constater lorsqu on s intéresse à d autres populations que celles composées d individus physiques. Par exemple pour mener une enquête agricole, il est impossible d avoir une base de sondage des champs cultivés sur l ensemble du territoire camerounais. 1.1.5 Différents types d erreurs rencontrés dans les enquêtes Lors des enquêtes, l on rencontre divers types d erreurs, notamment l erreur d échantillonnage que nous avons vu plus haut et qui n existe que dans les enquêtes par sondage, les erreurs due au défaut de couverture et à la non -réponse et l erreur d observation qui est due à la mauvaise obsevation de la variable d intérêt Y auprès d un individu i. L erreur d observation survient dans les questions sensibles sur des sujets tels que : le revenu, la sexualité, la drogue,... et est issu de : erreurs de bonne foi de l enquêté mémoire défaillante ; mauvaise compréhension de la question par l enquêté ;
Généralités sur la théorie des sondages et estimation de la précision 11 erreurs de codification gérance des questions ouvertes. L on rencontre aussi plusieurs autres causes d erreurs d observation. Pour pouvoir les éviter, il est recommandé de faire une formation des enquêteurs, faire une enquête pilote pour tester le questionnaire, effectuer des enquêtes de contrôle de l enquêteur en interrogeant à nouveaux des ménages tirés au sort parmi ceux qu il a enquêtés, bien formuler les questions posées. Les erreurs dues au défaut de couverture et à la non-réponse sont essentiellement liées à l existence d une base de sondage incomplète et à la non-réponse de certains individus aux questions posées. La base incomplète cause des biais. La non-réponse occasionne des pertes de précision et cause aussi des biais dans le sens où la non exhaustivité d une base se comporte comme une non-réponse. Une manière de corriger ces erreurs est d utiliser des procédures de redressement En résumé pour une enquête par sondage, ERREUR TOTALE = ERREUR D ÉCHANTILLONNAGE + ERREUR D OBSERVATION + ERREURS DUES AU DÉFAUT DE COUVERTURE ET A LA NON-RÉPONSE En général, les efforts de modélisation et de mesure sont portés sur l erreur d échantillonnage et sur l erreur due à la non-réponse. On ne sait que très peu de chose sur les erreurs d observation et de défaut de couverture. Pour mener à bien une enquête, plusieurs étapes à suivre sont élaborées et celles-ci sont résumées par le schéma suivant : 1.2 Les plans de sondage probabilistes et calcul de la précision d un estimateur 1.2.1 Introduction En général, la réalisation d un sondage tourne autour de deux grandes étapes qui sont : la méthode de tirage et l expression de l estimateur. Le choix de la méthode de tirage et de l estimateur constituent ce qu on appelle le plan de sondage. Définition 1.2.1 On appelle support du plan de sondage p, et on note Sp, l ensemble des échantillons ayant une probabilité non nulle d être selectionnés : Sp = {s k E; p s k > 0 avec 1 k K} Définition 1.2.2 Un plan de sondage p est dit de taille fixe égale à n si son support est inclus dans l ensemble des échantillons de taille n, autrement dit si seuls les échantillons de taille n ont une probabilité non nulle d être sélectionnés.
Généralités sur la théorie des sondages et estimation de la précision 12 On note s l échantillon aléatoire. Sa taille, qui peut être également aléatoire, sera notée n S. Dans notre étude où le plan de sondage est de taille fixe, on notera simplement n la taille de l échantillon. Comme nous l avons vu au début du chapitre, l on distingue deux classes de sondage, à savoir : le sondage probabiliste et le sondage empirique. Dans cette section, nous présenterons certains plans de sondage probabilistes classiques et nous nous intéresserons au paramètre θ ayant la forme d un total. Par conséquent, θ = α i.y i = T, où les α i, 1 i N, sont des coefficients données Son estimateur se met sous la forme : θ = W i s.y i = T i s où s représente l échantillon de taille n, W i s représente le poids de sondage attaché à l individu i de l échantillon s. Ce poids de sondage est égale à l inverse de la probabilité de sélection de l individu i dans l échantillon s. Le problème de sondage est donc un problème de pondération, c est-à-dire que chaque individu de l échantillon représente un certain nombre d individus de la population. Nous considérons aussi dans cette section que les biais et les variances ne traduisent que les erreurs d échantillonnage. Donc nous supposerons qu on travaille avec une base de sondage parfaite, des enquêteurs, des enquêtés, et un système de codification-saisie qui n introduisent aucune erreur d observation, et nous supposerons en plus qu il n existe pas de non-réponse. Dans la présentation des plans de sondage que nous ferons, notre préoccupation tournera autour des trois questions fondamentales suivantes : expression et calcul de l estimateur θ du paramètre θ ; expression de son biais et de sa variance vraie ; expression et calcul de l estimateur de cette variance. On notera E. respectivement V. l espérance respectivement la variance sous le plan de sondage p. De plus lors des calculs des erreurs d echantillonnage, on ne manipulera plus la probabilité de tirer l échantillon s notée ps,car complètement inopérationnelle parce ce que son calcul en pratique est trop complexe, mais on utilisera plutôt la probabibilté de sélection ou d inclusion d un individu i dans l échantillon. 1.2.2 Probabilités d inclusion Pour un plan de sondage fixé, on appelle probabilité d inclusion d ordre 1 de l individu i la probabilité P i qu a cet individu d être retenu dans l échantillon. Cette probabilité dépend
Généralités sur la théorie des sondages et estimation de la précision 13 du plan de sondage : P i = s E/i s ps. On appelle probabilité d inclusion d ordre 2 la probabilité que deux individus distincts i et j soient retenus conjointement dans l échantillon : P ij = s E/i,j s ps. Notons δ i, la variable aléatoire definie par : { 1 si i est tiré dans l échantillon, δ i = 0 sinon ; δ i suit une loi de Bernoulli BP i, car P i = P rδ i = 1. Propriété 1.2.1 Soit un plan de sondage, P i i U respectivement P ij i,j U, les probabilités d inclusion d ordre 1 respectivement d ordre 2 associées. Alors pour tous les individus i, j U, les variables aléatoires δ i et δ j vérifient les propriétés suivantes : E δ i = P i ; V δ i = P i 1 P i ; cov δ i, δ j = P ij P i P j. Démonstration. Voir Annexe de la section 1.2.2. Propriété 1.2.2 Soit un plan de sondage de taille fixe égale à n, P i i U respectivement P ij i,j U, les probabilités d inclusion d ordre 1 respectivement d ordre 2 associées. Alors : N P i = n; j U, N P ij = P j n 1 ; i j j U, N P ij P i P j = 0. Démonstration. Cette propriété est une conséquence de la précédente, en utilisant le fait que, comme le tirage est de taille fixe, N δ i = n. Voir Annexe de la section 1.2.2. 1.2.3 Choix des probabilités d inclusion et P-estimation Lorsque l on réalise une enquête, il est théoriquement possible de calculer la probabilité de sélection d une partie quelconque de U, éventuellement à un facteur près. On impose généralement au minimum que le plan de sondage respecte des probabilités d inclusion d ordre 1 préalablement fixées généralement proportionnellement à une variable auxiliaire. Le respect de ces probabilités d inclusion est primordial, car le théorême suivant assure que leur connaissance permet d estimer sans biais une fonctionnelle linéaire.
Généralités sur la théorie des sondages et estimation de la précision 14 Théorème 1.2.1 Si pour tout individu i U, P i > 0, alors T = i s P i Y i est un estimateur sans biais de T = N Y i Démonstration. En utilisant la propriété 1.2.1, nous avons : N Y i Y i E T = E δ i = E δ i = T P i P i T est appelé estimateur de Horvitz-Thompson ou P-estimateur du total T. On utilise également la dénomination d estimateur par les valeurs dilatées, car il s agit d un estimateur pondéré qui affecte un poids W i = 1 P i > 1 à chaque individu i de l échantillon. On dit encore que l individu i de l échantillon représente 1 P i individus de la population dans l estimation du total. Nous supposerons dans la suite que la condition «i {1,..., N} P i > 0» est toujours vérifiée. 1.2.4 Calcul et estimation de la variance Nous commençons ce paragraphe par un théorème donnant la forme générale de la variance pour un P-estimateur de total. Théorème 1.2.2 Le P-estimateur de total T a pour variance V T = j=1 Y i P i Y j P j P ij P i P j Cette variance peut être estimée sans biais par V 1 T = 2 Yi 1 P i + P i s i i s j s j i Y i P i Y j P j P ij P i P j P ij si et seulement si P ij > 0 i, j {1,..., N}. Cet estimateur est appelé estimateur de variance de Horvitz-Thompson. Démonstration. La démonstration du premier point est une conséquence de la propriété 1.2.1 voir Annexe de la section 1.2.4 Le second point est une conséquence du résultat suivant : Lemme 1.2.1 Soit g.,. une fonction quelconque de R vers R R. Alors la fonctionnelle g Y i, Y j j=1 j i
Généralités sur la théorie des sondages et estimation de la précision 15 est estimée sans biais par si et seulement si P ij > 0 i, j U. i s j s j i g Y i, Y j P ij Démonstration. Voir Chauvet 2007, page 24. Dans le cas d un plan de taille fixe, Sen, Yates et Grundy ont montré, en 1953, que la variance admettait une forme particulière, qui conduit à un second estimateur de variance. Théorème 1.2.3 Si le plan est de taille fixe, le P-estimateur de total T a pour variance V T = 1 2 j=1 j i Yi Y 2 j P i P j P ij. P i P j Cette variance peut être estmée sans biais par V 2 T = 1 2 i s j s j i Yi Y 2 j P i P j P ij P i P j P ij si P ij > 0, i, j U. Cet estimateur est appelé estimateur de variance de Sen-Yates-Grundy. Démonstration. Le premier point est une conséquence de la propriété 1.2.2 voir Annexe de la section 1.2.4 Pour le second point il se déduit du lemme 1.2.1. Une condition suffisante pour que cette estimateur soit positif est que P ij P i P j, i j U. 1.1 Les conditions 1.1 sont appelées conditions de Sen-Yates-Grundy. 1.2.5 Méthodes de calcul de précision Dans la littérature, nous comptons plusieurs méthodes d estimation de la précision notammant : la technique de linéarisation, la méthode du Jackknife, la méthodes des demiéchantillons équilibrés et le Bootstrap. Dans notre étude, nous nous intéresserons uniquement à la méthode d estimation par bootstrap. Le bootstrap a été intensement étudié pour des données indépendantes et identiquement distribuées, où l échantillonnage est fait avec remise, mais son adaptation aux enquêtes complexes n est pas directe. Dans le contexte d enquêtes, l idée du bootstrap est d imiter la manière dont ont été engendrées les données originales. Il implique de recalculer une statistique, utilisant un rééchantillonnage à partir d une population estimée F pour obtenir des échantillons bootstrap qui peuvent être représentés par F, donnant ainsi des statistiques
Généralités sur la théorie des sondages et estimation de la précision 16 correspondantes θ = f F. En répétant ce processus R fois indépendemment, l estimation de variance par bootstrap est donnée par : où : v R θ = 1 R 1 R r=1 F r est le r ime échantillon Bootstrap obtenu ; θ = 1 R R r=1 θ r. θ r θ 2, θ r = f Fr 1.2.6 Sondage aléatoire simple Principe Le sondage aléatoire simple est une méthode de tirage qui consiste à tirer dans une population de taille N un échantillon de taille fixe n sans remise à partir des seuls identifiants de façon à ce que chaque individu ait la même probabilité d inclusion, et cela sans aucune manipulation dans la population, ni intervention d aucune information auxiliaire. Cette méthode de tirage attribue à chaque échantillon s de taille fixe n qui peut être formé la même probabilité de sortie ps, égale à l inverse du nombre d échantillons distincts que l on peut constituer dans la population : ps = { 1 C n N si tailles = n, 0 sinon, et les probabilités d inclusion peuvent alors être déterminées exactement à tout ordre. On établit en particulier la propriété suivante : Propriété 1.2.3 Soit un plan de sondage aléatoire simple sans remise de taille n. Alors : P i = n, i U; N P ij = nn 1, i j U. NN 1 Démonstration. Voir Annexe de la section 1.2.6. Estimation et calcul de la précision Compte tenu de la propriété précédente, et d après le théorème 1.2.1, le P-estimateur sans biais du total de Y est donné par : T = i s Y i n N = N n Y i = Ny, où y désigne la moyenne empirique de la variable Y sur l échantillon s. Dans la cas du sondage aléatoire simple, Y est estimée sans biais par y et la précision de y peut être calculée exactement. i s
Généralités sur la théorie des sondages et estimation de la précision 17 Propriété 1.2.4 Soit s un échantillon de taille n tiré selon un sondage aléatoire simple, et y la moyenne simple calculée sur l échantillon. Alors sa variance est égale à : où V y = 1 f n S2, S 2 = 1 N 1 N Yi Y 2 désigne la dispersion de la variable Y sur toute la population U ; f = n le taux de sondage. N Cette variance peut être estimée sans biais par v y = 1 f n s2, où s 2 = 1 N 1 i s Y i y 2 désigne la dispersion de la variable Y sur l échantillon s. Démonstration. Voir Pascal Ardilly 2006, page 259 [10] 1.2.7 Sondage stratifié Principe Soit une variable à H modalités supposée connue avant l échantillonnage sur chaque individu de la population. On l utilise pour partitionner la population en H sous-populations appelées strates et notées G 1,..., G H, de taille respectives N 1,..., N H telles que : H N = N h. h=1 On suppose que l on prélève indépendamment dans chaque strate G h un échantillon s h de taille n h, selon un plan de sondage quelconque. Estimation et calcul de la précision Considérons, T le total de la variable Y sur la population U, et T h, le total de la même variable sur la strate G h. D après le théorème 1.2.1, Le P-estimateur sans biais de T s écrit T = i s Y i P i = H Y i H = T h, P i s i h h=1 où T h désigne le P-estimateur du total sur G h. Précisons que pour ce type de sondage si l on doit estimer la vraie moyenne h=1 Y = H h=1 N h N Y h,
Généralités sur la théorie des sondages et estimation de la précision 18 un estimateur est donné par : Y ST = H h=1 N h N y h, où y h désigne un estimateur de la vraie moyenne Y h dans chaque strate. Remarquons que si y h est un estimateur sans biais, alors Ŷ ST l est aussi propriété de l espérance mathématique. La variance de T et de Ŷ ST se calcule simplement en raison de l indépendance entre les strates : et H V T = V T h = H V Ŷ ST = V h=1 h=1 N h N y h = H V Th h=1 H h=1 Nh N 2 V y h Si on dispose d une information auxiliaire bien corrélée à la variable d intérêt Y, on peut s en servir en partitionnant la population en sous-populations aussi homogènes que possible vis-à-vis de la variable d intérêt. La variance sera alors d autant plus réduite que les strates sont homogènes et que l on tire un échantillon de taille plus importante dans les strates les plus hétérogènes. En ce qui concerne l estimation de la précision, dans le cas du sondage stratifié, une méthode d estimation consiste à appliquer le Bootstrap indépendamment sur chacune des strates formées. 1.2.8 Sondage à probabilités inégales Principe De même que le sondage aléatoire simple, le sondage à probabilités inégales s intéresse à des tirages dans la population brute toute entière telle qu elle se présente à l origine. Mais, contrairement au sondage aléatoire simple ou au sondage à probabilités égales, ce type de sondage est généralement utilisé lorsque l on dispose sur la base de sondage d une variable auxiliaire X à peu près proportionnelle à la variable d intérêt. En effet si on considère le théorème 1.2.3, on a dans le cas d un plan de taille fixe : Pour que V V T = 1 2 T = 0, il suffit que j=1 j i Yi Y 2 j P i P j P ij. P i P j Y i P i Y j P j 2 = 0, i, j U U. Pour cela si Yi est toujours positif, il suffit d avoir Y i p i constant, c est-à-dire P i proportionnel à Y i. Ainsi l estimateur T de T sera précis, en pratique si P i est à peu près proportionnelle à Y i pour chaque individu
Généralités sur la théorie des sondages et estimation de la précision 19 i de la population. Cependant, calculer P i en fonction de Y i n est pas approprié, car la valeur Y i est inconnue pour tout i avant l échantillonnage. Pour contourner cette difficulté, on choisit la valeur de P i, à partir d une variable auxiliaire X i également positive, connue sur l ensemble de la population, et à peu près proportionnelle à Y i. Donc, si P i est exactement proportionnelle à X i, c est-à-dire : i U, P i = λx i, oùλ est le coefficient de proportionnalité, et que X i est à peu près proportionnelle à Y i, on aura P i à peu près proportionnelle à Y i. Il est alors plus efficace d échantillonner les unités à probabilités proportionnelles à cette variable auxiliaire, plutôt que d échantillonner à probabilités égales. Si d aventure Y, n est plus systématiquement positive ou nulle, la règle d optimisation précédente ne s applique plus. Pour trouver le meilleur jeu de probabilités,vil faudrait en théorie résoudre le problème mathématique de minimisation de la variance V T sous la contrainte que les P i sont compris entre 0 et 1 et que leur somme vaut n fixé, puis s appuyer sur une variable auxiliaire X pas toujours positive à peu près proportionnelle à Y pour calculer effectivement les P i. La situation serait assez complexe dans ce cas de figure, car au-delà des difficultés liées à la complexité mathématique, s ajoute le problème de la non connaissance des P i,j, qui figureraient dans l expression du P i optimum. On peut néanmoins contoumer ce dernier problème en utilisant une expression de variance approchée, ne faisant pas intervenir les P i,j. On montre que pour obtenir P i proportionnelle à X i variable positive, il faut choisir dans le cas d un échantillon de taille fixe n : X i P i = n N l=1 X l où n est la taille de l échantillon N est la taille de la population une telle formule ne peut cependant être appliquée que dans le cas où, pour tout i dans la population c est-à-dire dans la base de sondage on vérifie que : nx i X i Estimation et calcul de la précision En supposant que la selection des individus de l échantillon se soit déroulée de façon à assurer à chaque individu de la population ait la probabilité P i d appartenir à l échantillon, pour estimer le vrai total T de la variable Y d après le théorème 1.2.1 on peut utiliser le
Généralités sur la théorie des sondages et estimation de la précision 20 P-estimateur : T = i s Y i P i = N l=1 X l Y i X i. n Pour estimer la moyenne Y, il suffira de diviser T par N. En ce qui concerne la précision, on montre que dans le cas des échantillons de taille fixe n tirés sans remise, on a : V V V T T T = 1 2 = 1 2 = j=1 j i Yi P i.p j P ij Y 2 j P i P j X i X j n N l=1 X.n N l l=1 X l j=1 j i D après le théorème 1.2.3, un estimateur sans biais de V i s P ij N l=1 X ly i nx i N l=1 X ly j nx j T s obtient selon : 2 V V V T T T = 1 2 Pi.P j P ij i s j s j i P ij Yi Y 2 j P i P j = 1 X i X j n 2 N l=1 X.n N l l=1 X l = i s j s j i P ij N l=1 X ly i nx i N l=1 X ly j nx j 2 Méthode d estimation Bootstrap On estime la variance dans le cas du sondage à probabilités inégales suivant l algorithme donné dans la figure 1.2 :
Généralités sur la théorie des sondages et estimation de la précision 21 Fig. 1.1 Bootstrap général pour un plan à probabilités inégales. Chauvet 2007 [6] Etape 1. Chaque individu i de s est dupliqué [1/P i ] fois, où [.] désigne l entier le plus proche. On obtient ainsi une pseudo-population U. Etape 2. On échantillonne dans U selon le plan de sondage p et avec les probabilités P i d origine pour obtenir un rééchantillon s de s. Soit θ une estimation du paramètre θ obtenue à partir du rééchantillon s. Etape 3. On répète l étape 2 un grand nombre de fois R fois pour obtenir l échantillon θ 1,..., θ R. La variance du paramètre θ est estimée par 1 R 1 R r=1 θ r θ 2 où θ = 1 R R θ r. r=1 Notons que, pour réaliser l étape 2 de cet algorithme, il est nécessaire d utiliser une méthode de tirage d échantillon qui permet d assurer à chaque individu i de la pseudopopulation U star, une probabilité d inclusion P i fixée d avance. Une des plus simples méthodes de tirage qui existent s appelle tirage systématique sur un fichier de probabilités cumulées, et fonctionne de la manière suivante : 1. considérer tous les individus i de la pseudo-population U star, et leurs probabilités P i, où 0 < P i < 1, 1 i N ; 2. fabriquer des enregistrements successifs de «longueur»p i, ce qui revient à cumuler les P i pour constituer notre fichier de probabilités cumulées. L enregistrement initial prend pour valeur P 1, le second P 1 + P 2, le troisième P 1 + P 2 + P 3, etc., et le dernier P 1 + P 2 +... + P N, c est-à-dire n ; 3. tirer un nombre aléatoire X entre 0 et 1 ; 4. retenir tous les enregistrements u vérifiant : A u 1 = P 1 + P 2 +... + P u 1 < X + I 1 < P 1 + P 2 +... + P u 1 + P u = A u où I est un indice de boucle qui varie de l à n pour I = 1, on retiendra le premier enregistrement si 0 < X < P 1, ce qui revient à poser A 0 = 0.
Généralités sur la théorie des sondages et estimation de la précision 22 1.2.9 Sondage à plusieurs dégrés :Cas du tirage à deux dégrés Principe Le sondage aléatoire simple présente deux inconvenients à savoir : la nécessité d une base de sondage exhaustive, le coût total élevé des déplacements éventuels des enquêteurs. Pour contourner ces deux difficultés, on peut utiliser la technique du sondage a plusieurs dégrés, qui fonctionne ainsi : on commence par construire des groupes d individus qui soient disjoints, et dont la réunion soit la population toute entière. Ensuite, on tire selon un plan de sondage quelconque de taille fixe, un certain nombre de groupes dans la base de sondage de groupes qui a été constituée. Chaque groupe est donc un «individu»ou «unité d échantillonnage»qu on appelle unité primaire UP. Ayant obtenu notre échantillon d UP, et en considérant ces UP les unes après les autres, on tire selon un plan de sondage quelconque de taille fixe des individus dans chaque UP. Ces individus tirés au sein des UP sont appelés unités secondaires US. Ce tirage est effectué à partir des bases de sondage dont on dispose dans chaque UP, chaque base regroupant tous les individus de l UP. Bien que cette méthode de tirage corrige les défauts du sondage aléatoire simple, en contrepartie elle est moins précise que lui. Une justification qualitative de cette affirmation est la suivante : lorsqu on forme des UP, dans la grande majorité des cas, les individus qui forment une UP donnée sont semblables du point de vue de la variable d intérêt Y. Le tirage au second degré perd alors de sa force car il consiste à recueillir plusieurs fois la même information auprès des individus de l UP. On parle alors d effet de grappe pour exprimer cette idée de redondance d information au sein des unités constituées au premier degré. Estimation et calcul de la précision On se place dans le cadre d un sondage à deux degrés. On suppose qu on tire des unités selon un plan de sondage quelconque de taille fixe à chaque degré. et on suppose en plus que le tirage d US s effectue d une manière indépendante d une UP à l autre. On note : M : nombre total d unités primaires constituées ; N i : taille de l UP i c est le nombre d unités secondaires recensées dans l UP i ; N : taille de la population totale : N = M N i ; m : taille de l échantillon d unités primaires ; n i : taille de l échantillon d unités secondaires dans l unité primaire i ; s : l échantillon des UP ; s i : l échantillon des US dans l UP i ;
Généralités sur la théorie des sondages et estimation de la précision 23 P i : la probabilité d inclusion de l UP i connue ; P j i :la probabilté d inclusion de l US j dans l UP i connue ; Y ij : valeur de Y pour l US j de l UP i ; T i : le total vrai de la variable Y dans l UP i inconnu. Le total T de la variable Y sur la population entière peut être estimé sans biais, d après le théorème 1.2.1 par son P-estimateur suivant : T = i s T i P i Y ij = i s = i s P j i P i j s i Y ij j s i P j i P i où T i désigne le P-estimateur du total T i sur l échantillon s i. Dans le cas où l échantillon s est de taille fixe et où l échantillon s i est de taille fixe dans chaque UP i, notons V s et E s les variance et espérance dues au tirage des UP, V si s et E si s les variance et espérance dues au tirage des US sachant les UP tirées. On montre alors que la variance de T est donnée par : V T = V s E si T s + E s V si T s 1.2 = 1 2 + 1 2 M M k=1 k i Ti P i.p k P ik T 2 k P i P k } {{ } V UP M N 1 i N i P i j=1 q=1 q j Pj i.p q i P i jq Y ij P j i Y iq P q i 2 } {{ } V US 1.3 1.4 où, P ik est la probabilité d inclusion double des UP i et k, Pjq i est la probabilité d inclusion double des US j et q dans l UP i, V UP variance associée au premier degré de tirage, V US variance associée au second degré de tirage. Pour la preuve, voir Chauvet 2007[6].
Généralités sur la théorie des sondages et estimation de la précision 24 D après le théorème 1.2.3 si P ij > 0, i, j {1,..., N} un estimateur sans biais de cette variance est donné par : V T = 1 Pi.P k P ik 2 i s k s k i P ik Ti T 2 k + 1 P i P k 2 i s 1 P i j s i Pj i.p q i Pjq i q s i q j P i jq Yij Y 2 iq P j i P q i Effet de grappe Définition 1.2.3 L effet de grappe survient dans les tirages à plusieurs degrés. Dans la très grande majorité des cas, il traduit un phénomène de perte de précision due à l existence d une similarité entre individus d une même UP. Chaque degré de tirage amène «son»effet de grappe, parce que les unités définies aux degrés ultérieurs ont davantage de ressemblance visà-vis de la variable Y étudiée. Pour la moyenne de la variable d intérêt Y et en considérant un plan de sondage complexe, l effet de grappe est défini par : Ŷ ρy = 1 n 1. V V sas y 1 où Si, n est la taille moyenne de l échantillon US par UP y est l estimateur de la moyenne Y, sous l hypothèse qu on ait réalisé un sondage aléatoire, i s n i m est la variance de y sous l hypothèse qu on ait réalisé un sondage aléatoire. ρy est négatif, cela traduit une dissimilarité entre les US d une même UP. Cette dissimilarité est d autant plus accentuée que ρ est petit. ρy est positif, cela traduit une similarité entre les US d une même UP. Cette similarité est d autant plus accentuée que ρ est grand., Effet de plan sondage Définition 1.2.4 L effet du plan de sondage ou design effect mesure l erreur faite en estimant la variance d une statistique en ignorant le plan de sondage, c est-à-dire en supposant à tort qu il s agit d un sondage aléatoire simple. Pour la moyenne de la variable d intérêt Y, et en considérant un plan de sondage complexe, il est défini par : V Ŷ DeffY = V sas y Si,
Généralités sur la théorie des sondages et estimation de la précision 25 DeffY < 1 alors il y a gain de précision de l estimateur Y si on considère le plan de sondage ayant permis de collecter les données, plutôt que celui d un sondage aléatoire simple, DeffY > 1 alors il y a perte de précision de l estimateur Y si on considère le plan de sondage ayant permis de collecter les données, plutôt que celui d un sondage aléatoire simple. Méthode d estimation Bootstrap Notons U p, la population d UP, et U s la population d US. On estime la variance dans le cas du sondage à deux degrés suivant l algorithme dans la figure 1.3 : Fig. 1.2 Bootstrap général pour un plan à deux degrés. Chauvet 2007 [6] Etape 1. Soit l UP i de s. Chaque US k de s i est dupliqué [ 1/P j i ] fois, où [.] désigne l entier le plus proche. On obtient ainsi une pseudo UP noté i. Etape 2. Chaque pseudo UP i est dupliqué [1/P i ] fois. On obtient une pseudo population U p de pseudo UP. Etape 3. On tire un échantillon s de U p selon un plan de sondage p, avec les probabilités d inclusion P i Etape 4. Soit i s. On tire un échantillon s i de pseudo US dans i selon le plan de sondage du second degré d origine, avec les probabilités d inclusion P j i. La même procédure est appliquée pour chaque i reunion des échantillons s i. s, on obtient ainsi un rééchantillon S Etape 5. Les étapes 3 et 4 sont répétées R fois, pour obtenir les rééchantillons S 1,..., S R. Une estimation de la variance du paramètre θ est donnée par : 1 R 1 R r=1 θ S r θ 2 ; où θ = 1 R R θ S r. r=1 et θ S r donne la valeur de l estimateur sur le rééchantillon S r
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 26 Chapitre 2 Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 Dans ce chapitre nous présentons de manière synthétique, les indicateurs de pauvreté FGT et, nous étudions leurs adaptations au plan de sondage utilisé par ECAM 3, ainsi qu au plan de sondage aléatoire simple. Ceci dans le but d évaluer la qualité des estimations des indicateurs de pauvreté FGT suivant ces plans de sondage. 2.1 Généralités sur les indicateurs de pauvreté FGT 2.1.1 Notion de pauvreté Les définitions de la pauvreté s élaborent en fonction de son comparateur le plus universellement reconnu, à savoir le bien-être. Le bien-être traduit le niveau d utilité qu un individu ou un ménage ressent, mais demeure inobservable. Deux indicateurs sont en pratique utilisés pour estimer le niveau de vie ou le bien-être monétaires des individus. Il s agit du revenu ou de la dépense de consommation. Les justifications du choix de l une ou de l autre des méthodes tiennent aux réalités sociales locales et des facilités associées à l élaboration d une information fiable et pertinente. Dans cette étude, on utilisera comme indicateur de bien-être monétaire, la dépense de consommation. Après avoir definit le concept de bien-être, la pauvreté peut être définie comme une situation illustrant une insuffisance des ressources matérielles manque d argent et des conditions de vie logement, équipements, participation à la vie sociale et économique, etc., ne permettant pas à des individus de vivre quotidiennement de façon digne selon les droits légitimes
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 27 et vitaux de la personne humaine. Le concept a donc une dimension économique et une dimension non économique. La pauvreté au sens économique est une notion à la fois facile à comprendre et difficile à définir même si elle fait l objet actuellement d un consensus. Elle désigne le manque ou la mauvaise qualité de ressources naturelles, financières, immatérielles, etc. vécu par des personnes, groupes de personnes, régions du monde, etc. La pauvreté économique est le plus souvent analysée sous les trois principales formes suivantes : 1. La pauvreté monétaire : C est le manque d argent, entraînant les difficultés pour se nourrir, s habiller, se loger. Elle traduit un manque de ressource pour satisfaire des besoins essentiels. Ainsi, un individu sera dit pauvre dès lors que le montant de revenu dont il dispose pour satisfaire ses besoins vitaux de base se nourrir, s habiller, se loger, aller à l école, etc. est inférieur à un certain seuil dit «seuil de pauvreté»qui constitue de fait un minimum vital. Du fait de sa simplicité, cette méthode de mesure est couramment utilisée pour définir les individus pauvres et mesurer le taux de pauvreté d une population. 2. La pauvreté des conditions de vie ou d existence : Elle résulte de l impossibilité de satisfaire les besoins qui permettent de mener une vie décente dans une société donnée et fait référence à une alimentation insuffisance ou à la malnutrition, à l absence d éducation, d un logement insalubre... Elle est plus difficile à cerner que la pauvreté monétaire du fait que son champ est plus vaste et surtout très subjectif. 3. La pauvreté des potentialités : Elle exprime le manque de moyens permettant de sortir d une situation de pauvreté. Outre la dimension économique, la pauvreté s exprime sous des dimensions non-économi ques. Il s agit des dimensions sociale, culturelle, psychologique, politique et ethnique de la pauvreté, en somme des dimensions quasiment non monétaires. 2.1.2 Indicateurs de pauvreté monétaire A nos jours, plusieurs indicateurs de pauvreté monétaire ont été établis notammant dans la litterature on parlera de l indice de SEN, qui a été généralisé par Kakwani, de l indicateur de Shorrocks, de l indice de Clark, Hemming et Ulph et des indicateurs de Foster, Greer et Thorbecke 1984 [3]. Dans la présente étude, notre intérêt est porté sur les indicateurs de pauvreté FGT que l on note I α et qui se définissent de la manière suivante : α Z Yi 1 Yi Z, I α = 1 N Z où Y i désigne l indicateur de bien-être qui est la dépense de consommation,
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 28 Z désigne le seuil de pauvreté, N désigne la taille de la population, α désigne une constante prenant les valeurs 0, 1, 2. Ces indicateurs représentent des mesures de l evaluation de la pauvreté globale.on choisit généralement pour α les valeurs 0, 1 et 2. pour α = 0, I 0 désigne l incidence de la pauvreté, pour α = 1, I 1 désigne la profondeur de la pauvreté, pour α = 2, I 2 désigne la sévérité de la pauvreté. S il y a N personnes dans la population et que q d entre elles sont pauvres, c est-à-dire qu elles ont un niveau de consommation annuelle Y i par tête inférieure au seuil de pauvreté Z Y i Z pour q individus, l incidence de pauvreté est H = q/n. Cet indicateur est facile à interpréter et à présenter. Toutefois, l incidence de pauvreté présente plusieurs inconvénients. En particulier, cet indicateur n informe pas sur la situation réelle des pauvres, tous étant placés au même niveau, quel que soit leur degré de pauvreté. Pour bien comprendre, supposons q une personne pauvre devienne encore plus pauvre. Cette évolution n aura aucun effet sur l incidence de la pauvreté. Celle-ci n est donc pas sensible aux différences d intensité de la pauvreté. La profondeur de la pauvreté, qui est basée sur le déficit global des pauvres par rapport au seuil de pauvreté, est un meilleur indicateur à cet égard. Elle rend compte de la distance moyenne qui sépare les pauvres du seuil de pauvreté et donne donc une meilleure idée de l intensité de cette dernière. La profondeur de la pauvreté présente l inconvénient de ne pas prendre en compte de manière convaincante les différences d intensité de la pauvreté entre les pauvres. Pour cette raison, on utilise également la sévérité de la pauvreté qui pondère les écarts de pauvreté des pauvres par ces mêmes écarts de pauvreté aux fins de l évaluation de la pauvreté globale. 2.2 Adaptation des indicateurs FGT au plan de sondage utilisé par ECAM 3 2.2.1 Présentation du plan de sondage d ECAM 3 Dans cette section, nous faisons la description de la procédure d échantillonnage lors de l enquête ECAM 3. La description des données recueillies sera faite dans le chapitre 3. Echantillonnage L un des objectifs de l enquête ECAM 3 en 2007, est d étudier la pauvreté sous toutes ses formes aux niveaux national et régional, notamment : la pauvreté monétaire, la pauvreté en termes de conditions de vie des ménages, la pauvreté de potentialités et la pauvreté
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 29 subjective et d établir les corrélations entre ces différentes formes de pauvreté. L INS, pour répondre à ces objectifs réalise un échantillonnage de la population des ménages ordinaires par opposition aux ménages collectifs : internats, casernes, hôpitaux, couvents, etc. résidant sur l ensemble du territoire national, à l exclusion des membres du corps diplomatique et de leurs ménages. L unité statistique est donc le ménage ordinaire. Les unités d observation sont en même temps le ménage logement, habitat, dépenses indivisibles du ménage, etc. et les individus caractéristiques démographiques, dépenses individuelles, etc.. Base de sondage La base de sondage disponible et utilisée est constituée des zones de dénombrement ZD obtenues à partir des travaux de cartographie du troisième Recensement Général de la Population et de l Habitat RGPH3 de 2005, réalisés par le Bureau Central des Recensements et d Etudes de Population BUCREP. L utilisation de cette base pour le tirage de l échantillon de l ECAM3 a été judicieuse, compte tenu du plan de sondage adopté, lequel implique des tirages indépendants dans chaque strate à l intérieur de chaque région. Plan de sondage Le plan de sondage, par définition, étant le choix d une méthode de tirage de l échantillon et celui d un estimateur,dans ce paragraphe nous présenterons la méthode de tirage de l échantillon utilisée par ECAM 3, et, dans une autre section, nous parlerons du choix d un estimateur permettant d évaluer le niveau de pauvreté au Cameroun. Ainsi dans ECAM 3, la méthode de tirage appliquée est de type aléatoire stratifié à deux degrés. La stratification est faite dans le souci de disposer des analyses de la pauvreté au niveau national, mais également au niveau provincial du pays. Les deux principales métropoles du Cameroun que sont Douala et Yaoundé constituent deux strates urbaines à part, tandis que chacune des dix provinces est constituée de trois strates d enquête, à savoir une strate urbaine grandes villes, d au moins 50 000 habitants, une strate semi-urbaine petites villes, de 10 000 à moins de 50 000 habitants et une strate rurale petites agglomérations de moins de 10 000 habitants. Ainsi, la stratification effectuée comporte 32 strates d enquête, à savoir 12 urbaines Yaoundé, Douala et la strate urbaine de chacune des 10 provinces du pays, 10 strates semi-urbaines et 10 strates rurales une par province. Dans chaque strate, un tirage à deux degrés est effectué : tirage des ZD proportionnellement à leurs tailles sondage à probabilités inégales au premier degré, et sondage aléatoire simple de ménages au second degré dans chaque ZD sélectionnée au premier degré.
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 30 2.2.2 Estimations des indicateurs de pauvreté FGT et calcul de la préscision L évaluation de la pauvreté monétaire nécessite de disposer de trois éléments : un indicateur de mesure du bien-être, un seuil de pauvreté et des indicateurs de mesure de la pauvreté qui dans notre cadre sont les indicateurs FGT. L indicateur de bien-être est un agrégat de consommation des ménages par équivalentadulte. Il est construit en trois étapes. D abord, on calcule un agrégat de consommation au niveau du ménage. Ensuite, pour tenir compte des différences dans la composition des ménages, on le normalise en divisant l agrégat de consommation par le nombre d équivalentadulte du ménage voir tableau 4.7 en Annexe B. Enfin, on procède à une dernière normalisation en le divisant par un déflateur spatial qui prend en compte les différences du coût de la vie entre les régions. L agrégat comprend : les dépenses alimentaires y compris les repas pris à l extérieur du ménage, la consommation alimentaire non-monétaire résultant de l autoconsommation et des dons, la valeur d acquisition des biens non durables et des services, une estimation de la valeur d usage des biens durables et la valeur imputée du logement pour les ménages propriétaires ou logés gratuitement par un tiers. Après l indicateur de bien-être, il faut disposer d un seuil de pauvreté. Ce seuil est conçu de manière à permettre aux personnes qui sont classées comme non pauvres de satisfaire au minimum leurs besoins vitaux. Il est composé du seuil de pauvreté alimentaire et du seuil de pauvreté non alimantaire. Après avoir défini un agrégat de bien-être et construit un seuil de pauvreté, il reste à déterminer les indicateurs FGT. En tenant compte du plan de sondage utilisé lors de l échantillonnage et sous l hypothèse que la base de sondage est parfaite et qu il n y a pas de non-réponses, un estimateur des indicateurs FGT que l on obtient est donné par : Î α = H h=1 N h N Îh α, α {0, 1, 2}, où H est le nombre de strates de l échantillon ; N h représente le nombre de ménages dans la strate h ; N représente la population totale des ménages ; Îh α représente un P-estimateur des indicateurs FGT dans chaque strate h. Selon la méthode de tirage d ECAM 3, un tirage à deux degrés est appliqué dans chacune des strates constituées, avec tirage des ZD proportionnellement à leur taille et sondage aléatoire
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 31 simple de taille fixe n i dans chaque ZD i. Ainsi donc, en appliquant la section 1.2.9 on a : où, Î h α = 1 N h i s h Îh α = 1 N h avec, P i = m h N i N h, P j i = n i N i, N h = M h j s i,h i s h j s i,h N i, P i désigne la probabilité de sélection de la ZD i, Z Yij α1 Z Yij Z P i P j i α Z Yij Z 1Yij Z P j i P i P j i désigne la probabilité de sélection du ménage j dans la ZD i, Y ij désigne la dépense de consommation annuelle moyenne par équivalent-adulte du ménage j de la ZD i, s h représente l échantillon des ZD tirées dans la strate h, s i,h représente l échantillon des ménages tirés dans la ZD i échantillonnée de la strate h, m h désigne le nombre de ZD tirées dans la strate h, M h désigne le nombre total de ZD dans la strate h, N i désigne le nombre total de ménages dans la ZD i n i désigne le nombre de ménages tirés dans la ZD i, Propriété 2.2.1 D après le théorème 1.2.1, Îh α, α {0, 1, 2}, est un estimateur sans biais de I h α et par conséquent Îα est aussi un estimateur sans biais de I α. En remplaçant P i et P j i par leur expression respective, il s en suit une forme simplifiée de Î h α donnée par : et, par conséquent, Î α = Î h α = i s h H h=1 i s h j s i,h j s i,h N h Nm h n i α Z Yij Z 1Yij Z n i m h α Z Yij 1 Yij Z Cet estimateur affecte à chaque ménage tiré j de chaque strate h, un poids de sondage : W j = N h m h n i, Z
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 32 égale au nombre de ménages qu il représente dans chaque strate. Ayant établi un estimateur des indicateurs FGT Îα, l une de nos préoccupation est de savoir jusqu à quel point peut-on avoir confiance en celui-ci. Pour répondre à cette question, on se propose de calculer sa variance. Comme α {0, 1, 2} Î α = H h=1 N h N Ih α, et du fait de l indépendance des tirages entres les strates, alors : V or, V Îα Îh α = = V H h=1 Nh N 2 V 1 N h i s h j s i,h Îh α ; Z Yij Z α 1Yij Z P j i P i. Posons V α ij = V Z puis T h = i s h Îh α α Z Yij 1 Yij Z, = 1 V Nh 2 j s i,h V α ij, le P-estimateur du total de la variable V dans la strate h P j i P i Th D après la section 1.2.9 et le théorème 1.2.3, posons T ih = V Th = 1 2 + j N ih V α M h M h M h 1 P i ij, le vrai total de la variable V dans la ZD i de la strate h, alors : k=1 k i j=1 Tih P i.p k P ik T 2 kh P i P k N ih N ih Pj i.p q i Pjq V α i ij q=1 q j V iq α P j i P q i 2 Où, P ik est la probabilité d inclusion double des ZD i et k, P i jq est la probabilité d inclusion double des ménages j et q dans la ZD i
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 33 Par conséquent, V V Îh α Îα = 1 2N 2 h + 1 N 2 h = + H h=1 H h=1 M h M h M h Nh N Nh k=1 k i 1 P i j=1 Tih P i.p k P ik T 2 kh P i P k N ih N ih Pj i.p q i Pjq V α i ij 2 q=1 q j 1 2Nh 2 2 1 N N 2 h M h M h M h k=1 k i 1 P i j=1 V iq α P j i P q i 2 Tih P i.p k P ik T kh P i P k N ih N ih Pj i.p q i Pjq V α i ij q=1 q j 2 V α 2 iq P j i P q i Or, ayant effectué un sondage aléatoire simple au second tirage et comme P j i = n i N i V Îα P i = m h N i N h, = + = + H h=1 H Nh N Nh N h=1 H Nh h=1 H h=1 N Nh N 2 1 M h M h 2Nh 2 2 2 2 1 N 2 h 1 2Nh 2 1 M h N h m h k=1 k i N h m h N 2 i M h M h k=1 k i M h Ni 2 Tih P i.p k P ik T kh P i P k 1 n i S α 2 2,i N i n i Tih P i.p k P ik T kh P i P k 1 n i S α 2 2,i N i n i 2 2 avec S α 2,i 2 = 1 N i 1 N i j=1 V α ij Vi α 2, V α i = 1 N i D après le théorème 1.2.3 si P ij > 0, i, j {1,..., N}, un estimateur sans biais de V N i j=1 V α ij. Îα
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 34 est donné par : avec V V Îα Îα = + = + H h=1 H h=1 H h=1 H h=1 Nh N Nh N Nh N Nh N 2 2 2 2 1 2Nh 2 i s h 1 Nh 2 1 Pi.P k P ik Tih k s h k i i s h 1 P i 2Nh 2 i s h j s ih P ik P i Pj i.p q i Pjq i q s ih q j P i jq Pi.P k P ik Tih 1 N h m h k s h k i i s h N 2 i s α 2,i 2 = 1 N i 1 v α i = 1 N i P ik P i 1 n i s α 2 2,i N i n i V α ij vi α j s ih Vij α, j s ih 2, T kh P k V α ij T kh P k 2 V iq α P j i 2 P q i 2 Du fait de la présence des probabilités d inclusion double dans cette expression de l estimateur de la variance et de la complexité à les calculer directement, pour avoir une estimation de la variance nous allons procéder par la technique de réplication Bootstrap en faisant pour ce plan de sondage, une adaptation des algorihtmes Bootstrap qui ont été proposés dans le chapitre 1. 2.3 Adaptation des indicateurs FGT au plan de sondage aléatoire simple En faisant comme si lors d ECAM 3, les données ont été recueillies suivant un plan de sondage aléatoire simple, un estimateur des indicateurs FGT que l on note Îsas α, avec α {0, 1, 2}, est obtenu par : Î sas α = 1 α Z Yi 1 Yi Z, n Z i s où s est l échantillon des ménages tirés, n est la taille de l échantillon.
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 35 sous le plan d un sondage aléa- 2.3.1 Propriétés de l estimateur Îsas α toire simple Propriété 2.3.1 Sous l hypothèse qu on ait effectué un sondage aléatoire simple, d après le théorème 1.2.1 et la propriété 1.2.3, Îsas α est un estimateur sans biais de I α Pour évaluer la qualité de cet estimateur, on se propose de calculer sa variance. D après la propriété 2.3.1, et sous l hypothèse que les données sont collectées suivant un plan de sondage aléatoire simple, comme Îα sas = 1 α Z Yi 1 Yi Z. n Z i s α Z Posons V α Yi 1 Yi Z, V sas Îsas α i = = 1 n Z 1 n N.S 2 où S 2 est la dispersion de la variable V sur toute la population des ménages : S 2 = 1 N 1 V α i V α 2, et V α est la moyenne de la variable V sur toute la population des ménages : V α = 1 N D après la propriété 2.3.1, un estimateur sans biais de V sas Îsas α V sas Îsas α = 1 n V α i 1 n.s 2, N est donné par : où s 2 est la dispersion de la variable V sur l échantillon des ménages : s 2 = 1 n 1 n V α i v α 2, et v α est la moyenne de la variable V sur l échantillon des ménages : v α = 1 n n V α i.
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 36 2.3.2 Propriétés de l estimateur Îsas α par ECAM 3 sous le plan de sondage utilisé Propriété 2.3.2 Sous le plan de sondage utilisé par ECAM 3, Îsas α est un estimateur biaisé de I α Démonstration. En effet, E E Îsas α = E 1 n j s V α j = 1 n E N j=1 V α j δ j = 1 n or, E δ i = P r δ j = 1 = P r j s = 1 W j = m hn i Îsas α = 1 n j=1 = m hn i N I α nn h m h n i Vj α N h N h j=1 V α j E δ j Notons B Îsas α, le biais de l estimateur Îsas α. B Îsas α = E Îsas α I α = m hn i N I α I α nn h = m hn i N nn h I α nn h Et alors, sous le plan de sondage utilisé par ECAM 3, Îsas α biais m hn i N nn h nn h I α. Comme Îsas α est un estimateur biaisé de I α de est un estimateur biaisé de I α, pour calculer sa précision nous nous proposons de calculer son EQM. Nous avons vu que : EQM Îsas α = V Îsas α + B Îsas α 2
Généralités sur les indicateurs de pauvreté FGT, leurs adaptations aux différents plans de sondage et calcul de leur précision : cas d ECAM 3 37 EQM or, E EQM Îsas α 2 Îsas α Îsas α = E 2 Îsas α E Îsas α 2 = E Îsas mh n i N α nn h 2 = E 1 Vj α n j s = E 1 N n 2 = 1 n 2 = 1 n 2 E = m hn i n 2 N h = m hn i n 2 N h j=1 j=1 j=1 mh n i N nn h j=1 j=1 2 j δ j V α V 2α j δ j + V 2α j E δ j + V 2α j + 1 n 2 V 2α j + 1 n 2 I α j=1 j=1 j=1 j=1 2 Îsas + B α 2 + m hn i N nn h I α k=1 k j nn h Vj α Vk α δ j δ k k=1 k j k=1 k j k=1 k j 2 + m hn i N nn h nn h Vj α Vk α E δ j δ k V α j V α k E δ j δ k V α j V α k E δ j δ k I α I α Pour obtenir les estimations du biais, de la variance et de l EQM de widehatiα sas, nous allons utilisé les méthodes Bootstrap qui ont été définies au chapitre 1.
38 Deuxième partie Applications numériques
Présentation et Analyse descriptive des données 39 Chapitre 3 Présentation et Analyse descriptive des données 3.1 Présentation des données 3.1.1 Origine des données Au cours de l ECAM 3, l INS réalise un échantillonnage de la population des ménages ordinaires. Pour obtenir cet échantillon de ménages, dans chaque région du Cameroun, des strates 32 strates ont été formées, notamment : des strates urbaines, semi-urbaines, et rurales. Nous préciserons que Douala et Yaoundé ont eté considérées comme des strates urbaines. Dans chaque strate de chaque région, des ZD Zone de dénombrement ont été tirées et, à l issue d un dénombrement dans chaque ZD tirée, des ménages ont été tirés. Ainsi, 12 ménages par ZD ont été tirés au cours de l enquête proprement dite et 18 ménages par ZD ont été tirés au cours de l enquête légère à Douala et Yaoundé ; 18 ménages par ZD ont été tirés au cours de l enquête proprement dite et 24 ménages par ZD ont été tirés au cours de l enquête légère dans les autres strates. Ainsi, la répartition de l échantillon des ZD et de l échantillon des ménages s est faite suivant le tableau 4.9 de l Annexe B. L ECAM 3 étant une enquête multi-objectif, les informations collectées sur les ménages échantillonnés s articulera autour de plusieurs domaines d investigation. Le tableau 4.10 de l Annexe B précise le contenu des différents section du support de collecte. Dans le cadre de notre étude, nous nous intéresserons particulièrement aux sections décrites dans le tableau 3.1.
Présentation et Analyse descriptive des données 40 Tab. 3.1 Sections du questionnaire utilisées, extraites de l ECAM 3 Section Objectifs Principaux indicateurs ou Variables 0. Renseignement généraux Identification du ménage, Ville ou région, renseignement sur le ménage numéro séquentiel de la ZD, numéro séquentiel du ménage dans la ZD, strate de résidence 1. Composition du ménage et Listage des caractéristiques Statut de résidence, sexe, caractéristiques des des membres du ménage âge, lien avec le chef de membres du ménage ménage, état matrimonial, etc. 14. Dépenses et acquisitions Dépenses annuelles moyennes par Dépenses totales du ménage, rétrospectives du ménage poste santé, éducation, etc., coefficients budgétaires loyers, Coefficients budgétaires des différents postes de dépenses 15. Dépenses et acquisitions Consommation alimentaire, Seuil de pauvreté, incidence, quotidiennes du ménage Consommation non alimentaire, profondeur, sévérité, Transferts de revenus, contribution des groupes Autoconsommation à la pauvreté et mesures d inégalités, etc. 3.1.2 Présentation des variables Les données mises à notre disposition proviennent de la base de données d ECAM 3 et sont consignées sur une feuille de calcul EXCEL ; nous travaillerons donc avec un jeu de données de 11391 observations, dont les variables utilisées sont présentées ci-après. Variables qualitatives Les variables qualitatives qui sont utilisées dans cette étude sont présentées dans le tableau 3.2 :
Présentation et Analyse descriptive des données 41 Tab. 3.2 Variables qualitatives Noms des variables Libellés des variables Codages des modalités S0Q1 Villes/Régions 1=Douala 2=Yaoundé 3=Adamaoua 4=Centre 5=Est 6=Extrême-Nord 7=Littoral 8=Nord 9=Nord-Ouest 10=Ouest 11=Sud 12=Sud-Ouest S0Q2 Numéro séquentiel de la ZD Aucun S0Q4 Numéro du ménage dans la ZD Aucun S0Q9 Strate de résidence 1=Strate urbaine 2=Strate semi-urbaine 3=Strate rurale NIVIE Niveau de vie 1=Pauvre 0= Non pauvre Strates Variable ajoutée Fusion des variables S0Q1 et S0Q9 Aucun Variables quantitatives 3.3 : Comme variables quantitatives, nous utiliserons les variables données dans le tableau
Présentation et Analyse descriptive des données 42 Tab. 3.3 Variables quantitatives Noms des variables Libellés des variables Codages DEPUC Y i Dépense par unité de consommation En milliers de ou par equivalent-adulte coefext Variable ajouté Coefficient d extrapolation Aucun ou poids de sondage FCFA par An seuil Z seuil de pauvreté En milliers de Z = 269443 V 0 variable ajoutée V 0 = Z Yi Z niveau de vie V 1 Variable ajoutée V 1 = Z Yi Z 0 1Yi <Z 1 1Yi <Z Ecart de pauvreté V 2 Variable ajoutée V 2 = Z Yi Z 2 1Yi <Z i s i s i s Ecart de pauvreté au carré FCFA par An Aucun Aucun Aucun 3.2 Analyse descriptive des données Une analyse descriptive des données est un exercice permettant de se faire une première idée de la structure et de la qualité des données. Concernant la qualité des données, pour les variables retenues dans l étude, nous n avons observé aucune donnée manquante. Cependant, on pourrait détecter la présence de valeurs atypiques, mais c est dans les sections qui suivent que nous serons fixés. Dans la suite, des statistiques descriptives univariées et bivariées seront effectuées afin de mieux appréhender la structure des données. 3.2.1 Analyse univariée Une analyse univariée permet d établir des statistiques descriptives sur des variables prises une par une. Variables quantitatives Des analyses seront effectuées sur les variables DEPUC, V 0, V 1, et V 2. Ainsi le tableau 3.4 nous présente un résumé de ces variables.
Présentation et Analyse descriptive des données 43 Tab. 3.4 Résumé numérique des variables quantitatives Variables Min 1 er Quartile Médiane Moyenne 3 e Quartile Max Ecart-type DEPUC 82110 280600 443900 597400 714200 11340000 580537.1 En milliers de FCFA par an V 0 0 0 0 0.2298 0 1 0.42 V 1 0 0 0 0.0622 0 0.695 0.14 V 2 0 0 0 0.0235 0 0.483 0.066 Nous constatons une faible dispersion de la variable DEPUC, contrairement aux autres variables V 0, V 1, et V 2. Le 3 e quartile de V 0 étant égale à 0, nous pouvons dire qu au moins 3/4 des ménages échantillonnés sont considérés comme non pauvres. Les figures 3.1 et 3.2 présentent respectivement la boîte à moustaches et la distribution empirique de la variable DEPUC. La figure 3.1 nous permet de détecter plusieurs ménages atypiques, soit environ Fig. 3.1 Boîte à moustaches de DEPUC 2848 ménages. Tandis que la figure 3.2 nous montre la distribution dissymétrique de la variable DEPUC, et celle-ci semble très éloignée de la distribution normale représentée en rouge dont les paramètres sont la moyenne et l écart-type de la variable DEPUC. Grâce au test de normalité de Jarque Bera, nous obtenons une p-value asymptotique inférieure à 2.2e-16, ce qui nous permet de confirmer la non normalité de la variable DEPUC.
Présentation et Analyse descriptive des données 44 Fig. 3.2 Distribution empirique de DEPUC Variables qualitatives Le tableau 3.5 nous présente un résumé des variables Strates et NIVIE. Ce tableau consigne donc les fréquences des modalités des variables concernées.
Présentation et Analyse descriptive des données 45 Tab. 3.5 Résumé numérique des variables qualitatives Variables Modalités Fréquence Strates Adamaoua.Strate rurale 197 Adamaoua.Strate semi urbaine 106 Adamaoua.Strate urbaine 276 Centre.Strate rurale 395 Centre.Strate semi urbaine 143 Centre.Strate urbaine 258 Douala.Strate urbaine 1049 Est.Strate rurale 193 Est.Strate semi urbaine 124 Est.Strate urbaine 270 Extrême-Nord.Strate rurale 764 Extrême-Nord.Strate semi urbaine 119 Extrême-Nord.Strate urbaine 600 Littoral.Strate rurale 190 Littoral.Strate semi urbaine 125 Littoral.Strate urbaine 322 Nord-Ouest.Strate rurale 669 Nord-Ouest.Strate semi urbaine 178 Nord-Ouest.Strate urbaine 635 Nord.Strate rurale 297 Nord.Strate semi urbaine 105 Nord.Strate urbaine 371 Ouest.Strate rurale 558 Ouest.Strate semi urbaine 159 Ouest.Strate urbaine 577 Sud-Ouest.Strate rurale 408 Sud-Ouest.Strate semi urbaine 139 Sud-Ouest.Strate urbaine 607 Sud.Strate rurale 178 Sud.Strate semi urbaine 102 Sud.Strate urbaine 255 Yaoundé.Strate urbaine 1022 NIVIE "0" 8773 "1" 2618
Présentation et Analyse descriptive des données 46 3.2.2 Analyse bivariée Dans cette section, nous étudions la distribution empirique de la variable DEPUC en fonction des variables qualitatives Strates et NIVIE. Pour cela, nous étudions la liaison qui existe entre la variable DEPUC et la variable Strates via le calcul d un rapport de corrélation et un test d indépendance, ce qui permettra d étudier l hétérogeneité inter strates du point de vue de la dépense de consommation annuelle moyenne par ménage. Par la suite, nous étudions l homogeneité intra- strates, ainsi que l incidence de la pauvreté dans chacune des strates. En calculant le rapport de corrélation nous obtenons une valeur de 0.37, ce qui signifie qu il existe une disparité entre les strates du point de vue de la dépense de consommation annuelle moyenne par ménage. Mais cette disparité reste moins élevée que la disparité à l interieur des strates. D après le test d indépendance de Kruskal-Wallis, nous obtenons une p-value inférieure à 2.2e-16, ce qui implique qu il existe au moins deux strates hétérogènes entres elles et donc conduit à une hetérogeneité inter strates, du point de vue de la variable DEPUC. Au regard des figures 3.3 à 3.14, établies suivant chaque région et chaque strate, et à travers les boîtes à moustaches qui s y trouvent nous pouvons envisager une hétérogeneité des ménages échantillonnés dans chaque strate. De plus, ces boîtes à moustaches nous permettent de détecter la présence d individus atypiques dans chaque strate. Sur ces mêmes figures, des courbes de fonctions de répartition de la variable DEPUC par strate sont représentées et elles sont traversées par un trait vertical rouge représentant la ligne de pauvreté :
Présentation et Analyse descriptive des données 47 Pour la région de l Adamaoua Fig. 3.3 Distribution empirique par strate de DEPUC dans la région de l Adamaoua Nous constatons que dans la strate "Adamaoua.Strate rurale" il y a environ 40% de ménages échantillonnés pauvres ; dans la strate "Adamaoua.Strate semi urbaine" il y a environ 30% de ménages échantillonnés pauvres ; et, dans la strate "Adamaoua.Strate urbaine", il y a environ 20% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 48 Pour la région du Centre Fig. 3.4 Distribution empirique par strate de DEPUC dans la région du Centre Nous constatons que dans la strate "Centre.Strate rurale" il y a environ 40% de ménages échantillonnés pauvres ; dans la strate "Centre.Strate semi urbaine" il y a environ 20% de ménages échantillonnés pauvres ; et, dans la strate "Centre.Strate urbaine", il y a environ 15% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 49 Pour la ville de Douala Fig. 3.5 Distribution empirique de DEPUC dans la ville de Douala Nous constatons que dans la strate "Douala.Strate urbaine" il y a environ 1% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 50 Pour la région de l Est Fig. 3.6 Distribution empirique par strate de DEPUC dans la région de l Est Nous constatons que dans la strate "Est.Strate rurale" il y a environ 40% de ménages échantillonnés pauvres ; dans la strate "Est.Strate semi urbaine" il y a environ 40% de ménages échantillonnés pauvres ; et, dans la strate "Est.Strate urbaine" il y a environ 10% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 51 Pour la région de l Extrême-Nord Fig. 3.7 Distribution empirique par strate de DEPUC dans la région de l Extrême-Nord Nous constatons que dans la strate "Extrême-Nord.Strate rurale" il y a environ 70% de ménages échantillonnés pauvres ; dans la strate "Extrême-Nord.Strate semi urbaine" il y a environ 40% de ménages échantillonnés pauvres ; et, dans la strate "Extrême-Nord.Strate urbaine" il y a environ 20% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 52 Pour la région du Littoral Fig. 3.8 Distribution empirique par strate de DEPUC dans la région du littoral Nous constatons que dans la strate "Littoral.Strate rurale" il y a environ 20% de ménages échantillonnés pauvres ; dans la strate "Littoral.Strate semi urbaine" il y a environ 10% de ménages échantillonnés pauvres ; et, dans la strate "Littoral.Strate urbaine" il y a environ 20% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 53 Pour la région du Nord-Ouest Fig. 3.9 Distribution empirique par strate de DEPUC dans la région du Nord-Ouest Nous constatons que dans la strate "Nord-Ouest.Strate rurale" il y a environ 40% de ménages échantillonnés pauvres ; dans la strate "Nord-Ouest.Strate semi urbaine" il y a environ 20% de ménages échantillonnés pauvres ; et, dans la strate "Nord-Ouest.Strate urbaine" il y a environ 3% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 54 Pour la région du Nord Fig. 3.10 Distribution empirique par strate de DEPUC dans la région du Nord Nous constatons que dans la strate "Nord.Strate rurale" il y a environ 60% de ménages échantillonnés pauvres ; dans la strate "Nord.Strate semi urbaine" il y a environ 40% de ménages échantillonnés pauvres ; et, dans la strate "Nord.Strate urbaine" il y a environ 5% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 55 Pour la région de l Ouest Fig. 3.11 Distribution empirique par strate de DEPUC dans la région de l Ouest Nous constatons que dans la strate "Ouest.Strate rurale" il y a environ 20% de ménages échantillonnés pauvres ; dans la strate "Ouest.Strate semi urbaine" il y a environ 20% de ménages échantillonnés pauvres ; et, dans la strate "Ouest.Strate urbaine" il y a environ 10% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 56 Pour la région du Sud-Ouest Fig. 3.12 Distribution empirique par strate de DEPUC dans la région du Sud-Ouest Nous constatons que dans la strate "Sud-Ouest.Strate rurale" il y a environ 20% de ménages échantillonnés pauvres ; dans la strate "Sud-Ouest.Strate semi urbaine" il y a environ 10% de ménages échantillonnés pauvres ; et, dans la strate "Sud-Ouest.Strate urbaine" il n y a aucun ménage échantillonné pauvre.
Présentation et Analyse descriptive des données 57 Pour la région du Sud Fig. 3.13 Distribution empirique par strate de DEPUC dans la région du Sud Nous constatons que dans la strate "Sud.Strate rurale " il y a environ 20% de ménages échantillonnés pauvres ; dans la strate "Sud.Strate semi urbaine" il y a environ 15% de ménages échantillonnés pauvres ; et, dans la strate "Sud.Strate urbaine" il y a environ 2% de ménages échantillonnés pauvres.
Présentation et Analyse descriptive des données 58 Pour la ville de Yaoundé Fig. 3.14 Distribution empirique de DEPUC dans la ville de Yaoundé Nous constatons que dans la strate "Yaoundé.Strate urbaine", il y a environ 1% de ménages échantillonnés pauvres. Le tableau 3.6 présente les écarts-type de la variable DEPUC en fonction des modalités de la variable Strates. Suivant chacune de ces modalités, nous observons une forte dispersion de la variable DEPUC, nous permettant ainsi de conclure à une hétérogeneité intra strates.
Présentation et Analyse descriptive des données 59 Tab. 3.6 Ecart-type et moyenne de DEPUC dans chaque strate Variables Strates Ecart-type Moyenne DEPUC Adamaoua.Strate rurale 222646.3 339696.2 Adamaoua.Strate semi urbaine 354752.9 488063.7 Adamaoua.Strate urbaine 474892.4 671534.9 Centre.Strate rurale 247336.9 405781.5 Centre.Strate semi urbaine 371854.1 529876.8 Centre.Strate urbaine 467218.9 520573.5 Douala.Strate urbaine 795887.2 902098.2 Est.Strate rurale 245469.9 364792.1 Est.Strate semi urbaine 386623.6 456812.2 Est.Strate urbaine 467085.5 662849.8 Extrême-Nord.Strate rurale 200269.8 279459.7 Extrême-Nord.Strate semi urbaine 328584.1 436184.5 Extrême-Nord.Strate urbaine 564164.3 671449.8 Littoral.Strate rurale 411382 479473 Littoral.Strate semi urbaine 314629.7 509489.6 Littoral.Strate urbaine 447375.7 496940.1 Nord-Ouest.Strate rurale 241999.8 347335 Nord-Ouest.Strate semi urbaine 397083.7 487689.9 Nord-Ouest.Strate urbaine 839343 779033.3 Nord.Strate rurale 167083.6 273314 Nord.Strate semi urbaine 394882.9 459777.6 Nord.Strate urbaine 591265.9 641130.5 Ouest.Strate rurale 274095.4 429416 Ouest.Strate semi urbaine 301897.1 500422.6 Ouest.Strate urbaine 417302.6 558427.5 Sud-Ouest.Strate rurale 389899.6 480413.8 Sud-Ouest.Strate semi urbaine 389211.7 675185.8 Sud-Ouest.Strate urbaine 634357.7 802721 Sud.Strate rurale 408603 500062.1 Sud.Strate semi urbaine 499825 607190.8 Sud.Strate urbaine 533805.4 712996.3 Yaoundé.Strate urbaine 868942.5 942387.7
Applications aux données d ECAM 3 60 Chapitre 4 Applications aux données d ECAM 3 En considérant le plan de sondage aléatoire simple et le plan de sondage utilisé par ECAM 3 sondage stratifié à deux degrés, dans ce chapitre nous présentons et analysons les résultats des estimations des indicateurs FGT, ainsi que de leurs précisions respectives. Ensuite nous effectuons une comparaison de ces précisions. 4.1 Application de l analyse pour le plan de sondage aléatoire simple Comme nous l avons souligné, de manière générale pour appliquer les indicateurs de pauvreté FGT dans les analyses, on utilise un estimateur ayant la forme analytique d un estimateur de la moyenne empirique dans le plan de sondage aléatoire simple. Dans le cadre de l évaluation de la pauvreté au Cameroun, si nous considérons les estimateurs des indicateurs FGT obtenus sous la plan de sondage aléatoire simple : Îsas α des I α définis dans la section 2.3, et les propriétés de ces estimateurs sous le plan de sondage utilisé par ECAM 3, on obtient les estimations résumées dans le tableau 4.1. Au vu de ce tableau, la profondeur de la pauvreté Tab. 4.1 Estimations des indicateurs de pauvreté FGT Îsas α par ECAM 3. sous le plan de sondage utilisé Indicateurs Estimation biais.boot σ.boot eqm.boot Incidence de pauvreté 23% 4.9e 04 0.001 1.85e 06 Profondeur de pauvreté 6.22% 1e 04 4e 04 1.76e 07 Sévérité de pauvreté 2.35% 6.4e 05 1.7e 04 3.4e 08 biais.boot : biais bootstrap, σ.boot : Ecart-type bootstrap, eqm.boot : erreur quadratique moyenne bootstrap. qui mesure la distance moyenne entre la dépense annuelle de consommation par équivalentadulte des ménages pauvres et le seuil de pauvreté est environ de 6.2%. Cette profondeur
Applications aux données d ECAM 3 61 correspond à une intensité de la pauvreté de près de 23%.La sévérité de la pauvreté, qui mesure l aversion des populations vis-à-vis de la pauvreté, ou l inégalité entre les pauvres, est située à environ 2.35%. Ce résultat montre qu il existe une diversité entres les ménages pauvres, c est-à-dire que le niveau de pauvreté des ménages varie en moyenne de 2% d un ménage pauvre à l autre, mais cette diversité semble petite, ce qui signifie que la population des pauvres tend à s homogénéiser. Nous précisons que toute personne sera considérée pauvre si elle vit dans un ménage pauvre. En considérant le 1000-échantillon des estimations de l incidence de la pauvreté obtenu par la méthode bootstrap, nous nous proposons de vérifier la normalité de l estimateur de l incidence de la pauvreté afin de construire son intervalle de confiance. Pour ce faire, si nous considérons la figure 4.1, nous remarquons en regardant l histogramme et la courbe de densité représentée en blue que la distribution enpirique de l estimateur de l incidence de pauvreté ne tend pas vers une distribution gaussienne représentée en rouge dont les paramètres sont la moyenne et l écart-type de l estimateur. Ce constat nous permet ainsi d émettre l hypothèse de non-normalité de ces estimateurs, et pour confirmer cette hypothèse nous effectuons un test de normalité de Shapiro, et nous obtenons les résultats consignés dans le tableau 4.2. Donc avec un risque de 5% de se tromper, nous rejetons l hypothèse selon Tab. 4.2 Test de normalité des estimateurs Îsas α des indicateurs FGT. Indicateurs P-value Incidence de pauvreté < 2.2e 16 Profondeur de pauvreté < 2.2e 16 Sévérité de pauvreté < 2.2e 16 laquelle les estimateurs Iα sas suivent une loi normale. En considérant la méthode de replication Bootstrap, nous obtenon alors les intervalles de confiance des estimateurs I sas α respectifs suivant le tableau 4.3 Tab. 4.3 Intervalles de confiance des indicateurs FGT. Indicateurs IC Incidence de pauvreté [22.6%; 23.1%] Profondeur de pauvreté [6.1%; 6.3%] Sévérité de pauvreté [2.30%; 2.37%] IC : Intervalle de Confiance.
Applications aux données d ECAM 3 62 Fig. 4.1 Distribution empirique des estimateurs Îsas α des I α. 4.2 Application de l analyse pour le plan de sondage utilisé par ECAM 3 Si nous considérons le plan de sondage utilisé par ECAM 3, dans cette section nous analysons les estimations des indicateurs de pauvreté FGT obtenues à travers les estimateurs Î α construits dans la section 2.2, ainsi que les estimations de leurs précisions. D après le tableau 4.4 des estimations ci-dessous : Nous constatons que les estimations des indicateurs FGT dans ce plan de sondage sont légèrement plus grandes que celles obtenues dans le plan de sondage précédent. En effet, suivant ce plan de sondage, les résultats que nous avons obtenus traduisent qu on enregistre 23.9% de ménages pauvres au Cameroun contre 23% obtenu précédemment, ayant une profondeur de la pauvreté de près de 0.065 contre 0.062 obtenu précédemment, et dont la sévérité de la pauvreté est environ de 0.025 contre 0.023 obtenu précédemment. ces précisions ont varié par rapport celles obtenues dans la section
Applications aux données d ECAM 3 63 Tab. 4.4 Estimations des indicateurs de pauvreté FGT Îα, et de leurs précisions dans le cas du plan de sondage utilisé par ECAM3. Indicateurs Estimation σ.boot Incidence de pauvreté 23.88% 1.3e 03 Profondeur de pauvreté 6.5% 3.85e 04 Sévérité de pauvreté 2.4% 1.6e 04 σ.boot : Ecart-type bootstrap 4.1. Dans une autre section, nous analyserons cette variation. En considérant le 1000-échantillon des estimations des indicateurs de pauvreté FGT obtenu par la méthode bootstrap, nous nous proposons de vérifier la normalité des estimateurs de ces indicateurs afin de construire leurs intervalles de confiance. Pour ce faire, si nous considérons la figure 4.2, ainsi que le tableau 4.5 représentés ci-dessous, nous constatons qu on rejette l hypothèse selon laquelle les estimateurs Îα de I α dans ce type de plan de sondage suivent la loi normale. Cette hypothèse de confirme d avantage lorsqu on regarde dans le tableau 4.5, les p-value du test de normalité de ces estimateurs. Nous sommes sûre avec un risque de se tromper de 5% qu ils ne suivent pas une loi normale.
Applications aux données d ECAM 3 64 Fig. 4.2 Distribution empirique des estimateurs Îα des I α Tab. 4.5 Test de normalité des estimateurs Îα des indicateurs FGT. Indicateurs p-value Incidence de pauvreté < 2.2e 16 Profondeur de pauvreté < 2.2e 16 Sévérité de pauvreté < 2.2e 16 En considérant la méthode de replication Bootstrap, nous obtenon alors les intervalles de confiance des estimateurs Îα respectifs suivant le tableau 4.6
Applications aux données d ECAM 3 65 IC : Intervalle de Confiance. Tab. 4.6 Intervalles de confiance des indicateurs FGT. Indicateurs IC Incidence de pauvreté [23.5%; 24.1%] Profondeur de pauvreté [6.4%; 6.5%] Sévérité de pauvreté [2.4%; 2.46%] 4.3 Comparaison des précisions Dans cette section, il est question d effectuer une analyse comparative des précisions des estimateurs des indicateurs FGT. En plus, afin de mieux apprécier la qualité des estimations de précisions effectuées dans les section 4.1 et 4.2, nous calculons pour ce faire, en considérant que la taille de la population des ménages est de N = 3391817 d après [4], l effet du plan de sondage Deff et l effet de grappe ρ définis dans la section 1.2.9, pour chacun des estimateurs Î sas α et Îα. Ayant calculé ces précisions dans le cas d un plan de sondage aléatoire simple, puis dans le cas d un plan de sondage stratifié à deux degrés plan de sondage utilisé par ECAM 3, nous obtenons le tableau comparatif 4.7
Applications aux données d ECAM 3 66 Tab. 4.7 Comparaison des estimations des précisions des indicateurs de pauvreté FGT. Indicateurs eqm.boot.sas σ.boot.sadg Deff.sas ρ.sas Deff.sadg ρ.sadg Incidence 1.36e 03 1.3e 03 0.119 1.3e 07 0.108 1.16e 07 de pauvreté Profondeur 4.2e 04 3.85e 04 0.102 1.23e 08 0.086 1.03e 08 de pauvreté Sévérité 1.8e 04 1.6e 04 0.0892 2.38e 09 0.067 1.78e 09 de pauvreté eqm.boot.sas : erreur quadratique moyenne de Îα sas sous le plan de sondage utilisé par ECAM 3, σ.boot.sadg : écart-type de Îα pour le plan de sondage utilisé par ECAM 3, Deff.sas : Effet du plan de sondage pour Îsas α, ρ.sas : Effet de grappe pour Îsas α, Deff.sadg : Effet du plan de sondage pour Îα, ρ.sadg : Effet de grappe pour Îα. Nous constatons que les estimateurs des indicateurs de pauvreté FGT obtenus suivant le plan de sondage utilisé par ECAM 3 sont légèrement plus précis que ceux obtenus suivant le plan de sondage aléatoire simple. Nous pouvons aussi constater que pour chacun des estimateurs des indicateurs de pauvreté FGT, l effet de plan de sondage est inférieur à 1, ce qui veut dire que le fait de supposer à tort que les données lors d ECAM 3 ont été recueillies suivant un sondage aléatoire simple entraine des sous-estimations des variances des estimateurs des indicateurs de pauvreté FGT. De plus comme un tirage à deux degrés avait été effectué lors d ECAM 3, nous remarquons à travers ce tableau que pour chacun des estimateurs des indicateurs de pauvreté FGT, une estimation de l effet de grappe du premier degré du tirage est négatif. Ce qui signifie que dans chaque ZD echantillonné les ménages sont différents les uns des autres et par conséquent d après la définition de l effet de grappe a permis à l amélioration des précisions calculées dans le plan de sondage utilisé par ECAM 3.
CONCLUSION 67 Conclusion L objectif de notre étude était de faire une analyse critique autour la construction des indicateurs de pauvreté FGT pour l évaluation de la pauvreté monétaire, ceci étant du au fait que ces indicateurs sont souvent utilisés en attribuant un même poids à chaque unité statistique échantillonné. La base de données qui était à notre disposition était issue de la troisième Enquête Camerounaise Auprès des Ménages ECAM 3, réalisée au Cameroun en 2007. Cette enquête avait pour but principal d une part d actualiser le profil de pauvreté à travers certains indicateurs dont les indicateurs de pauvreté FGT Foster, Greer et Thorbecke, 1984 et d actualiser les différents indicateurs des conditions de vie des ménages établis en 2001 et d autre part d évaluer l impact des principaux programmes et politiques mis en oeuvre dans le cadre de la lutte contre la pauvreté. Il était donc question pour nous d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas d un plan de sondage aléatoire simple, ensuite d évaluer les précisions des estimateurs des indicateurs de pauvreté FGT dans le cas du plan de sondage utilisé par ECAM 3 plan de sondage stratifié à deux degrés et enfin de faire une comparaison des estimations de précisions obtenues dans chacun des deux plans de sondage. Ce qui nous premettrait de savoir s il y a gain ou perte de précision dans l estimation des indicateurs de pauvreté selon qu ils soient construits suivant le principe d un échantillonnage aléatoire simple ou le principe d échantillonnage stratifiée à deux degrés. Les techniques d estimations dans différents plans de sondage, en particulier celles du sondage aléatoire simple, du sondage stratifié, du sondage à probabilités inégales et du sondage à deux degrés, et les méthodes d estimation de variance par Bootstrap dans les plan de sondage à probabilités inégales et de sondage à deux degrés nous ont permis de répondre, à ces questions. Nous avons trouvé que les estimations des indicateurs de pauvreté FGT sont plus précis lorsqu on tient compte du plan de sondage utilisé par ECAM 3 que lorsqu on tient compte du plan de sondage aléatoire simple. Toutefois, nous devons souligner que dans le cas du plan de sondage utilisé par ECAM 3 les estimations de précisions pourrait être améliorées si on prenait soin de mieux élaborer la stratification des régions du Cameroun. En effet nous avons remarqué lors de l analyse descriptive que la qualité de la stratification n était pas bonne à cause d une forte hétérogéneité du point de vue de la dépense de consommation annuelle moyenne des ménages dans chacune des strates. De
CONCLUSION 68 plus, concernant les méthodes d estimation Bootstrap dans les plans de sondage, il serait judicieux de s interesser aux critères de validité de Bootstrap afin de savoir si les estimations de variance obtenues par Bootstrap sont consistantes. Compte tenu du fait que le temps imparti ne nous a pas permis d approfondir ces travaux, nous envisageons le faire à l avenir. Nous recommandons à l INS, pour la prochaine ECAM de reconsidérer le choix d une information auxiliaire pour la procédure de stratification et dans chaque strate constituée de faire porter l effort d une augmentation de taille de l échantillon des ZD plutôt que sur la taille de l échantillon des ménages dans chaque ZD. Ceci pour permettre d améliorer la qualité des estimations. Nul ne conteste la multidimensionnalité de la pauvreté. Pauvreté peut rimer avec mauvaise santé, éducation insuffisante, faible revenu, faible dépense des consommations, logement précaire, travail difficile ou non protégé, insécurité alimentaire ou encore rejet des riches. Ainsi nous leur suggérons aussi d envisager une mesure de la pauvreté multidimentionnelle et ce partant d une extension des indicateurs de pauvreté FGT proposée par Alkire et Foster 2007 ; 2009. ce qui permettra de mieux caracteriser le pauvre au Cameroun.
ANNEXES 69 Annexes Annexes A ############################################################################### ######################## APPLICATIONS NUMERIQUES ############################## ############################################################################### ##################### Chargement des packages utilisés ######################## # Package pour les tests de normalité n>5000 libraryfbasics #################### Chargement des tableaux de données ####################### #------ Tableau de l échantillon des ménages ordinaires ----# # - Lignes : ménages # # - Colonnes : variables # #-----------------------------------------------------------# ecam3=read.table"ecam3.csv",sep=";",header=t,dec="," #----- Tableau de l échantillon des Unités Primaires UP---# # - Lignes : unités primaires # # - Colonnes : caractéristiques des UP # #-----------------------------------------------------------# ecam3.up=read.table"ecam3.up.csv",sep=";",header=t,dec=","
ANNEXES 70 #---- Tableau de l échantillon des Unités Secondaires US--# # - Lignes : unités secondaires # # - Colonnes : caractéristiques des US # #-----------------------------------------------------------# ecam3.us=read.table"ecam3.us.csv",sep=";",header=t,dec="," attachecam3 NIVIE=as.factorNIVIE ######################## STATISTIQUES DESCRIPTIVES ############################# #------------------- Analyse univariée ---------------------# ### Variables quantitatives ### # Résumé de la variable "DEPUC" summarydepuc sddepuc boxplotdepuc,ylab="depuc",main="boxplot de DEPUC",col="grey" parmfrow=c1,2 histdepuc,col="grey" plotdensitydepuc,main="depuc" curvednormx,mean=meandepuc,sd=sddepuc,add=t,col="red" # Test de normalité de la variable "DEPUC" jarqueberatestdepuc # Résumé des variables V_0, V_1 et V_2 summaryv_0 sdv_0 summaryv_1 sdv_1 summaryv_2
ANNEXES 71 sdv_2 ### Variables qualitatives ### n.strates=summarystrates summarynivie #------------------- Analyse bivariée ----------------------# # Vecteur contenant les noms des strates names=levelsecam3[,"strates"] # Nombre de strates n=lengthnames # Taille de l échantillon N=nrowecam3 ### Liaison entre "DEPUC" et "Strates": Rapport de correlation # Liste des DEPUC en fonction des strates S=splitDEPUC,Strates # Calcul du rapport de corrélation:r Moy.strates=sapplyS,mean Var.strates=sapplyS,var Moy.gen=meansapplyS,mean C=c; D=c; fors in 1:n { C[s]=n.Strates[s]*Moy.strates[s]-Moy.gen^2 D[s]=n.Strates[s]*Var.strates[s] } V.inter=sumC/N V.intra=sumD/N R=sqrtV.inter/V.inter+V.intra
ANNEXES 72 # Test d indépendance : Kruskal-Wallis kruskal.testdepuc,strates # Résumé de DEPUC en fonction des strates et du niveau de vie lapplys,sd lapplys,mean # Boxplot de la variable "DEPUC" en fonction des strates ressemblance intra # strates ou pas et graphique de l incidence de la pauvreté # Fonction de repartition par strate L=lapplyS,ecdf # Adamaoua parmfrow=c2,3 boxplots[[1]],ylab="depuc~adamaouastrate rurale",col="blue2" boxplots[[2]],ylab="depuc~adamaouastrate semi urbaine",col="violet" boxplots[[3]],ylab="depuc~adamaouastrate urbaine",col="lightpink1" plotl[[1]],main="depuc" ablinev=seuil,col="red" plotl[[2]],main="depuc" ablinev=seuil,col="red" plotl[[3]],main="depuc" ablinev=seuil,col="red" # Centre parmfrow=c2,3 boxplots[[4]],ylab="depuc~centrestrate rurale",col="blue2" boxplots[[5]],ylab="depuc~centrestrate semi urbaine",col="violet" boxplots[[6]],ylab="depuc~centrestrate urbaine",col="lightpink1" plotl[[4]],main="depuc" ablinev=seuil,col="red" plotl[[5]],main="depuc"
ANNEXES 73 ablinev=seuil,col="red" plotl[[6]],main="depuc" ablinev=seuil,col="red" # Douala parmfrow=c1,2 boxplots[[7]],ylab="depuc~doualastrate urbaine",col="lightpink1" plotl[[7]],main="depuc" ablinev=seuil,col="red" # Est parmfrow=c2,3 boxplots[[8]],ylab="depuc~eststrate rurale",col="blue2" boxplots[[9]],ylab="depuc~eststrate semi urbaine",col="violet" boxplots[[10]],ylab="depuc~eststrate urbaine",col="lightpink1" plotl[[8]],main="depuc" ablinev=seuil,col="red" plotl[[9]],main="depuc" ablinev=seuil,col="red" plotl[[10]],main="depuc" ablinev=seuil,col="red" # Extrême-Nord parmfrow=c2,3 boxplots[[11]],ylab="depuc~extrême-nordstrate rurale",col="blue2" boxplots[[12]],ylab="depuc~extrême-nordstrate semi urbaine",col="violet" boxplots[[13]],ylab="depuc~extrême-nordstrate urbaine",col="lightpink1" plotl[[11]],main="depuc" ablinev=seuil,col="red" plotl[[12]],main="depuc" ablinev=seuil,col="red" plotl[[13]],main="depuc" ablinev=seuil,col="red"
ANNEXES 74 # Littoral parmfrow=c2,3 boxplots[[14]],ylab="depuc~littoralstrate rurale",col="blue2" boxplots[[15]],ylab="depuc~littoralstrate semi urbaine",col="violet" boxplots[[16]],ylab="depuc~littoralstrate urbaine",col="lightpink1" plotl[[14]],main="depuc" ablinev=seuil,col="red" plotl[[15]],main="depuc" ablinev=seuil,col="red" plotl[[16]],main="depuc" ablinev=seuil,col="red" # Nord-Ouest parmfrow=c2,3 boxplots[[17]],ylab="depuc~nord-oueststrate rurale",col="blue2" boxplots[[18]],ylab="depuc~nord-oueststrate semi urbaine",col="violet" boxplots[[19]],ylab="depuc~nord-oueststrate urbaine",col="lightpink1" plotl[[17]],main="depuc" ablinev=seuil,col="red" plotl[[18]],main="depuc" ablinev=seuil,col="red" plotl[[19]],main="depuc" ablinev=seuil,col="red" # Nord parmfrow=c2,3 boxplots[[20]],ylab="depuc~nordstrate rurale",col="blue2" boxplots[[21]],ylab="depuc~nordstrate semi urbaine",col="violet" boxplots[[22]],ylab="depuc~nordstrate urbaine",col="lightpink1" plotl[[20]],main="depuc" ablinev=seuil,col="red" plotl[[21]],main="depuc" ablinev=seuil,col="red" plotl[[22]],main="depuc" ablinev=seuil,col="red"
ANNEXES 75 # Ouest parmfrow=c2,3 boxplots[[23]],ylab="depuc~oueststrate rurale",col="blue2" boxplots[[24]],ylab="depuc~oueststrate semi urbaine",col="violet" boxplots[[25]],ylab="depuc~oueststrate urbaine",col="lightpink1" plotl[[23]],main="depuc" ablinev=seuil,col="red" plotl[[24]],main="depuc" ablinev=seuil,col="red" plotl[[25]],main="depuc" ablinev=seuil,col="red" # Sud-Ouest parmfrow=c2,3 boxplots[[26]],ylab="depuc~sud-oueststrate rurale",col="blue2" boxplots[[27]],ylab="depuc~sud-oueststrate semi urbaine",col="violet" boxplots[[28]],ylab="depuc~sud-oueststrate urbaine",col="lightpink1" plotl[[26]],main="depuc" ablinev=seuil,col="red" plotl[[27]],main="depuc" ablinev=seuil,col="red" plotl[[28]],main="depuc" ablinev=seuil,col="red" #Sud parmfrow=c2,3 boxplots[[29]],ylab="depuc~sudstrate rurale",col="blue2" boxplots[[30]],ylab="depuc~sudtstrate semi urbaine",col="violet" boxplots[[31]],ylab="depuc~sudstrate urbaine",col="lightpink1" plotl[[29]],main="depuc" ablinev=seuil,col="red" plotl[[30]],main="depuc" ablinev=seuil,col="red" plotl[[31]],main="depuc" ablinev=seuil,col="red"
ANNEXES 76 #Yaoundé parmfrow=c1,2 boxplots[[32]],ylab="depuc~yaoundéstrate urbaine",col="blue2" plotl[[32]],main="depuc" ablinev=seuil,col="red" ################################ ESTIMATIONS ################################### #------------------- Sondage aléatoire simple ------------------# #-----------------------------------------------------------# # Fonctions R : Algorithme des estimations des # # indicateurs de pauvreté FGT, sous # # l hypothèse d un sondage aléatoire # # simple. # # *** Données : X <- ecam3 # # - Lignes : ménages # # - Colonnes : variables # #-----------------------------------------------------------# incidence.sas=functionx { est.1=1/nrowx*sumx$v_0 est.1 } profondeur.sas=functionx { est.2=1/nrowx*sumx$v_1 est.2 } severite.sas=functionx
ANNEXES 77 { est.3=1/nrowx*sumx$v_2 est.3 } ### Estimations de leurs précisions, sous l hypothèse ### d un plan de sondage aléatoire simple #-----------------------------------------------------------# # Fonctions R : Algorithme des estimations des # # précisions indicateurs de pauvreté FGT,# # sous l hypothèse d un sondage # # aléatoire simple. # # *** Données : X <- ecam3 # # - Lignes : ménages # # - Colonnes : variables # # N <- taille de la population des ménages # #-----------------------------------------------------------# var.sas=functionx,n=3391817 { n=nrowx # pour l incidence de la pauvreté var.sas.1=1/n*1-n/n*varx$v_0 # pour la profondeur de la pauvreté var.sas.2=1/n*1-n/n*varx$v_1 # pour la sévérité de la pauvreté var.sas.3=1/n*1-n/n*varx$v_2 res=listvar.sas.1=var.sas.1,var.sas.2=var.sas.2,var.sas.3=var.sas.3 res } ### Estimations des propriétés, pour les estimateurs des indicateurs FGT
ANNEXES 78 ### ci-dessus, sous le plan de sondage utilisé par ecam3. #-----------------------------------------------------------# # Fonction R : Algorithme du tirage systématique pour # # un sondage à probabilités inégales # # *** Données : data <- pseudo-population des UP # # - Lignes : unités primaires # # - Colonnes : caractéristiques des UP # # n.up <- taille de l échantillon des UP # #-----------------------------------------------------------# ind.up=functiondata,n.up { ## data : tableau à 3 colonnes: identifiants, probabilités d inclusions, ## et du nombre de ménages dans chaque UP. N=nrowdata; P=data[,2]; v=rep0,lengthp; v[1]=p[1]; for i in 1:N-1 { v[i+1]=v[i]+p[i+1] } u=runif1,0,1; A=c0,v; rang=c; B=c; for i in 1:n.UP { B[i]=u+i-1 rang[i]=minwhichb[i]<a } res=cbinddata[rang,1],data[rang,3] res } #-----------------------------------------------------------# # Fonction R : Algorithme qui permet d obtenir # # un échantillon bootstrap pour # # chaque indicateur de pauvreté # # *** Données : X <- ecam3 # # X.UP <- ecam3.up #
ANNEXES 79 # X.US <- ecam3.us # # stat1 <- statistique pour l incidence # # de la pauvreté # # stat2 <- statistique pour la profondeur # # de la pauvreté # # stat3 <- statistique pour la sévérité # # de la pauvreté # # B <- Nombre d itérations bootstrap # #-----------------------------------------------------------# ech.boot.stat=functionx=ecam3,x.up=ecam3.up,x.us=ecam3.us,stat1=incidence.sas, stat2=profondeur.sas,stat3=severite.sas,fun.up=ind.up, B=1000 { n.up=nrowx.up; m.us=nrowx.us; boot.stat1=c; boot.stat2=c; boot.stat3=c; pop.up=c; P.UP=c; n.men.up=c; pop.us=c; P.US=c; pop.up.us=c; for i in 1:n.UP { # Construction de la pseudo-population des UP pop.up=cpop.up,repx.up$s0q2[i],round1/x.up$p.zd[i] # identifiants UP P.UP=cP.UP,repX.UP$P.ZD[i],round1/X.UP$P.ZD[i] # proba UP n.men.up=cn.men.up,repx.up$n.men.zd[i],round1/x.up$p.zd[i] # nombre de MEN par U } data.up=cbindpop.up,p.up,n.men.up for j in 1:m.US { # Construction de la pseudo-population des US pop.us=cpop.us,repx.us$s0q4[j],round1/x.us$p.men[j] # identifiants US P.US=cP.US,repX.US$P.MEN[j],round1/X.US$P.MEN[j] # proba US pop.up.us=cpop.up.us,repx.us$s0q2[j],round1/x.us$p.men[j] # identifiants UP } data.us=cbindpop.up.us,pop.us,p.us id.up=c; n.men=c; res.up=c; for b in 1:B { res.up=fun.updata.up,n.up-1 id.up=res.up[,1]
ANNEXES 80 n.men=res.up[,2] id.us=c; X.inter.b=rbind; X.b=rbind; for k in 1:lengthid.UP { data.up.b=data.us[whichdata.us[,1]==id.up[k],] id.us=sampledata.up.b[,2],size=n.men[k],prob=data.up.b[,3] data.up.f=x[whichx$s0q2==id.up[k],] for l in 1:lengthid.US { X.b=rbindX.b,data.UP.f[whichdata.UP.f$S0Q4==id.US[l],] } } boot.stat1[b]=stat1x.b boot.stat2[b]=stat2x.b boot.stat3[b]=stat3x.b cat"itération : ",b, "\n" } res=listboot.stat1=boot.stat1,boot.stat2=boot.stat2,boot.stat3=boot.stat3 res } #-----------------------------------------------------------# # Fonction R : Algorithme qui permet d obtenir les # # estimations des propriétés, pour les # # estimateurs.sas ci-dessus, des # # indicateurs FGT, sous le plan de sondage # # utilisé par ecam3. # # # # *** Données : X <- ecam3 # # X.UP <- ecam3.up # # X.US <- ecam3.us # # N <- taille de la population des # # ménages # #-----------------------------------------------------------# prop.stat.sas=functionx,x.up,x.us,stat1=incidence.sas,stat2=profondeur.sas, stat3=severite.sas,fun.up=ind.up, B=1000, N=3391817
ANNEXES 81 { #calcul des statistiques des indicateurs FGT sur l échantillon initial stat.obs1=stat1x; stat.obs2=stat2x; stat.obs3=stat3x; #Echantillon de valeurs bootstrap des statistiques boot.stats=ech.boot.statx,x.up,x.us,stat1=incidence.sas,stat2=profondeur.sas, stat3=severite.sas,fun.up=ind.up, B boot.stat1=boot.stats[[1]] boot.stat2=boot.stats[[2]] boot.stat3=boot.stats[[3]] #Estimation des moyennes des statistiques mean.stat1=meanboot.stat1; mean.stat2=meanboot.stat2; mean.stat3=meanboot.stat3; #Estimation des biais des statistiques biais.stat1=meanboot.stat1-stat.obs1; biais.stat2=meanboot.stat2-stat.obs2; biais.stat3=meanboot.stat3-stat.obs3; #Estimation des variance des statistiques var.stat1=varboot.stat1; var.stat2=varboot.stat2; var.stat3=varboot.stat3;
ANNEXES 82 #Estimation des écarts-type des statistiques sd.stat1=sqrtvar.stat1; sd.stat2=sqrtvar.stat2; sd.stat3=sqrtvar.stat3; #Estimation des erreurs quadratiques moyennes des statistiques eqm.stat1=meanboot.stat1-stat.obs1^2; eqm.stat2=meanboot.stat2-stat.obs2^2; eqm.stat3=meanboot.stat3-stat.obs3^2; parmfrow=c2,2 # Test de normalité pour l incidence.sas de la pauvreté, pour valider IC histboot.stat1,xlab="incidence de la pauvreté",col="grey",freq=f linesdensityboot.stat1,col="blue" curvednormx,mean=meanboot.stat1,sd=sdboot.stat1,add=t,col="red" shap1=shapiro.testboot.stat1 # test de normalité pour valider IC # Test de normalité la profondeur.sas de la pauvreté, pour valider IC histboot.stat2,xlab="profondeur de la pauvreté",col="grey",freq=f linesdensityboot.stat2,col="blue" curvednormx,mean=meanboot.stat2,sd=sdboot.stat2,add=t,col="red" shap2=shapiro.testboot.stat2 # test de normalité pour valider IC # Test de normalité pour la sévérité de la pauvreté, pour valider IC histboot.stat3,xlab="sévérité de la pauvreté",col="grey",freq=f linesdensityboot.stat3,col="blue" curvednormx,mean=meanboot.stat3,sd=sdboot.stat3,add=t,col="red" shap3=shapiro.testboot.stat3 # test de normalité pour valider IC #I.C à 95% du paramètre estimé par statistique
ANNEXES 83 I.C.per.95.1=quantileboot.stat1,probs=c0.025,0.975; I.C.per.95.2=quantileboot.stat2,probs=c0.025,0.975; I.C.per.95.3=quantileboot.stat3,probs=c0.025,0.975; # Calcul des précisions des estimateurs des indicateurs FGT, # sous l hypoyhèse d un plan de sondage aléatoire simple var.sas=var.sasx,n=3391817; var.sas.1=var.sas[[1]] var.sas.2=var.sas[[2]] var.sas.3=var.sas[[3]] # Calcul de l effet de plan de sondage Deff.sas deff.sas.1=eqm.stat1/var.sas.1; deff.sas.2=eqm.stat2/var.sas.2; deff.sas.3=eqm.stat3/var.sas.3; # Calcul de l effet de grappe rho.sas rho.sas.1=1/nrowx/nrowx.up-1*eqm.stat1/var.sas.1-1; rho.sas.2=1/nrowx/nrowx.up-1*eqm.stat2/var.sas.2-1; rho.sas.3=1/nrowx/nrowx.up-1*eqm.stat3/var.sas.3-1; # Résultat : liste de tout ce qui précède res=list stat.obs=liststat.obs1=stat.obs1,stat.obs2=stat.obs2, stat.obs3=stat.obs3, mean.stats=listmean.stat1=mean.stat1, mean.stat2=mean.stat2, mean.stat3=mean.stat3, biais.stats=listbiais.stat1=biais.stat1, biais.stat2=biais.stat2, biais.stat3=biais.stat3, var.stat=listvar.stat1=var.stat1, var.stat2=var.stat2, var.stat3=var.stat3, sd.stat=listsd.stat1=sd.stat1, sd.stat2=sd.stat2,
ANNEXES 84 sd.stat3=sd.stat3, eqm.stat=listeqm.stat1=eqm.stat1, eqm.stat2=eqm.stat2, eqm.stat3=eqm.stat3, shap=listshap1=shap1,shap2=shap2,shap3=shap3, I.C.per.95=listI.C.per.95.1=I.C.per.95.1, I.C.per.95.2=I.C.per.95.2, I.C.per.95.3=I.C.per.95.3, deff.sas=listdeff.sas.1=deff.sas.1,deff.sas.2=deff.sas.2, deff.sas.3=deff.sas.3, rho.sas=listrho.sas.1=rho.sas.1,rho.sas.2=rho.sas.2, rho.sas.3=rho.sas.3 res } #------------------- Sondage utilisé par ECAM 3 ------------------# #----------------Sondage stratifié à deux degrés ---------------# #-----------------------------------------------------------# # Fonctions R : Algorithme des estimations des # # indicateurs de pauvreté FGT, sous # # le plan de sondage utilisé par ECAM 3 # # *** Données : X <- ecam3 # # - Lignes : ménages # # - Colonnes : variables # #-----------------------------------------------------------# incidence.sadg=functionx { est.1=1/sumx$coefext*sumx$coefext*x$v_0 est.1 } profondeur.sadg=functionx { est.2=1/sumx$coefext*sumx$coefext*x$v_1 est.2 }
ANNEXES 85 severite.sadg=functionx { est.3=1/sumx$coefext*sumx$coefext*x$v_2 est.3 } #-----------------------------------------------------------# # Fonction R : Algorithme qui permet d obtenir les # # estimations des propriétés, pour les # # estimateurs.sadg ci-dessus, des # # indicateurs FGT, sous le plan de sondage # # utilisé par ecam3. # # # # *** Données : X <- ecam3 # # X.UP <- ecam3.up # # X.US <- ecam3.us # # N <- taille de la population des # # ménages # #-----------------------------------------------------------# prop.stat.sadg=functionx,x.up,x.us,stat1=incidence.sadg,stat2=profondeur.sadg,stat3=severite.sadg,fun.up=ind.up, B=1000, N=3391817 { #calcul des statistiques des indicateurs FGT sur l échantillon initial stat.obs1=stat1x; stat.obs2=stat2x; stat.obs3=stat3x; #Echantillon de valeurs bootstrap des statistiques boot.stats=ech.boot.statx,x.up,x.us,stat1=incidence.sadg,stat2=profondeur.sadg, stat3=severite.sadg,fun.up=ind.up, B
ANNEXES 86 boot.stat1=boot.stats[[1]] boot.stat2=boot.stats[[2]] boot.stat3=boot.stats[[3]] #Estimation des variances des statistiques var.stat1=varboot.stat1; var.stat2=varboot.stat2; var.stat3=varboot.stat3; #Estimation des écarts-type des statistiques sd.stat1=sqrtvar.stat1; sd.stat2=sqrtvar.stat2; sd.stat3=sqrtvar.stat3; parmfrow=c2,2 # Test de normalité pour l incidence.sas de la pauvreté, pour valider IC histboot.stat1,xlab="incidence de la pauvreté",col="grey",freq=f linesdensityboot.stat1,col="blue" curvednormx,mean=meanboot.stat1,sd=sdboot.stat1,add=t,col="red" shap1=shapiro.testboot.stat1 # test de normalité pour valider IC # Test de normalité la profondeur.sas de la pauvreté, pour valider IC histboot.stat2,xlab="profondeur de la pauvreté",col="grey",freq=f linesdensityboot.stat2,col="blue" curvednormx,mean=meanboot.stat2,sd=sdboot.stat2,add=t,col="red" shap2=shapiro.testboot.stat2 # test de normalité pour valider IC # Test de normalité pour la sévérité de la pauvreté, pour valider IC histboot.stat3,xlab="sévérité de la pauvreté",col="grey",freq=f
ANNEXES 87 linesdensityboot.stat3,col="blue" curvednormx,mean=meanboot.stat3,sd=sdboot.stat3,add=t,col="red" shap3=shapiro.testboot.stat3 # test de normalité pour valider IC #I.C à 95% du paramètre estimé par statistique I.C.per.95.1=quantileboot.stat1,probs=c0.025,0.975; I.C.per.95.2=quantileboot.stat2,probs=c0.025,0.975; I.C.per.95.3=quantileboot.stat3,probs=c0.025,0.975; # Calcul des précisions des estimateurs des indicateurs FGT, # sous l hypothèse d un plan de sondage aléatoire simple var.sas=var.sasx,n; var.sas.1=var.sas[[1]] var.sas.2=var.sas[[2]] var.sas.3=var.sas[[3]] # Calcul de l effet de plan de sondage Deff.sadg deff.sadg.1=var.stat1/var.sas.1; deff.sadg.2=var.stat2/var.sas.2; deff.sadg.3=var.stat3/var.sas.3; # Calcul de l effet de grappe rho.sadg rho.sadg.1=1/nrowx/nrowx.up-1*var.stat1/var.sas.1-1; rho.sadg.2=1/nrowx/nrowx.up-1*var.stat2/var.sas.2-1; rho.sadg.3=1/nrowx/nrowx.up-1*var.stat3/var.sas.3-1; # Résultat : liste de tout ce qui précède res=list stat.obs=liststat.obs1=stat.obs1,stat.obs2=stat.obs2, stat.obs3=stat.obs3,
ANNEXES 88 res var.stat=listvar.stat1=var.stat1, var.stat2=var.stat2, var.stat3=var.stat3, sd.stat=listsd.stat1=sd.stat1, sd.stat2=sd.stat2, sd.stat3=sd.stat3, shap=listshap1=shap1,shap2=shap2,shap3=shap3, I.C.per.95=listI.C.per.95.1=I.C.per.95.1, I.C.per.95.2=I.C.per.95.2, I.C.per.95.3=I.C.per.95.3, deff.sadg=listdeff.sadg.1=deff.sadg.1,deff.sadg.2=deff.sadg.2, deff.sadg.3=deff.sadg.3, rho.sadg=listrho.sadg.1=rho.sadg.1,rho.sadg.2=rho.sadg.2, rho.sadg.3=rho.sadg.3 }
ANNEXES 89 Annexes B Tab. 4.8 Echelle d équivalence-adulte Hommes Femmes Moins d un an 0.255 0.255 1 à 3 ans 0.450 0.450 4 à 6 ans 0.620 0.620 7 à 10 ans 0.690 0.690 11 à 14 ans 0.860 0.760 15 à 18 ans 1.030 0.760 16 à 25 ans 1.000 0.760 26 à 50 ans 1.000 0.760 51 ans et + 0.790 0.760 Source : RDA 10th edition ; National Academy Press, 1989, Washington D.C[7]
ANNEXES 90 Tab. 4.9 Répartition de l échantillon des ZD et des ménages par région et strate Régions d enquête Nombre de ménages à enquêter Nombre de ZD echantillons Urbain semi- Rural Ensemble Urbain Semi- Rural Ensemble urbain urbain Douala 1260 0 0 1260 100 0 0 100 Yaoundé 1248 0 0 1248 100 0 0 100 Adamaoua 282 114 204 600 15 6 11 32 Centre 282 162 411 855 15 9 22 46 Est 282 132 204 618 15 7 11 33 Extrême-Nord 666 132 867 1665 36 7 47 90 Littoral 390 132 204 726 21 7 11 39 Nord 414 114 336 864 22 6 18 46 Nord-Ouest 684 192 699 1575 37 10 38 85 Ouest 618 168 576 1362 33 9 31 73 Sud 282 114 186 582 15 6 10 31 Sud-Ouest 672 150 432 1254 36 8 23 67 Cameroun 7080 1410 4119 12609 445 75 222 742 Source : ECAM 3, INS[7]
ANNEXES 91 Tab. 4.10 Structure du questionnaire de l enquête ECAM3 Sections Objectifs Principaux indicateurs/ variables 1. Composition du ménage.listage des caractéristiques Statut de résidence, sexe, âge, et caractéristiques des des membres du ménage lien avec le chef de ménage, membres du ménage état matrimonial, etc. 2. Santé des membres Etat sanitaire, Incidence et prévalence du ménage soin de santé, déclarées de quelques Consultations de santé maladies, taux fréquentation des centres de santé 3. Education Scolarisation, Alphabétisation, Taux de : scolarisation, Déperdition scolaire et analphabétisme, ses causes, Fréquentation, redoublement Formation professionnelle et abandon 4- Activités économiques Emplois, Niveau de Structure des emplois, et revenus revenus d activité, taux de : chômage, Sources et niveau des sous emploi et revenus hors emploi, d emplois informels ; Chômage : causes et durée, rapport de dépendance, Sous emploi taux de pluri-activité, Revenus moyens/médians d activité, revenus totaux 5- Activités ménagères Importance des travaux Pourcentage de personnes des membres du ménage domestiques Commande BIT impliquées dans les travaux domestiques, Temps consacré aux travaux domestiques 6. Environnement du ménage Emplacement, nuisances, Pourcentage de ménages Sécurité logeant dans un emplacement à risque
ANNEXES 92 7. Logement et équipements Caractéristiques, Structure des ménages selon Mode d occupation, les caractéristiques du Avoirs en biens logement, la possession des durables, Estimation équipements durables de loyer y compris des biens de TIC etc. 8. Migrations et mobilité Stabilité de résidence, Structure des ménages résidentielle Motifs des migrations, selon le degré de Migrations interne et stabilité, les motifs internationale, Ajustement des migrations, etc. de la taille des ménages Propension des individus à migrer ; 9. Accessibilité aux Degré d accessibilité, Distance moyenne, temps infrastructures de base Degré de satisfaction moyen de trajet, structure population par raison de non-satisfaction 10. Perception des conditions Positionnement du ménage, Structure des ménages de vie et gouvernance Appréciation comparative selon leurs différentes des conditions de vie temps, perceptions de la pauvreté espace, etc., Perception de et des conditions de vie, la gouvernance et selon leur perception de la corruption des politiques et programmes, la gouvernance et la corruption en particulier 11. Autres éléments du Patrimoine physique du ménage, Autres biens de patrimoine patrimoine non foncier Patrimoine productif physique, productif du ménage possédés 12. Patrimoine foncier, Accès à la propriété terrain, Structure des ménages accès au crédit pour la logement, etc., Accès selon l accessibilité production et capital, au crédit, Capital social, à la propriété, au crédit, social Accès a la terre agricole l utilisation du crédit, etc.
ANNEXES 93 13. Agriculture et activités Exploitation des terres, Structure des ménages selon du monde rural Principales productions leur type de production, accessibilité à la terre, etc. 14. Dépenses et acquisitions Dépenses annuelles moyennes Dépenses totales du ménage, rétrospectives du ménage par poste santé, éducation coefficients budgétaires des, etc., loyers, Coefficients différents postes de dépenses 15. Dépenses et acquisitions budgétaires Consommation Seuil de pauvreté, incidence, quotidiennes du ménage alimentaire, Consommation profondeur, sévérité, non alimentaire, Transferts contribution des groupes de revenus, Autoconsommation à la pauvreté et mesures d inégalités, etc. 16.Tourisme Evaluation du tourisme Pourcentage de personnes interne ayant effectué des déplacements touristiques au cours des 12 derniers mois ; Fréquence des déplacements touristiques, dépenses de tourisme 17. Volet prix Valorisation de Indice temporel et l autoconsommation, indice spatial des prix Normalisation des dépenses au niveau national Source : ECAM 3, INS[8]
ANNEXES 94 Annexe C Annexe de la section 1.2.2 1. E δ i = P r δ i = 1 = P r i s = P i ; 2. 3. V δ i = E δ i E δ i 2 = E δ 2 i = P i P 2 i = P i 1 P i ; cov δ i, δ j = E δ i δ j E δ i E δ i = E δ i δ j P i P j E δi 2 or, E δ i δ j = P r δ i δ j = 1 = P r i set j s = P ij cov δ i, δ j = P ij P i P j ; 4. N P i = N E δ N i = E δ i = E n = n, car on sélectionne un échantillon de taille n, donc N δ i = n. 5. 6. j U, [ N ] P ij = E δ i δ j = E δ j δ i δ i i j i j = E nδ i δ i = ne δ j E δ j = E δ j n 1 = P j n 1 ; j U, P ij P i P j = P ij P i P j + P j Pj 2 i j = E = [ N ] δ i δ j = E δ j δ i δ i i j P ij P j i j N i j P i + P j P 2 j N = P j n 1 P j P i P j + P j Pj 2 = P j n 1 P j n P j + P j P 2 j = 0.
ANNEXES 95 Annexe de la section 1.2.4 1. Considérons le P-estimateur T = i s Y i P i et montrons que V T = j=1 Y i P i Y j P j P ij P i P j. V T = V = = = Y i P i s i Yi P i Yi P i j=1 = V 2 V δ i + N 2 P i 1 P i + Y i P i δ i j=1 j i Y i P i Y j P j P ij P i P j ; Y i P i Y j P j cov δ i, δ j j=1 j i Y i P i Y j P j P ij P i P j 2. dans le cas d un plan de taille fixe, le P-estimateur T = i s Y i P i a pour variance V T = 1 2 j=1 j i Yi Y 2 j P i P j P ij. P i P j En effet, V T = V = Y i P i s i Yi P i = V N 2 P i 1 P i + Y i P i δ i j=1 j i Y i P i Y j P j P ij P i P j or, soit i U, P i P j P ij = P i P j j i j i = P i 1 P i P ij = P i n P i n 1 P i j i
ANNEXES 96 V V T T = = = = j=1 Yi P i 2 N P i P j P ij j i [ Yi P i P j P ij j=1 j i P i [ Yj P j P i P ij i j P j [ Yj P j P i P ij j=1 j i comme 1 et 2 sont égales à V ces deux expressions, soit : V T = 1 2 = 1 2 Annexe de la section 1.2.6 P j j=1 j i 2 Y i P i Y j P j 2 Y j P j Y i P i 2 Y j P j Y i P i Y i P i Y j P j P i P j P ij ] ] ] T, on peut écrire que V [ Yi P j P i P ij j=1 j i j=1 j i P i Yi Y 2 j P i P j P ij. P i P j 1 2 T 2 2 Y ] 2 j Y i Yj + P j P i P j est la moyenne de 1. Puisque tous les échantillons de taille n, au nombre de CN n, ont des probabilités de tirage identiques, on a s E, p s 1. Par ailleurs, le nombre total d échantillons de CN n taille n qui contiennent l individu i est donné par C n 1 N 1 P i = s E/i s 2. de même, P ij = s E/i,j s p s = Cn 2 N 2 1 CN n p s = C n 1 1 N 1 CN n = nn 1 NN 1 = n N,
BIBLIOGRAPHIE 97 Bibliographie [1] [A. C. Davison et al.] S. Sardy. Méthodes de rééchantillonnage pour l estimation de variance. Institut de Mathématiques, Ecole Polytechnique Fédérale de Lausanne,1015 Lausanne, Suisse, 4 Mai 2006, 36 pages. infoscience.epfl.ch/record/85556/files/sardyfr2.pdf [2] [ALINE COUDOUEL et al.] JESKO S. HENTSCHEL, et QUENTIN T. WODON. Mesure et analyse de la pauvreté, 56 pages. [3] [ANGELES SOLIZ et al.] LUIS ALEJANDRO. Indices de pauvreté, Théorie et application empirique. Mémoire de Licence, FACULTÉ DES SCIENCES ÉCONOMIQUES ET SOCIALES, Département d économie politique, Université de Génève ; Juin 1999, 41 pages. http://www.cesip.org/es/enlaces-bdd/trabajos/licendiploma/1999_lan_ indicepauvre.pdf [4] [BUCREP] Caractéristiques de l habitat et cadre de vie des populations. 188 pages. [5] [FLORIAN HECHNER] Enquêtes et sondages. Cours de Master 2, Université de Strasbourg, 27 Juin 2011, 113 pages. http://www-irma.u-strasbg.fr/~hechner/tele/m2stat/cours_hechner_ Sondages.pdf [6] [GUILLAUME CHAUVET] Méthodes de bootstrap en population finie. Thèse en Mathématiques Appliquées option : Statistiques,Laboratoire de Statistique d Enquêtes, CREST-ENSAI, École doctorale - Humanités et Sciences de l Homme, Université de Rennes 2, Decembre 2007, 209 pages. www.ensai.fr/userfiles/these_chauvet.pdf [7] [Institut National de la Statistique] Rapport principal de l ECAM 3. Decembre 2008, 53 pages. [8] [Institut National de la Statistique] Document de méthodologie générale. Août 2007, 17 pages. [9] [KAMGA TCHWAKET Ignace] Cours de pauvreté ISE3. Institut Sous-régional de Statistique et d Economie Appliquée de Yaoundé, 61 pages.
BIBLIOGRAPHIE 98 [10] [PASCAL ARDILLY] Les Techniques de Sondage. EDITION TECHNIP, Nouvelle édition actualisée et augmentée, 694 pages.