E9904 Optimisation d un sondage à probabilité proportionnelle à la taille. Le cas des CA3. Christian HESSE, Benoît MERLAT



Documents pareils
TD/TP : Taux d un emprunt (méthode de Newton)

MATHEMATIQUES FINANCIERES

Le mode de fonctionnement des régimes en annuités. Secrétariat général du Conseil d orientation des retraites

La rentabilité des investissements

Texte Ruine d une compagnie d assurance

VA(1+r) = C 1. VA = C 1 v 1

2. Quelle est la valeur de la prime de l option américaine correspondante? Utilisez pour cela la technique dite de remontée de l arbre.

Impact du vieillissement démographique sur l impôt prélevé sur les retraits des régimes privés de retraite

CHAPITRE I : Cinématique du point matériel

Séquence 2. Pourcentages. Sommaire

Les circuits électriques en régime transitoire

CARACTERISTIQUES STATIQUES D'UN SYSTEME

Finance 1 Université d Evry Val d Essonne. Séance 2. Philippe PRIAULET

Estimation des matrices de trafics

Sommaire de la séquence 12

Rappels théoriques. -TP- Modulations digitales ASK - FSK. Première partie 1 INTRODUCTION

CHAPITRE 13. EXERCICES a) 20,32 ± 0,055 b) 97,75 ± 0,4535 c) 1953,125 ± 23, ±0,36π cm 3

Exemples de résolutions d équations différentielles

Recueil d'exercices de logique séquentielle

Annuités. I Définition : II Capitalisation : ( Valeur acquise par une suite d annuités constantes ) V n = a t

Risque associé au contrat d assurance-vie pour la compagnie d assurance. par Christophe BERTHELOT, Mireille BOSSY et Nathalie PISTRE

F 2 = - T p K F T = - T p K 0 - K 0

Oscillations forcées en régime sinusoïdal.

Caractéristiques des signaux électriques

Chapitre 2 L investissement. . Les principales caractéristiques de l investissement

Filtrage optimal. par Mohamed NAJIM Professeur à l École nationale supérieure d électronique et de radioélectricité de Bordeaux (ENSERB)

Le mécanisme du multiplicateur (dit "multiplicateur keynésien") revisité

THÈSE. Pour l obtention du grade de Docteur de l Université de Paris I Panthéon-Sorbonne Discipline : Sciences Économiques

Les solutions solides et les diagrammes d équilibre binaires. sssp1. sssp1 ssss1 ssss2 ssss3 sssp2

Mathématiques financières. Peter Tankov

CHELEM Commerce International

GUIDE DES INDICES BOURSIERS

Relation entre la Volatilité Implicite et la Volatilité Réalisée.

Copules et dépendances : application pratique à la détermination du besoin en fonds propres d un assureur non vie

COURS GESTION FINANCIERE A COURT TERME SEANCE 3 PLANS DE TRESORERIE. François LONGIN

Ecole des HEC Université de Lausanne FINANCE EMPIRIQUE. Eric Jondeau

Cours d électrocinétique :

Un modèle de projection pour des contrats de retraite dans le cadre de l ORSA

Documentation Technique de Référence Chapitre 8 Trames types Article

SYSTÈME HYBRIDE SOLAIRE THERMODYNAMIQUE POUR L EAU CHAUDE SANITAIRE

Sélection de portefeuilles et prédictibilité des rendements via la durée de l avantage concurrentiel 1

Programmation, organisation et optimisation de son processus Achat (Ref : M64) Découvrez le programme

Les Comptes Nationaux Trimestriels

MODÈLE BAYÉSIEN DE TARIFICATION DE L ASSURANCE DES FLOTTES DE VÉHICULES

Evaluation des Options avec Prime de Risque Variable

Article. «Les effets à long terme des fonds de pension» Pascal Belan, Philippe Michel et Bertrand Wigniolle

3 POLITIQUE D'ÉPARGNE

EFFICIENCE INFORMATIONNELLE DES UNE VERIFICATION ECONOMETRIQUE MARCHES DE L OR A PARIS ET A LONDRES, DE LA FORME FAIBLE

Mémoire présenté et soutenu en vue de l obtention

Fonction dont la variable est borne d intégration

Les deux déficits, budgétaire et du compte courant, sont-ils jumeaux? Une étude empirique dans le cas d une petite économie en développement

Intégration de Net2 avec un système d alarme intrusion

Pour 2014, le rythme de la reprise économique qui semble s annoncer,

Pouvoir de marché et transmission asymétrique des prix sur les marchés de produits vivriers au Bénin

GESTION DU RÉSULTAT : MESURE ET DÉMESURE 1 2 ème version révisée, août 2003

Document de travail FRANCE ET ALLEMAGNE : UNE HISTOIRE DU DÉSAJUSTEMENT EUROPEEN. Mathilde Le Moigne OFCE et ENS ULM

Coaching - accompagnement personnalisé (Ref : MEF29) Accompagner les agents et les cadres dans le développement de leur potentiel OBJECTIFS

EPARGNE RETRAITE ET REDISTRIBUTION *

Files d attente (1) F. Sur - ENSMN. Introduction. 1 Introduction. Vocabulaire Caractéristiques Notations de Kendall Loi de Little.

CHAPITRE 4 RÉPONSES AUX CHOCS D INFLATION : LES PAYS DU G7 DIFFÈRENT-ILS LES UNS DES AUTRES?

AMPLIFICATEUR OPERATIONNEL EN REGIME NON LINEAIRE

Sciences Industrielles pour l Ingénieur

MIDI F-35. Canal MIDI 1 Mélodie Canal MIDI 2 Basse Canal MIDI 10 Batterie MIDI IN. Réception du canal MIDI = 1 Reproduit la mélodie.

Séminaire d Économie Publique

L impact de l activisme des fonds de pension américains : l exemple du Conseil des Investisseurs Institutionnels.

CAHIER ANALYSE DES CHOCS D'OFFRE ET DE DEMANDE DANS LA ZONE CFA : UNE MÉTHODE STRUCTURELLE D'AUTORÉGRESSION VECTORIELLE

TRAVAUX PRATIQUES N 5 INSTALLATION ELECTRIQUE DE LA CAGE D'ESCALIER DU BATIMENT A

Calcul Stochastique 2 Annie Millet

Ned s Expat L assurance des Néerlandais en France

NUMERISATION ET TRANSMISSION DE L INFORMATION

LE PARADOXE DES DEUX TRAINS

Chapitre 9. Contrôle des risques immobiliers et marchés financiers

TB 352 TB 352. Entrée 1. Entrée 2

Thème : Electricité Fiche 5 : Dipôle RC et dipôle RL

DE L'ÉVALUATION DU RISQUE DE CRÉDIT

No Décembre. La coordination interne et externe des politiques économiques : une analyse dynamique. Fabrice Capoën Pierre Villa

Froid industriel : production et application (Ref : 3494) Procédés thermodynamiques, systèmes et applications OBJECTIFS LES PLUS DE LA FORMATION

N d ordre Année 2008 THESE. présentée. devant l UNIVERSITE CLAUDE BERNARD - LYON 1. pour l obtention. du DIPLOME DE DOCTORAT. (arrêté du 7 août 2006)

EVALUATION DE LA FPL PAR LES APPRENANTS: CAS DU MASTER IDS

CONTRIBUTION A L ANALYSE DE LA GESTION DU RESULTAT DES SOCIETES COTEES

OBJECTIFS LES PLUS DE LA FORMATION

N Juin. Base de données CHELEM commerce international du CEPII. Alix de SAINT VAULRY

CANAUX DE TRANSMISSION BRUITES

DOCUMENT TECHNIQUE N O 2 GUIDE DE MESURE POUR L INTÉGRATION DES TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION (TIC) EN ÉDUCATION

Le développement de l assurance des catastrophes naturelles: facteur de développement économique

NOTE SUR LES METHODES UNIVARIEES

Impact des futures normes IFRS sur la tarification et le provisionnement des contrats d assurance vie : mise en oeuvre de méthodes par simulation

TRANSMISSION DE LA POLITIQUE MONETAIRE AU SECTEUR REEL AU SENEGAL

S euls les flux de fonds (dépenses et recettes) définis s ent l investissement.

Une assurance chômage pour la zone euro

Surface de Volatilité et Introduction au Risque de Crédit

La fonction de production dans l analyse néo-classique

Estimation d une fonction de demande de monnaie pour la zone euro : une synthèse des résultats

Exercices de révision

MINISTERE DE L ECONOMIE ET DES FINANCES

Une union pour les employeurs de l' conomie sociale. - grande Conférence sociale - les positionnements et propositions de l usgeres

Essai surlefficience informationnelle du march boursier marocain

Le passage des retraites de la répartition à la capitalisation obligatoire : des simulations à l'aide d'une maquette

Institut Supérieur de Gestion

SURVOL DE LA LITTÉRATURE SUR LES MODÈLES DE TAUX DE CHANGE D ÉQUILIBRE: ASPECTS THÉORIQUES ET DISCUSSIONS COMPARATIVES

Transcription:

E9904 Opimisaion d un sondage à probabilié proporionnelle à la aille Le cas des CA3 Crisian HESSE, Benoî MERLAT

3 Opimisaion d un sondage à probabilié proporionnelle à la aille Le cas des CA3 Crisian HESSE, INSEE, Direcion des Saisiques d Enreprises, Cellule de Méodologie Saisique Benoî MERLAT, INSEE, Direcion des Saisiques Démograpiques e Sociales, Unié Méodes Saisiques Ce ravail a éé effecué par Benoî Merla, élève adminisraeur, au cours d un sage en juille-aoû 997 sous la direcion de Béarice Mazé-Maubras, cef de la secion «Compes e indicaeurs infraannuels sur les enreprises» e avec l assisance méodologique de Crisian Hesse RESUME Les ailles des uniés son rès éérogènes dans les populaions d enreprises e les variables don on doi esimer la somme on des disribuions rès asymériques Cela condui à faire des sondages où les probabiliés d inclusion son foremen modulées en foncion de la aille des uniés Pour cela on fai souven appel, soi à un irage aléaoire simple sraifié, soi à un irage à probabilié d inclusion proporionnelle à la aille Dans le premier cas les aux de sondage opimaux par srae son obenus par l allocaion de Neyman Dans le deuxième cas on se conene souven de prendre direcemen les probabiliés proporionnelles à une variable mesuran la aille des uniés elle qu elle es connue dans la base de sondage, par exemple l effecif salarié ou le ciffre d affaires Or, dans ce deuxième cas, il es possible d améliorer le sondage en prenan des probabiliés proporionnelles à des foncions non linéaires de la aille Ces foncions son déerminées de façon à mieux enir compe de la variabilié des observaions en foncion de la aille des enreprises Dans cee éude on s es limié à un modèle où cee variabilié s exprimai comme une simple foncion puissance de cee aille Ce modèle es corroboré par une présenaion grapique Ce ype d éude es présené en prenan pour exemple l écanillon des formulaires CA3 où il s agi de calculer des évoluions de ciffre d affaires On s aperçoi, comme on s en douai, que les coefficiens de variaion de ces évoluions son plus grands pour les peies uniés e que les probabiliés d inclusion de celles-ci doiven êre augmenées par rappor au irage qui serai à probabilié exacemen proporionnelle à la aille Le gain de précision a éé évalué Il n es pas specaculaire, mais on es rès saisfai de ce que ce gain de précision aille de pair avec un resserremen de l évenail des probabiliés d inclusion e des poids de redressemen associés Il peu en résuler une plus grande robusesse de la saisique des évoluions irée de l exploiaion des CA3 MOTS CLES : Opimisaion d un sondage, sondage à probabilié proporionnelle à la aille, calage, foncion de variance, maximum de vraisemblance

4

5 ) Pei résumé de la saisique CA3 Les CA3 son des formulaires envoyés mensuellemen par les enreprises dépassan un cerain seuil de ciffre d affaires à la Direcion Générale des Impôs pour déclarer les données servan au calcul de la TVA La principale donnée exploiée acuellemen par l INSEE es le ciffre d affaires mensuel Cee exploiaion se fai sur un écanillon reiré ous les ans On récupère dans ce écanillon les douze mois précédens de déclaraions, e on enregisre les douze mois suivans ce qui perme de calculer des indices de variaion à douze mois d inervalle sur le même écanillon La base de sondage es un ficier exausif des enreprises fourni ous les ans par la Direcion Générale des Impôs dans lequel figure un ciffre d affaires annuel x C es cee variable qui mesure la «aille» de l enreprise dans la base de sondage Elle es enacée de ceraines erreurs de mesure e diffère du ciffre d affaires réel y que l on peu observer dans l écanillon la même année Le irage acuel es un irage à probabilié sricemen proporionnelle à x Lors de caque irage annuel, x cange e on cerce à conserver le maximum d uniés Jusqu à présen on faisai un irage sysémaique mal adapé à la résoluion de ce problème Dans l avenir il es prévu de procéder par irage de Poisson légèremen modifié de façon que la aille aléaoire de l écanillon soi conenue à l inérieur d une fourcee définie pour caque acivié Il se siuera enre le vrai irage de Poisson e le irage séqueniel de Poisson à aille fixe défini par Olsson (998) ) Inroducion d un modèle dans la populaion Pour opimiser les irages on sui l approce de C-E Särndal, B Swenson, J Wreman (99), capire Elle passe par l inroducion d un modèle dans la populaion (ou modèle de surpopulaion) Nous l adapons au fai que nous voulons esimer l évoluion de sommes e nous adopons une présenaion moins rigoureuse mais plus simple - qui donne le même résula Il s agi de lier par un modèle la variabilié de l évoluion individuelle du ciffre d affaires à la aille x de l enreprise Supposons qu on fasse porer l opimisaion sur la variaion annuelle (pluô que mensuelle) e séparémen dans caque acivié don on publie les résulas Soien y,, y, les ciffres d affaires de deux années consécuives pour l enreprise e Y,Y leurs sommes dans l acivié C es R = Y Y que l on veu esimer SoienY = wy s,, Y = wy s, deux esimaeurs convergens de Y,Y à parir d un écanillon s Les w son les poids d exrapolaion R es esimé par R = Y Y On recerce un plan de sondage qui minimise la variance de R La première éape consise à se ramener à la variance de l esimaion d une simple somme Pour ce faire nous uilisons la méode de linéarisaion Elle consise à remplacer ( ) Y Y R par le premier erme, c es-à-dire de son développemen de Taylor au voisinage de Y Y ( ) ( ) ( ) Y Y Y Y = Posons z = y, Ry, La variance dey Y Y Y Y Y Y RY sondage es donc approximaivemen la même que celle de esimaions il suffi de remplacer dans z R par R Z Y due au = wz s Ensuie dans les Y

6 C es la variable z que l on lie direcemen au ciffre d affaires x connu sur la base de sondage e servan à déerminer les probabiliés d inclusion Par ailleurs on peu aussi faire une sraificaion selon la aille en découpan en rances la variable x Noons par les sraes ainsi définies Dans le modèle, les variables z son considérées comme des variables aléaoires don l espérance es foncion de x e : ( z ) = ( z) = ( ) ax α σ x z, z = 0, l l Ces espérances e variances son relaives au modèle dans la populaion e non au sondage : c es pourquoi on uilise les noaions (), (), () à la place des noaions () () () le sondage E, V, Cov concernan Le paramère a es un effe posiif ou négaif selon que l évoluion dans la srae es plus grande ou plus peie que la moyenne Plus précisémen, il es égal à l espérance, selon le modèle de surpopulaion, de Y R Y ( R ) R Y,,, = où Y, Y son les sommes de y,, y, par srae,, e R leur rappor En ce qui concerne la foncion de variance ( z ) on a coisi délibérémen un modèle paramérique e parcimonieux, qui pourrai êre appliqué plusieurs années de suie, sans avoir à recalculer les paramères Ceci explique que l on s es limié à une foncion puissance, avec comme seul paramère à esimer la valeur de l exposan En pariculier nous n avons pas inrodui de consane pour enir compe de ce que ( z ) dépendrai peu de x pour les rès peies uniés Ceci es jusifié par le fai que la saisique CA3 ne concerne que les enreprises au-dessus d un cerain seuil de ciffre d affaires Enfin, ce modèle semble bien corroboré par les grapiques présenés à la secion 6 3) Deux esimaeurs avec des poids différens Nous voulons savoir si l opimisaion du sondage es sensible à l exisence d une sraificaion selon la aille e nous allons faire l éude à la fois pour un esimaeur non sraifié e sraifié L un e l aure von faire inervenir, la probabilié que l unié apparienne à l écanillon Le premier esimaeur, non sraifié, es simplemen le rappor R Y Y =,, des esimaeurs dis de Horviz-Tompson de Y, Y, avec les poids w = L équivalen linéarisé de R es Z Y z Z = s où

7 Le deuxième esimaeur, sraifié, R CAL es calé sur les sommes des x par srae connues dans la base de sondage Noons,, Y,,, Y,, les esimaeur d Horviz-Tompson de, Y,, Y, On a R CAL = Y Y,,,,,, = Le poids correspondan es w ( ), CAL, L équivalen linéarisé de R CAL es Z Z = CAL w, CAL z s CAL Y, où L esimaeur avec calage correspond aussi à l esimaeur par le quoien sraifié des manuels de sondage Il es appliqué à la fois au numéraeur e au dénominaeur Il diminue la par de variance de l esimaeur due au écars enre a Pour le monrer nous allons appliquer une deuxième fois l approximaion linéaire Tou d abord nous pouvons réécrire Z CAL sous la forme,, Z Y R Y CAL =, Puis on subsiue aux rappors rappors on rouve Y,,, Z Z a, Y,,,,,, les approximaions Y CAL, E si on pose u = z ax, on voi que Z CAL U les approximaions Y Y, + Y,,, Y + Y,,,,, e aux Après quelques arrangemens où U es l esimaeur d Horviz-Tompson de la somme des u Celle-ci vau zéro dans caque srae, conrairemen à la somme des z qui es égale à a dans caque srae Cela monre bien que la sraificaion avec calage sur les sommes diminue la par de variance due aux écars d évoluion raduis par les a Nous ne disons pas «supprime» car le raisonnemen précéden n es rigoureux que pour de gros écanillons

8 Remarquons que u peu êre considéré comme un résidu lors de la régression dans la populaion de z sur x, sans erme consan, séparémen dans caque srae, le paramère éan esimé par a 4) Le plan de sondage opimal On appelle plan de sondage opimal celui qui minimise le coû de l informaion sous conraine que [ V ( R )] même de considérer à la place ( ), espérance sous le modèle de la variance de R, soi inférieure à un seuil Cela revien au [ ] V Z Que ce soi pour Z ou pour Z CAL on a besoin de la formule donnan la variance pour un sondage à probabiliés inégales, avec l esimaeur d Horviz-Tompson Cee formule, qui figure dans ous les manuels, fai inervenir, oure les, les probabiliés d inclusion l, du couple d uniés ( l, ) dans l écanillon Appliquée à Z = Z cee formule es : () V( l, l Z ) = z + zzl E donc () V( ) l [ l ] ( ), α l = + σ + ( ) ( ) Z a x x a x a x l l l l l Avec le irage de Poisson on a l, l = 0 e il ne subsise plus que le premier erme Même avec des irages à aille fixe «normaux», ces quaniés resen peies Par ailleurs, les effes a valen en moyenne zéro e son eux-mêmes peis comme on va le vérifier dans l applicaion numérique Il n es donc pas déraisonnable de faire, au moins pour ce problème d opimisaion, l approximaion [ Z ] ( z ) ( a x x = + σ ) (3) V( ) Il es imporan de remarquer que s il s agissai d esimer des variances réelles après irage de l écanillon e collece de l informaion nous ne passerions pas par un modèle, ne ferions pas ces approximaions e préférerions des formules plus élaborées elles que celles uilisées dans POULPE (Caron, Deville, Sauory, 998) Il s agi mainenan de définir le coû à minimiser Noons C le coû consan e c le coû de l informaion pour l unié e ε l indicarice d apparenance à l écanillon Ce coû es C + c ε Il es, en général, aléaoire e on préfére se conener de minimiser son espérance, à savoir C + c Enfin, ormis quelques grandes enreprises qui seron de oue façon dans la parie exausive, le coû es le même pour oues les uniés e on prend c = Ce problème de minimisaion aboui immédiaemen à (4) ( ) α [ z ] ( a x σ x ) = + α, dans la parie sondée

9 = n es La manière don les uniés se réparissen enre parie sondée e parie exausive avec pas à la discréion de l uilisaeur mais es une foncion de la aille de l écanillon Ceci es expliqué à l annexe Il en découle aussi le coefficien de proporionnalié à appliquer pour obenir dans la parie sondée La aille de l écanillon dépend de la valeur de la variance à ne pas dépasser Mais dans le monde réel, c es cee aille que l on se fixe e il s ensui une précision Il s agi du problème dual e en fai cela ne cange rien à l opimisaion La formule (4) rese valable Passons à l opimisaion pour l esimaeur calé Comme on l a vu à la secion précédene, Z u CAL U z ( ) ( ) (5) V( CAL ) e la variance de ce esimaeur s obien en remplaçan dans () z par u Comme il vien [ ] ( ) α Z z = σ x On noe que par suie du calage - c es le bu recercé - les ermes a x Les probabiliés opimales vérifien alors [ ] = σ x α (6) ( z ) dans la parie sondée on disparu de la variance On peu faire les mêmes commenaires que pour la formule (4) concernan la manière de déerminer la parie sondée e le coefficien de proporionnalié On noe que le sondage à probabilié proporionnelle à x es opimal si α = 5) L éude précise L éude de l ajusemen de la foncion puissance à la foncion de variance observée à éé faie à parir d un écanillon acuel des CA3 concernan le couple des années 95 e 96 On disposai sur le ficier des valeurs y, y e de la probabilié d inclusion Un poids sommaire d exrapolaion à la,, populaion es w = d affaires x On lui a subsiué le ciffre d affaires y, don il diffère par des erreurs de mesure imporanes mais poran sur un nombre faible d uniés La variance de z condiionnelle à x n es alors pas aure cose que la variance de y, condiionnelle à y, Touefois dans la suie on a Maleureusemen il manquai sur ce écanillon la valeur du ciffre conservé la noaion x pour que la logique apparaisse mieux On a éudié le problème comme si on s inéressai seulemen aux résulas de 4 grands domaines : Indusrie, Consrucion, Commerce, Services On a défini des rances fines de ciffre d affaires selon une progression géomérique Les limies de rances son mulipliées par 0 ous les 5 rances C es à l inérieur de ces rances que les effes a son esimées par a z x = où z, x son les moyennes de z, x par rance On a esimé α par le maximum de vraisemblance après avoir éliminé une ceraine proporion d uniés exrêmes Dans cee esimaion on a inrodui les poids w = en annexe Ce aspec ecnique es renvoyé

0 6) Principaux résulas e commenaires Le grapique A présene la répariion du nombre d enreprises selon le logarime de la aille dans l écanillon, e la même répariion dans la populaion, elle qu elle a éé exrapolée à parir de l écanillon avec les poids D une par le nombre d enreprises varie considérablemen selon la rance de aille D aure par les rances médianes, qui coniennen le plus grand nombre d enreprises, on un poids beaucoup plus imporan dans l esimaion globale, e les esimaions par rance qui von êre faies y son plus significaives Ceci doi êre gardé à l espri dans ce qui va suivre Grapique A : Répariion en % du nombre d'enreprises selon la aille Réparion en % 6 4 0 8 6 4 0 00K M 0M 00M Md 0Md Taille de l'enreprise (écelle log) Ecanillon Populaion Dans les grapiques A à A5 suivans son mis en relaion avec log( x ) des esimaions par rance de log z e log x z x Si le modèle éai vrai la courbe concernan cenrée sur une droie de pene α e d ordonnée à l origine logσ Quan à voir s il diffère beaucoup de log( σ ) x z x z x Ces esimaions son respecivemen log z x n devrai êre il s agi de z x où n es le nombre d uniés, σ l écar-ype de u = z a x dans la rance Pour simplifier, on a reenu les mêmes rances que pour définir a Les droies ajusées on aussi éé e

racées Dans ces grapiques ne figuren que les poins uilisés pour l esimaion, c es-à-dire après éliminaion de 8% des enreprises Seules les rances conenan plus de 0 enreprises y figuren Ecar-ype e moyenne quadraique de z en foncion de la aille moyenne de l enreprise par rance x (écelle logarimique sur les deux axes) x Grapique A : Grapique A3 : Indusrie Consrucion -05-04 -06-05 -07-06 -08-07 -09-08 - -09 - M 0M 00M Md - M 0M 00M Md Ecar ype Moyenne quadraique Ecar ype Moyenne quadraique Grapique A4 : Grapique A5 : Commerce Services -05-0 -06-07 -08-09 - -04-06 -08 - - M 0M 00M Md - M 0M 00M Md Ecar ype Moyenne quadraique Ecar ype Moyenne quadraique On a aussi racé sur ces quare grapiques les droies correspondan aux paramères α e σ obenus par la méode du maximum de vraisemblance On consae, à l allure des courbes, que l approximaion linéaire n es pas exagérée En ou cas on ne voi pas bien quel aure modèle simple on pourrai uiliser

D aure par, la différence enre les esimaions de z x e z x es assez faible Le rappor enre ces deux nombres es (en pondéran par l imporance des rances) : - dans 90% des cas supérieur à 093 - dans 99% des cas supérieur à 078 Par conséquen les opimaux avec ou sans sraificaion selon la aille (formules (4) e (6)) son proces

3 La superposiion des quare grapiques (grapique A6) monre, pour les services, une ordonnée à l origine plus élevée, ce qui indique une variance globalemen supérieure aux aures domaines Cela n éonnera personne En revance, la pene es approximaivemen la même ; ne prendre qu un seul coefficien alpa pourrai donc êre envisagé Grapique A6 : log( σ ), par domaine, selon le logarime de la aille x -03-04 -05-06 -07-08 -09 - - M 0M 00M Md Commerce Consruc Indusrie Services

4 L esimaion des coefficiens alpa donne le ableau A7 ci-dessous On rouve dans la première colonne la valeur de ces coefficiens quand on pondère par e avec un seuil d éliminaion des valeurs exrêmes de 5% L éliminaion des valeurs exrêmes se fai selon deux crières qui se recoupen pariellemen, c es pourquoi lorsqu on prend des seuils de 5% on élimine en fin de compe 8% de l écanillon Dans les aures colonnes apparaissen les coefficiens calculés si on avai pris des seuils différens de 5% (par exemple %) pour éliminer les valeurs exrêmes, ou si on n avai pas pondéré L esimaion des coefficiens alpa semble ne pas rop dépendre du coix des seuils Sans pondéraion, l esimaion des alpa es plus élevée, ce qui s explique aisémen par le fai que les plus grandes enreprises son alors sur-représenées Tableau A7 : Esimaion de α par domaine Domaine pondéré non pondéré pondéré pondéré seuils de 5% seuils de 5% seuils de 0% seuils de % Commerce 086 086 09 085 Consrucion 083 087 089 087 Indusrie 08 08 085 083 Services 075 086 076 07 Le ableau A8 présene une esimaion des diminuions de variance par domaine quand on uilise la valeur esimée de α au lieu de α =, oues coses éan égales par ailleurs La manière d esimer ces diminuions es expliciée dans l annexe Elles se siuen enre 3% e 5% sauf pour les services où elles son de % Elles son donc assez faibles Remarquons que ce cangemen s accompagne d un relèvemen des seuils de l exausif Dans le irage acuel, le nombre d enreprises dans l écanillon es rès imporan (environ 00 000) Le seuil de l exausif es donc assez bas, ce qui limie la plage où le coefficien alpa joue un rôle Si on avai des écanillons moins volumineux, la diminuion en variance serai légèremen plus imporane Tableau A8 : Diminuion de variance en % par domaine, selon la aille de l écanillon Taille de l écanillon 00K (ciffre réel) 0K Commerce 3% 7% Consrucion 3% 5% Indusrie 5% 9% Services % % Enfin, si nous perdons peu en variance en moyenne, nous gagnons peu-êre en robusesse ; en effe, la répariion des pondéraions es resserrée, limian ainsi le risque qu une seule peie enreprise ai un gros impac sur l indice

5 Le grapique A9 suivan représene la probabilié d inclusion selon la aille avec α = ou alpa égal au ciffre esimé Les poins représenés son les moyennes pondérées des probabiliés d inclusion dans cacun des 4 domaines La différence enre les deux courbes es légèremen plus imporane dans les services, où alpa es le plus faible que dans les aures domaines Pour les enreprises de plus peie aille, la probabilié d êre irée es presque deux fois plus fore avec nos alpa esimés qu avec α = Grapique A9 : Probabilié d inclusion selon la aille avec α = e α esimé (moyenne des domaines) Probabilié d'inclusion 0 00 000 Alpa= M 0M 00M Md Alpa esimé

6 7) Les enseignemens de cee éude e les perspecives Nore objecif éai de voir si on pouvai diminuer la variance des esimaions dans un sondage à probabilié proporionnelle à la aille, en faisan inervenir une foncion puissance de cee aille On rouve bien qu on diminue la variance avec une puissance inférieure à L opimum pour cee puissance semble se siuer auour de 0,8 Cependan la diminuion de variance induie es plus faible qu on l espérai Elle es enre 3% e % Cela ne veu pas dire que c es inuile Même une diminuion de 3% de la variance n es pas négligeable, car elle équivau à une économie de 3% des coûs pour la même précision On consae aussi que le fai de sraifier selon la aille n améliore pas beaucoup quand on a déjà un plan de sondage avec probabilié proporionnelle à la aille proce de l opimum Par ailleurs il semble que les probabiliés opimales ne cangen pas non plus beaucoup quand on sraifie Il serai impruden de généraliser ces résulas En effe la variable auxiliaire es rès proce de la variable observée Dans les deux cas il s agi du ciffre d affaires, la différence ne provenan que de l année d observaion Si nous avions eu, par exemple, l effecif salarié comme variable auxiliaire, la foncion puissance aurai peu-êre éé moins bien adapée, e avec une puissance assez différene Remarquons que si la foncion puissance s ajuse rop mal, il y a oujours la possibilié d ajouer des paramères au modèle ou d aller vers des esimaions non paramériques Par exemple on pourrai uiliser des foncions puissance raccordées à des noeuds avec des puissances e des écars σ différens à l inérieur de caque morceau (En passan au logarime on a une foncion linéaire par morceau) Les noeuds éan fixés, on peu oujours esimer les paramères par la méode du maximum de vraisemblance Si les idées qu on se fai son juses, la courbe des log devrai présener une ceraine convexié La diminuion de variance n éai pas le seul bu recercé Tous les responsables de l exploiaion des CA3 qui se son succédé depuis la fin des années 970 on eu le senimen que la présence de poids élevés pour ceraines uniés rendai la saisique fragile Soi par un effe muliplicaeur exagéré quand l évoluion pariculière pour une unié éai aypique, soi parce que la aille réelle de l unié éai beaucoup plus imporane que la aille connue dans la base de sondage ayan servi à déerminer les probabiliés d inclusion Ceci a condui à prendre deux ypes de mesures ) Borner inférieuremen les probabiliés d inclusion lors du irage ) Concevoir des esimaeurs avec foncion d influence bornée Cela peu se faire de deux manières La manière du L-esimaeur consise à borner l équivalen linéaire de la variable pour un aux prédéerminé d uniés exrêmes La manière du M-esimaeur consise à borner l équivalen linéaire de la variable lorsqu elle s éloigne d un écar prédéerminé du cenre C es la méode M-esimaeur qui a éé coisie sponanémen par les responsables successifs de l exploiaion des CA3 Cela revien d ailleurs au même que le L-esimaeur pour un gros écanillon On peu alors se demander ce qu il y a derrière l idée de rendre les poids plus omogènes, à variance égale e sacan que l on va de oue façon adoper une procédure robuse d esimaion Cee idée es peu-êre que la disribuion de la saisique es à queue plus longue que la loi normale, même avec la procédure robuse, ce qui donnerai un inervalle de confiance plus grand que pour la loi normale Ce effe serai d auan plus imporan que l unié es peie d après la base de sondage Le fai de diminuer les poids de ces peies uniés pourrai réduire l inervalle de confiance à variance égale Le fai de resserrer les poids perme aussi de rendre moins sévère la procédure robuse en diminuan la proporion d uniés à laquelle elle s applique e de diminuer ainsi des biais venan de la dissymérie de la disribuion Mais pour l insan il ne s agi que de spéculaion inellecuelle e pour aller plus loin il faudrai enir compe de la forme des disribuions e non pas seulemen des deux premiers momens

7 ANNEE Déerminaion du seuil de l exausif, des probabiliés d inclusion, de la variance e de la diminuion de variance Soien =,, N les éiquees des uniés de la populaion U Nous supposerons qu elles on éé définies de façon que la aille x de l unié es une foncion décroissane de Nous voulons irer un écanillon avec une probabilié d inclusion proporionnelle à une ceraine foncion croissane ( ) v = v x de x La aille de l écanillon n es pas nécessairemen fixe Nous appelons m son espérance e, pour simplifier, nous supposons m enier Nous avons m = Plus généralemen dans n impore quelle parie E de la populaion, l espérance de la aille de l écanillon es m E = E Nous appelons parie exausive la parie avec = e parie sondée celle avec < Comme es une foncion croissane de x la parie exausive ne peu êre consiuée que des uniés ayan les plus grands x Auremen di la parie exausive a les plus peis Soi b la plus grande valeur de dans la parie exausive Il lui correspond la plus peie valeur de x, que nous appelons seuil de l exausif A caque valeur de égal à e la foncion ( ) suivans m nous faisons correspondre le nombre m R m m v + = v i i> (a) La valeur de bes la plus peie valeur de elle que R < = si b (b) ( b) m m v vi i> b = si > b U = d uniés de rang inférieur ou Nous pouvons mainenan annoncer les deux résulas Le (b) es la raducion immédiae de ce que les probabiliés son proporionnelles à ν e que < pour que m m b = i Pour démonrer (a), on consae d abord que b doi vérifier R i > b + soi bien dans la parie sondée e ensuie qu on pourrai améliorer la précision en diminuan la valeur de b si ce n éai pas la plus peie valeur vérifian la relaion Précisons mainenan l espérance de la variance de l esimaeur sous le modèle de surpopulaion en nous limian à l esimaeur R CAL En remplaçan dans (5) par sa valeur donnée par (b) il vien [ ] (c) V( Z CAL ) σ m m x v α x σ v α b > b > b > b

8 Dans le cas pariculier du sondage opimal, v [ ] (d) V ( Z OPT CAL ) σ m m = α α x σ x b > b > b x α d après (6) e donc Soien A e A l espérance de la variance pour deux sondages, avec A diminuion de variance l expression A A A [ ] à A = V( Z CAL ) v = x < A Nous appelons A = V OPT Z CAL [ ] En pariculier on peu comparer ( ) calculé pour le sondage à probabilié sricemen proporionnelle à la aille avec En réalié nous n avons pas les données de la populaion enière, mais seulemen celles d un écanillon de ravail Il s agi de l écanillon 995-996 des CA3 Cee fois-ci nous appelons les éiquees des uniés de l écanillon Supposons qu elles son rangées selon l ordre décroissan de x Nous connaissons les probabiliés d inclusion de caque unié e donc nous pouvons esimer oues les saisiques relaives à la populaion que nous venons de définir On pondère les uniés par w = Cela revien à appliquer l esimaeur d Horviz-Tompson En pariculier précisons le poin le plus délica, la manière de déerminer le seuil de l exausif pour un écanillon de aille m quelconque qui serai iré de la populaion Il n y a pas de raison pour que ce seuil soi le même que pour l écanillon de ravail e il es une foncion décroissane de m Soi m b = w b l esimaion du nombre d uniés de la populaion représenées par les uniés de rang inférieur ou égal à b dans l écanillon de ravail Le rang b correspondan à l exausif s obien comme la plus peie valeur de vérifian R < où v + R ( m m = ) wv i i i > b C es cee valeur de b qu on uilise ensuie pour esimer les variances dans les formules (c) e (d), puis la diminuion de variance On remplace α e σ par leurs esimaions α e σ du maximum de vraisemblance ANNEE Esimaion de l exposanα Cee esimaion se fai sur un écanillon, mais on commence par présener la soluion comme si les paramères éaien esimés sur la populaion enière Les paramères son les a e α, σ Ce son seulemen ces deux derniers qui nous inéressen e on va les esimer condiionnellemen à a el qu il es défini à la secion 5 Le modèle avec comme seul paramère α es donc ( ) ( ) u a u a σ x α où u = z a x

9 La première idée qui vien à l espri pour esimer α es de faire la régression linéaire classique de Cependan l inconvénien du passage au logarime es que des valeurs faibles ( ) ln u sur ( ) ln x de u qui son des valeurs modales, se raduisen par des valeurs exrêmes de ln u C es pour évier ce genre de problème qu on uilise la méode du maximum de vraisemblance La log-vraisemblance es lnf α u = ln( σ x ) σ x α Il es clair qu elle es invariane en divisan x par une consane λ si on muliplie en même emps σ par λ α En pariculier on peu coisir λ = exp N ln x de sore que N ln x devienne nul On a fai cee ransformaion qui simplifie les calculs : une marice définie plus loin deviendra diagonale Si nous faisons le cangemen de paramère ν = ln σ, les équaions du maximum de vraisemblance son ( a) f u = α = 0 ν σ x f u = lnx α = 0 α σ x Appliquons, comme Harvey (976), la méode des scores pour résoudre ce sysème par iéraion lnσ,α éan le résula de l iéraion, la valeur de l iéraion + es ( b) lnσ α + + lnσ = α En subsiuan dans la marice à un résula simple : () c f ν f α ν u σ x f ν α f α α u lnσ + = lnσ + α N σ x u lnx α σ x α + = α + ( lnx ) σ= σ α= α f ν f α σ= σ α= α par, puis en se rappelan que Comme valeur iniiale on a pris α = 09, e lnσ = ln u N x, ln x = 0, on parvien Cee esimaion n es pas robuse On a d abord fai une première esimaion α, σ après avoir éliminé % d uniés rès gênanes pour des raisons diverses ( x rès faibles, rappor y y,, immense, ec) Ensuie on a refai l esimaion après avoir éliminé du calcul

0 a) 5% d uniés don la quanié u σ x b) 5% d uniés don la quanié lnx α u σ x es la plus grande en valeur absolue, α es la plus grande en valeur absolue Comme l inersecion n es pas vide la proporion d uniés éliminées n es pas la somme mais seulemen 8% Remarque sur ce algorime Comme σ : lnx u lnx = x = 0 α 0, la deuxième équaion du sysème (a) peu aussi s écrire, après éliminaion de En uilisan la méode de Newon, l iéraion es α + = α + ( lnx ) lnx u α x u x α On n a donc pas besoin de σ, ou cela revien à σ préférable de déerminer les uniés à éliminer à parir de qu à parir de u x α u = Cependan il es légèremen N σ α x u α x don la moyenne vau 0, pluô C es la raison pour laquelle on a préféré l iéraion indiquée en (c) En fai, on ne connaî y,, y, e donc z que sur un écanillon avec les probabiliés d inclusion du premier ordre Comme on veu avan ou esimer la valeur de α que l on aurai obenue si on avai disposé des données pour oue la populaion, on a éé amené à faire sysémaiquemen des sommes pondérées par l inverse de ces probabiliés Auremen di caque expression du ype ( ) dans ce qui précède doi êre remplacée par ( )

Références : N Caron, JC Deville, O Sauory ; Esimaion de précision de données issues d enquêes : documen méodologique sur le logiciel POULPE N 9806 M Davidien, R J Caroll ; «Variance funcion esimaion» ; J A S A, décembre 987, vol 8, N 400, pages 079 à 09 D M Gilinan, D Rupper ; «Some new esimaion meods for weiged regression wen ere are possible ouliers» ; Tecnomerics, aoû 986, vol 8, N 3 A C Harvey ; «Esimaing regression models wi muliplicaive eeroscedasiciy» ; Economerica, mai 976, vol 44, N 3 J-P Lecoure, P Tassi ; «Saisique non paramérique e robusesse» ; Economica E Olsson «Sequenial Poisson Sampling» ; Journal of Official Saisics, juin 998 C-E Särndal, B Swenson, J Wreman ; «Model assised survey sampling» ; Springer Verlag, 99