L Estimation de Modèles Log-Linéaires sur des Tableaux de Contingence issus d Enquêtes à plan de sondage complexe :



Documents pareils
Chapitre 3 : INFERENCE

Théorie des sondages : cours 5

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction à l approche bootstrap

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

La nouvelle planification de l échantillonnage

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Le retard scolaire en fonction du milieu parental : l influence des compétences des parents

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Principe d un test statistique

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Évaluations aléatoires : Comment tirer au sort?

VI. Tests non paramétriques sur un échantillon

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Le risque Idiosyncrasique

T de Student Khi-deux Corrélation

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

INTRODUCTION. Cadre d évaluation de la qualité des données (CEQD) (juillet 2003)

Gestion obligataire passive

Le WACC est-il le coût du capital?

note D2DPE n 38 Dynamique des qualifications et mobilité intergénérationnelle dans la région Nord Pas de Calais

Les inégalités sociales d accès aux grandes écoles

L image de la presse professionnelle auprès des actifs de catégories moyennes et supérieures

Stéphanie Dupays. du fait de stratégies individuelles ou familiales ou bien de contraintes liées aux changements

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Enquête sur les investissements dans l industrie

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Note de présentation générale. Secrétariat général du Conseil d orientation des retraites


jçíçêáë~íáçå=éí=ãçäáäáí =W=ÇÉë= ÅçãéçêíÉãÉåíë=éäìë=ê~íáçååÉäë=\==

Brock. Rapport supérieur

Probabilités III Introduction à l évaluation d options

FM/BS N Contact Ifop: Frédéric Micheau / Bénédicte Simon Département Opinion et Stratégies d'entreprise

DE L ÉVALUATION DE LA COMPRÉHENSION DE L ÉCRIT

Analyse de la variance Comparaison de plusieurs moyennes

Solution logicielle IDEA

Estimation et tests statistiques, TD 5. Solutions

Les palmarès du bonheur professionnel

L allocataire dans un couple : l homme ou la femme?

Article. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem

IBM SPSS Regression 21

L emploi et les salaires des enfants d immigrés

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Norme comptable internationale 33 Résultat par action

Chapitre 3. Les distributions à deux variables

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Analyse des durées de vie avec le logiciel R

Introduction aux sondages

Crédit à la consommation, un bon outil pour la rentrée?

L ANALYSE COUT-EFFICACITE

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Objet : Présentation des résultats des recherches sélectionnées dans le cadre de l appel à projets de recherche «Mobilité Professionnelle».

L IMPACT DE LA MUTUALISATION SUR LES RESSOURCES HUMAINES

Le chi carré. Le sommaire. Approche quantitative

PROGRAMME (Susceptible de modifications)

Cent quinzième session. Rome, septembre 2006

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Accès à l enseignement supérieur en France : une démocratisation réelle mais de faible ampleur

d évaluation Objectifs Processus d élaboration

Méthodes de la gestion indicielle

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 11 METHODOLOGIE D ENQUÊTES

Note à Messieurs les : Objet : Lignes directrices sur les mesures de vigilance à l égard de la clientèle

Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

Wealth Effect on Labor Market Transitions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèle de phases FlexWork: Sondage des entreprises et administrations suisses sur la flexibilité géographique et temporelle du travail

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés?

Loi binomiale Lois normales

FONCTION DE DEMANDE : REVENU ET PRIX

Les internautes et les comparateurs de prix

Transcription:

L Estimation de Modèles Log-Linéaires sur des Tableaux de Contingence issus d Enquêtes à plan de sondage complexe : un Examen de l Approche proposée par Clogg & Eliason Chris Skinner Louis-André Vallet Université de Southampton CNRS & CREST, Paris 1

Plan modèles log-linéaires et échantillonnage l approche de Clogg C. C. and Eliason S. R. (1987) Some common problems in log-linear analysis, Sociological Methods & Research, 16, 8-44. approche de pseudo-maximum de vraisemblance comparaison théorique étude empirique de mobilité sociale sur un tableau issu de l enquête Formation et Qualification Professionnelle (1985) 2

Tableau de Contingence (au niveau de la population) N 11 N 12 N 13 N 21 N 22 N 23 N 31 N 32 N 33 3

Modèle Log-Linéaire μ 11 μ 12 μ 13 μ 21 μ 22 μ 23 μ 31 μ 32 μ 33 E( N ) ij = μ, log( μ ) = α + β + γ ij ij i j 4

Échantillonnage Deux cas : A. probabilités de sélection constantes ( = π ij) à l intérieur des cellules ij B. probabilités de sélection variables n ij taille de l échantillon dans la cellule ij N ˆ ij somme des poids d échantillonnage dans cellule ij 5

Approche de Clogg & Eliason Cas A : poids constants à l intérieur des cellules E( n ) = μ = π E( N ) = π μ ij sij ij ij ij ij log( μ ) = log( π ) + α + β + γ sij ij i j log( π ij ) offset du modèle estimation par maximum de vraisemblance 6

Approche de Clogg & Eliason Cas B: poids variables (cas général) π ij estimé par ˆij π = (poids moyen) -1 log( ˆ π ) offset du modèle ij estimation par maximum de vraisemblance 7

Approche du Pseudo-Maximum de Vraisemblance (PMV) estimation ponctuelle avec N ˆ ij estimation des erreurs-types par méthodes de sondage (linéarisation, jackknife, etc.) 8

Comparaison Théorique de CE & PMV estimateurs ponctuels CE & PMV différents chaque estimateur ponctuel est sans biais (approx.) si modèle vrai estimation CE des erreurs-types non valide, sauf en cas A ; sous-estimation systématique en général ; ignore l échantillonnage en grappes estimation PMV des erreurs-types valide 9

Comparaison Empirique Enquête Insee Formation & Qualification Professionnelle 1985 Population (approx.) : personnes des ménages ordinaires âgées de 13 à 69 ans au recensement de 1982 Échantillon : 46 500 personnes par échantillonnage stratifié (73 strates) avec des fractions de sondage comprises entre 1/2690 et 1/200 39 233 répondants La variable de poids reflète à la fois les probabilités inégales d inclusion et la non-réponse à l enquête 10

Données de mobilité sociale analysées Sous-échantillon de 5 159 femmes, âgées de 35 à 59 ans en 1985, actives occupées à la date d enquête, pour lesquelles on connaît : la catégorie socioprofessionnelle ; et celle de leur père (quand elles ont cessé de fréquenter régulièrement l école ou l université) 11

(distribution de l échantillon analysé dans les différentes strates) Strate (situation en 1982) n fraction de sondage poids moyen écarttype du poids French, in labour market, farmers, 32-51 234 1/940 960 124 French, in labour market, farmers, 52+ 83 1/1250 1246 48 French, in labour market, artisans/shopkeepers, 32-51 223 1/1040 1145 88 French, in labour market, artisans/shopkeepers, 52+ 28 1/1360 1488 120 French, in labour market, managers/high professional, 32-51 747 1/310 344 44 French, in labour market, managers/high professionals, 52+ 94 1/340 389 67 French, in labour market, low professionals, 32-51 1 064 1/600 669 112 French, in labour market, low professionals, 52+ 101 1/620 720 76 French, in labour market, non manual, 32-51 1 581 1/830 935 129 French, in labour market, non manual, 52+ 214 1/830 946 112 French, in labour market, manual, 32 to 51 535 1/760 840 75 French, in labour market, manual, 52+ 60 1/1080 1194 51 French, in labour market, unemployed & never worked 13 1/400 492 93 French, students 7 1/900 1000 111 French, previously in the labour market 2 1/2270 2464 247 Other French, out of labour market, 32-51 146 1/2500 2795 621 Other French, out of labour market, 52+ 17 1/2500 2795 389 Foreign, in labour market, employed or unemployed, 32-51 10 1/730 831 190 Total 5 159-850 451 12

(table de mobilité) Daughter s class Father s class 1 Higher-grade salaried professionals Freq. 1 2 3 4 5 6 7 Total Unw. Wei. 164.00 81.23 25.00 13.01 136.00 113.18 12.00 15.35 59.00 66.32 9.00 8.08 0.00 0.00 405.00 297.17 2 Company managers and liberal professions Unw. Wei. 56.00 28.78 27.00 11.72 37.00 38.22 14.00 14.46 28.00 32.45 3.00 2.65 3.00 7.01 168.00 135.29 3 Lower-grade salaried professionals Unw. Wei. 95.00 48.08 16.00 11.44 161.00 129.70 15.00 22.79 115.00 131.79 18.00 18.20 4.00 4.77 424.00 366.78 4 Artisans and shopkeepers Unw. Wei. 97.00 52.25 35.00 21.35 219.00 174.45 78.00 118.41 200.00 223.37 35.00 39.57 8.00 14.27 672.00 643.67 5 Non-manual workers Unw. Wei. 59.00 30.18 7.00 3.68 145.00 120.03 32.00 53.42 182.00 216.57 29.00 28.65 3.00 4.17 457.00 456.70 6 Foremen and manual workers Unw. Wei. 128.00 64.18 18.00 14.88 419.00 361.46 124.00 184.12 930.00 1065.19 339.00 355.76 37.00 47.06 1995.00 2092.66 7 Farmers Unw. Wei. 38.00 20.29 8.00 5.63 164.00 134.71 73.00 101.98 342.00 394.83 136.00 140.49 277.00 368.80 1038.00 1166.73 Total Unw. Wei. 637.00 324.99 136.00 81.71 1281.00 1071.75 348.00 510.54 1856.00 2130.52 569.00 593.40 332.00 446.08 5159.00 5159.00 13

Analyser la structure et la force de l association : le modèle log-linéaire de Hauser (1978) Il identifie les effets d association entre les deux variables en contraignant certains d entre eux à être égaux pour des ensembles de cellules du tableau de contingence. On suppose que : les cellules ij sont assignées à K sous-ensembles ; et chacun partage un même paramètre d association δ k. D où le modèle : Log m ij = α + β + γ + δ i si la cellule ij appartient au sous-ensemble k Les paramètres δ k reflètent la densité de mobilité ou d immobilité dans certaines cellules (relativement à d autres cellules du tableau). j k 14

Modèle initial et modèle final du tableau de mobilité Dans un travail précédent (JMS 2005), sur la base d hypothèses sociologiques, nous avons proposé un tel modèle (ou allocation des cellules) fondé sur K=7 paramètres d association. Il s est avéré relativement proche des données observées. Après quelques modifications, il en résulte un modèle final (avec, de nouveau, K=7 paramètres d association) qui s ajuste de façon satisfaisante aux données (au sens d un test statistique). 15

Modèle initial 1 2 3 4 5 6 7 1 Higher-grade salaried II III IV V VI VII VII professionals 2 Company managers and III II IV IV VI VII VII liberal professions 3 Lower-grade salaried IV IV IV V V VI VII professionals 4 Artisans and shopkeepers V IV V IV V VI VI 5 Non-manual workers VI VI V V V V VI 6 Foremen and manual VII VII VI VI V IV V workers 7 Farmers VII VII VII VI VI V I Parmi les effets d association, I est supposé être le plus fort et VII le plus faible. 16

Comparaison des estimateurs ponctuels et des erreurs-types dans quatre analyses Quand les effectifs non pondérés sont analysés Quand les effectifs pondérés sont analysés en ignorant la complexité du plan de sondage Avec l approche proposée par Clogg & Eliason ces trois analyses avec les procédures SAS Catmod et Genmod Avec l approche du pseudo-maximum de vraisemblance avec le logiciel IVEware et la procédure SAS Catmod méthode de Jackknife Repeated Replication (JRR) pour les estimations de variance intensif du point de vue du calcul : environ 50 minutes pour chaque modèle 17

Paramètre β 1 (se) β 2 (se) β 3 (se) β 4 (se) β 5 (se) β 6 (se) β 7 γ 1 (se) γ 2 (se) γ 3 (se) Modèle initial Modèle final Pseudo Pseudo Non Clogg & Non Clogg & Pondéré maximum Pondéré maximum pondéré Eliason pondéré Eliason likelihood likelihood -1.813-1.825-1.828-1.825-1.747-1.754-1.763-1.754 (0.087) (0.086) (0.086) (0.098) (0.084) (0.083) (0.083) (0.093) -2.626-2.621-2.612-2.621-2.663-2.610-2.632-2.610 (0.107) (0.108) (0.106) (0.133) (0.102) (0.105) (0.102) (0.125) -1.532-1.559-1.549-1.559-1.492-1.517-1.514-1.517 (0.079) (0.078) (0.079) (0.090) (0.076) (0.075) (0.076) (0.085) -0.856-0.857-0.855-0.857-0.633-0.614-0.643-0.614 (0.069) (0.067) (0.070) (0.079) (0.061) (0.059) (0.061) (0.068) -1.134-1.104-1.111-1.104-1.036-1.013-1.021-1.013 (0.072) (0.072) (0.073) (0.082) (0.067) (0.065) (0.067) (0.075) 0.492 0.510 0.505 0.510 0.487 0.507 0.497 0.507 (0.049) (0.049) (0.049) (0.056) (0.048) (0.047) (0.048) (0.054) Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 2.187 (0.149) 0.585 (0.169) 2.889 (0.140) 1.179 (0.139) -0.269 (0.169) 2.360 (0.120) 1.261 (0.149) -0.182 (0.170) 2.424 (0.140) 1.179 (0.166) -0.269 (0.205) 2.360 (0.150) 2.177 (0.148) 0.450 (0.167) 2.855 (0.139) 1.196 (0.138) -0.373 (0.167) 2.341 (0.119) 1.238 (0.148) -0.321 (0.167) 2.376 (0.139) 1.196 (0.157) -0.373 (0.198) 2.341 (0.146) 18

γ 4 (se) γ 5 (se) γ 6 (se) γ 7 δ I (se) δ II (se) δ III (se) δ IV (se) δ V (se) δ VI (se) δ VII 1.473 (0.147) 1.508 (0.124) 1.555 (0.148) 1.508 (0.156) 1.204 (0.147) 1.253 (0.124) 1.282 (0.147) 1.253 (0.153) 3.089 2.895 2.943 2.895 3.167 2.971 3.003 2.971 (0.137) (0.116) (0.137) (0.143) (0.137) (0.116) (0.137) (0.144) 1.605 1.297 1.349 1.297 1.638 1.340 1.370 1.340 (0.146) (0.126) (0.146) (0.150) (0.146) (0.126) (0.146) (0.150) Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 3.561 3.451 3.569 3.451 4.163 4.096 4.138 4.096 (0.163) (0.146) (0.163) (0.189) (0.228) (0.266) (0.228) (0.252) 2.730 2.619 2.660 2.619 3.215 3.104 3.123 3.104 (0.119) (0.147) (0.118) (0.135) (0.191) (0.251) (0.191) (0.214) 2.396 2.297 2.326 2.297 2.276 2.252 2.275 2.252 (0.150) (0.189) (0.149) (0.186) (0.187) (0.245) (0.187) (0.208) 1.683 1.633 1.700 1.633 1.692 1.658 1.675 1.658 (0.086) (0.093) (0.085) (0.105) (0.183) (0.243) (0.183) (0.204) 1.161 1.078 1.154 1.078 1.245 1.217 1.240 1.217 (0.084) (0.092) (0.084) (0.103) (0.181) (0.241) (0.181) (0.201) 0.683 0.641 0.699 0.641 0.731 0.708 0.702 0.708 (0.072) (0.080) (0.072) (0.087) (0.177) (0.239) (0.177) (0.196) Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Fixed at 0 Déviance 86.11 77.12 75.58-47.71 33.69 34.77 - DDL 29 29 29-29 29 29-19

Estimateurs ponctuels : résultats Ceux obtenus en analysant les effectifs non pondérés sont biaisés et peuvent être nettement différents de tous les autres. (en particulier les paramètres relatifs à la variable-colonne (CS de la fille en 1985) car elle est fortement liée à l une des variables de stratification) Ceux obtenus en analysant les effectifs pondérés et sous l approche du pseudo-maximum de vraisemblance sont identiques comme attendu. Ceux obtenus avec l approche de Clogg & Eliason sont proches des précédents, bien que non exactement semblables. 20

Erreurs-types : résultats Comme attendu, elles sont différentes entre l approche PMV (qui prend en compte le plan de sondage) et l approche pondérée (qui ne le fait pas). Sous l approche Clogg & Eliason, elles sont virtuellement identiques à celle de l approche non pondérée, mais inférieures à celles de l approche PMV. Or, ces dernières sont très proches de ce que fournit une estimation correcte (jackknife) des erreurs-types sous l approche CE. On retrouve donc empiriquement ce qu indiquait la comparaison sur le plan théorique : les erreurs-types obtenues sous l approche Clogg & Eliason sous-estiment généralement la variabilité vraie des paramètres. 21