TRAITEMENT DES DONNÉES MANQUANTES DANS LES DONNÉES DE PANEL : CAS DES VARIABLES DÉPENDANTES DICHOTOMIQUES

Documents pareils

Méthodes de Simulation

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

MCMC et approximations en champ moyen pour les modèles de Markov

Modélisation aléatoire en fiabilité des logiciels

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

La classification automatique de données quantitatives

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Résolution d équations non linéaires

Chapitre 2 Le problème de l unicité des solutions

Représentation des Nombres

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

NON-LINEARITE ET RESEAUX NEURONAUX

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Image d un intervalle par une fonction continue

Université Paris-Dauphine DUMI2E 1ère année, Applications

Cours de méthodes de scoring

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Simulation de variables aléatoires

Annexe commune aux séries ES, L et S : boîtes et quantiles

PROBABILITES ET STATISTIQUE I&II

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Probabilités sur un univers fini

Premier modèle - Version simple

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Équations non linéaires

Classification non supervisée

Suites numériques 4. 1 Autres recettes pour calculer les limites

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Moments des variables aléatoires réelles

Probabilités sur un univers fini

Cours d Analyse. Fonctions de plusieurs variables

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

3 Approximation de solutions d équations

Suites numériques 3. 1 Convergence et limite d une suite

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Théorie et codage de l information

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Raisonnement probabiliste

Probabilités III Introduction à l évaluation d options

Théorème du point fixe - Théorème de l inversion locale

La fonction exponentielle

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Modélisation et simulation

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Le modèle de Black et Scholes

3. Conditionnement P (B)

Qu est-ce qu une probabilité?

Soutenance de stage Laboratoire des Signaux et Systèmes

Correction de l examen de la première session

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Quantification Scalaire et Prédictive

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

TABLE DES MATIERES. C Exercices complémentaires 42

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Le modèle de régression linéaire

Les indices à surplus constant

Pascal Viot Laboratoire de Physique Théorique des Liquides, Boîte 121, 4, Place Jussieu, Paris Cedex 05 viot@lptl.jussieu.

Intégration et probabilités TD1 Espaces mesurés Corrigé

INF6304 Interfaces Intelligentes

Programmes des classes préparatoires aux Grandes Ecoles

Table des matières. I Mise à niveau 11. Préface

1 Recherche en table par balayage

Précision d un résultat et calculs d incertitudes

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Continuité d une fonction de plusieurs variables

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Résumé des communications des Intervenants

Rapport de projet Risque de Crédit, Risque de Défaut : Étude de l influence du taux de recouvrement sur le prix de CDOs.

TSTI 2D CH X : Exemples de lois à densité 1

Température corporelle d un castor (une petite introduction aux séries temporelles)

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Wealth Effect on Labor Market Transitions

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

ÉPREUVE COMMUNE DE TIPE Partie D

Probabilités conditionnelles

Chapitre VI - Méthodes de factorisation

Chp. 4. Minimisation d une fonction d une variable

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Programmation linéaire et Optimisation. Didier Smets

Cours d introduction à la théorie de la détection

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

LES DIFFERENTS TYPES DE MESURE

Principe de symétrisation pour la construction d un test adaptatif

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Continuité et dérivabilité d une fonction

Introduction à la théorie des files d'attente. Claude Chaudet

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Calcul fonctionnel holomorphe dans les algèbres de Banach

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Chapitre 3. Les distributions à deux variables

Transcription:

Mohamed Adel BARHOUMI TRAITEMENT DES DONNÉES MANQUANTES DANS LES DONNÉES DE PANEL : CAS DES VARIABLES DÉPENDANTES DICHOTOMIQUES Mémoire présenté à la Faculté des études supérieures de l Université Laval dans le cadre du programme de maîtrise en statistique pour l obtention du grade de Maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES ET DE GÉNIE UNIVERSITÉ LAVAL QUÉBEC Février 26 c Mohamed Adel Barhoumi, 26

Résumé Dans ce document, nous examinons la performance de l estimation par la méthode bayésienne et celle par la méthode de vraisemblance. En premier lieu, on s intéresse au cas où la base de données est complète pour estimer un modèle dichotomique par l approche du maximum de vraisemblance et qui sera comparée à l estimation du modèle par l approche bayesienne ; dans ce dernier cas, on utilise la méthode d échantillonnage de Gibbs. En deuxième lieu, on étudie l impact du mécanisme de données manquantes ainsi que l étude des cas complets sur l estimation des paramètres du modèle. En outre, on utilise les modèles MCAR, MAR et NMAR. Nous illustrons ces méthodes d estimation à l aide des données simulées, ainsi qu avec des données réelles portant sur la décision d emploi ou de travail chez les jeunes.

Avant-propos Je tiens à remercier sincèrement mon directeur de recherche Monsieur Louis-Paul Rivest, professeur au Département de mathématique et de statistique de l Université Laval, pour ses conseils judicieux, sa patience ainsi que sa disponibilité ; j ai beaucoup apprécié travailler sous sa direction. Son encouragement et son aide m ont permis de mener ce travail à terme. J aimerais aussi remercier Monsieur Denis Bolduc pour son aide et ses conseils précieux. Je désire remercier mes parents ; je pense à ma mère ; tes conseils et tes sacrifices sont gravés dans mon esprit et me guideront pour toute la vie et à mon père ; ta patience et ton soutien moral au long de mes études ont été pour moi d un grand réconfort. Je pense aussi à mon ami Ali et à son épouse Asma pour leur support et leur dévouement, à mes frères et soeurs pour leur compréhension et leur amour qui m ont donné la force de continuer. Je tiens particulièrement à remercier ma fiancée Olfa. J aimerais enfin remercier Kamel Béji pour la relecture du mémoire.

Table des matières Résumé Avant-Propos Table des matières Liste des tableaux Table des figures ii iii iv v vii Introduction 2 Données longitudinales complètes 3 2. Panels complets............................... 3 2.. Modèles de panel.......................... 4 2.2 Modèle dichotomique............................ 5 2.2. Fonction de vraisemblance..................... 5 2.3 Algorithme de maximisation de la fonction de vraisemblance...... 6 2.3. Formule de Gauss.......................... 7 3 Approche bayesienne 9 3. Approche bayesienne............................ 9 3.. Survol de la méthodologie bayesienne.............. 9 3..2 Distributions a priori........................ 3.2 Inférence bayesienne............................ 2 3.3 Échantillonnage de Gibbs......................... 2 3.3. Modèle dichotomique........................ 4 3.3.2 Estimation par l approche bayesienne............... 7 3.4 Résultats................................... 9 3.4. Estimateur du maximum de vraisemblance............ 2 3.4.2 Résultats par l échantillonnage de Gibbs............. 2 4 Données longitudinales incomplètes 27 4. Panels incomplets.............................. 27

v 4.2 Modèles pour le mécanisme de non-réponse................ 27 4.3 Augmentation de données......................... 29 4.3. L algorithme de base........................ 29 4.3.2 Convergence de l algorithme d augmentation de données.... 3 4.4 Estimation pour le modèle dichotomique en pré- sence de données manquantes................................... 32 4.4. Mécanisme MCAR......................... 33 4.4.2 Mécanisme MAR.......................... 39 4.4.3 Mécanisme NMAR......................... 45 4.4.4 Étude des cas complets....................... 5 4.4.5 Conclusion.............................. 57 4.5 Application................................. 58 4.5. Mécanisme MCAR......................... 59 4.5.2 Mécanisme MAR.......................... 64 4.5.3 Mécanisme NMAR......................... 69 4.5.4 Étude des cas complets....................... 74 5 Conclusion 8 Bibliographie 8 A Distributions a posteriori : cas de données complètes 85 B Programmes Stata et Matlab 89 B. Pragrammes d estimation par le maximum de vraisemblance...... 89 B.2 Programmes d estimation par l échantillonnage de Gibbs........ 92 B.2. Programme d estimation par l échantillonnage de Gibbs : base de données complètes......................... 92 B.2.2 Programme adapté a des données manquantes selon différents mécanismes de non réponse.................... 97 B.2.3 Programme pour le mécanisme MAR............... B.3 Programme pour les cas complets..................... 6 C Résultats pour différentes simulations 2 C. Simulations pour le mécanisme MCAR.................. 2 C.2 Simulations pour le mécanisme MAR................... 4 C.3 Simulation pour le mécanisme NMAR................... 6 C.4 Simulation pour l étude des cas complets base de données MCAR... 7

Liste des tableaux 3. Estimation du maximum de vraisemblance................ 2 3.2 Les différents scénarios........................... 2 3.3 Résultats via l échantillonnage de Gibbs pour un échantillon de taille et dont les vraies valeurs pour µ, β et σ 2 sont, et, respectivement. 2 4. Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MCAR dans chaque période..... 34 4.2 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MAR dans chaque période...... 4 4.3 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes NMAR dans chaque période..... 45 4.4 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de donnée manquante CC-MCAR dans chaque période.... 5 4.5 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes NMAR, étude des cas complets : scénario du tableau 3.2.................................. 52 4.6 Description de la base de données : Moyenne des variables explicatives 58 4.7 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR,....................... 59 4.8 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MAR........................ 64 4.9 Résultats via l échantillonnage de Gibbs avec de différentes proportions de données manquantes NMAR...................... 69 4. Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR, études des cas complets.......... 74 C. Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période... 3 C.2 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MAR dans chaque période...... 5 C.3 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes NMAR dans chaque période..... 6

C.4 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période : étude des cas complets.............................. 7 vii

Table des figures 3. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2................ 22 3.2 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2................ 23 3.3 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2...................... 24 3.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2...................... 25 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2......................... 35 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2............................... 36 4.3 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 66% de données manquantes : scénario du tableau 3.2......................... 37 4.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, MCAR avec 66% de données manquantes : scénario du tableau 3.2...................................... 38 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2 4 4.6 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2...... 42 4.7 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2.......................... 43 4.8 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2............................... 44

4.9 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2......................... 46 4. Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, Cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2............................... 47 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2......................... 48 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2............................... 49 4.3 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2........... 53 4.4 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2............. 54 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2....... 55 4.6 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2............. 56 4.7 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR................ 6 4.8 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR....................... 6 4.9 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR............... 62 4.2 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR...................... 63 4.2 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR................ 65 4.22 Convergence de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR....................... 66 4.23 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR................ 67 4.24 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR....................... 68 ix

4.25 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR................ 7 4.26 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR....................... 7 4.27 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 65%, analyse des cas NMAR............... 72 4.28 Convergence de β, µ et σ 2, avec une proportion de données manquante de 65%, analyse des cas NMAR...................... 73 4.29 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas Complets.............. 75 4.3 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas cas complets.................... 76 4.3 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets.............. 77 4.32 Convergence de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets..................... 78 x

Chapitre Introduction Lors de l analyse d enquêtes, il est très fréquent de confronter le problème de données manquantes. Ce phénomène se manifeste par le refus de certaines personnes de répondre à certaines questions (on parle dans ce cas de non réponse partielle) ou encore de répondre au questionnaire au complet (il s agit de la non réponse totale). Une autre situation se manifeste également lorsqu il est impossible de suivre certains individus dans une enquête par panel (ou longitudinale). Ces données manquantes peuvent se retrouver dans les variables dépendantes ou les variables explicatives. La présence de ces dernières entraîne une estimation moins précise des paramètres d intérêt. Il existe plusieurs solutions au problème de données manquantes. Une solution consiste à éliminer toutes les observations qui comportent au moins une variable à valeur manquante on parle dans ce cas de l analyse des cas complets (CC). En effet, la stratégie d élimination des observations incomplètes est la solution par défault de la majorité des logiciels statistiques. Cependant cette méthode est généralement inappropriée, parce que la perte d informations qui en découle peut générer un biais important, dont on discutera plus loin dans ce document. En plus, l analyste s intéresse à l inférence à partir de l échantillon au complet. Ce travail porte sur l étude des données manquantes dans le cas d une enquête par panel. Litte et Rubin (22) présentent différents mécanismes de données manquantes. Il peut s agir soit d un mécanisme manquant complètement au hasard (MCAR), d un mécanisme manquant au hasard (MAR) et d un mécanisme n est pas manquant au hasard (NMAR). Yi et Thompson (25), utilisent l approche de maximum de vraisemblance pour estimer à la fois la moyenne de la variable réponse et les paramètres d association d une base de données longitudinales binaires incomplètes avec un mécanisme NMAR. Ibrahim et al. (25) comparent quatres approches d inférence pour les modèles linéaires généralisés avec données ayant des variables explicatives manquantes et où le

Chapitre. Introduction 2 mécanisme de non réponse est MAR : La méthode de maximum de vraisemblance, l imputation multiple, la méthode bayésienne et la méthode d estimation d équation pondérée. L objectif premier de ce travail est de comparer les méthodes de maximum de vraisemblance et bayesienne combinée avec l échantillonnage de Gibbs pour l estimation d un modèle binaire. La deuxième partie de ce travail porte sur l utilisation de l approche bayesienne et l échantillonnage de Gibbs pour contourner le problème de données manquantes. Plus précisemment, on s intéresse à l étude des cas complets ainsi qu aux différents mécanismes de données manquantes, MCAR, MAR et NMAR. Pour ce faire, nous exploitons une base de données synthétiques en premier lieu et en deuxième lieu on utilise une base de données réelles.

Chapitre 2 Données longitudinales complètes 2. Panels complets Pour qualifier les bases de données pour lesquelles nous possédons de l information temporelle concernant un ensemble d individus, nous utilisons le terme données panel. Ces dernières sont composées de coupes transversales et de coupes temporelles. Si chaque individu participe à chacune des coupes temporelles de l enquête, nous parlons alors d une base de panels complets, c est-à-dire un regroupement de coupes transversales où tous les individus sont observés à chaque période. Les grands avantages des données panel se résument comme suit :. Expliquer les effets dynamiques entre les agents, par exemple pour mesurer le taux de chômage, les coupes transversales peuvent estimer la proportion des chômeurs à une période donnée. Les données panel permettent de suivre l évolution de la situation de ces derniers dans le temps. 2. Identifier et mesurer les effets dynamiques que les données transversales ne peuvent pas détecter. Par exemple si on veut savoir si le marriage (homme-femme) peut augmenter ou diminuer le salaire d un travailleur, alors il faut observer le salaire des travailleurs avant et après le marriage, ce qui nécessite l utilisation des données panel. 3. Contrôler l hétérogeneité des individus. Aussi, interroger à répétition les différents individus permet d avoir une base de données plus informative et contenant des informations diverses. Par contre, plusieurs inconvénients reliés aux données longitudinales complètes limitent leur disponibilité dans la pratique. Le premier inconvénient est celui du suivi des per-

Chapitre 2. Données longitudinales complètes 4 sonnes échantillonnées et est associé au problème de la non réponse. En effet, dès que nous observons la présence des données manquantes, qui peuvent concerner des variables, des unités pour certaines périodes, ou provenir du fait que certaines unités de la dimension transversale ne sont pas observées à toutes les périodes, nous avons alors des données longitudinales incomplètes, que nous présentons au chapitre suivant. Pour plus de détails il faut se référer à Baltagi (995, chapitre ). Dans la prochaine section, on présente différents modèles de panel. 2.. Modèles de panel Il existe beaucoup de littérature concernant la modélisation des données panel. Nous présenterons deux modèles de panel. Pour cela, prenons comme exemple le modèle de regression linéaire suivant : y it = θ + βx it + u it, i =,..., n et t =,..., T, (2.) u it = α i + ɛ it, où x it est la variable explicative et y it est la variable dépendante à caractère continu. L indice i est celui de l individu alors que t représente le temps. La composante α i représente la caractéristque de l individu i, β est le paramètre d intérêt et ɛ it est le terme d erreur qui suit une distribution N(, σ 2 ). Le terme u it dénote l erreur composée du modèle, d où l appellation, modèle à erreur composée. Dans ce cas, nous sommes en présence d un modèle à erreur composée «One-Way Error Component Regression Model». La notation de ce modèle varie selon la nature du paramètre α i. Si α i est fixe alors il s agit d un modèle de panel à effets fixes, et si α i est aléatoire alors on parle d un modèle à effets aléatoires. Il existe aussi un autre type de modèle de panel : y it = θ + βx it + u it, i =,..., n et t =,..., T, u it = α i + λ t + ɛ it, où λ t est l effet temporel ; dans ce cas on parle d un modèle «Two-Way Error Component Regression Model». Dans ce contexte, on parle d un modèle à effets fixes si λ t et α i sont fixes et on parle d un modèle à effets aléatoires si ces deux paramètres sont aléatoires. Pour plus de détails à ce sujet voir Baltagi (995, chapitre 2). À la section prochaine nous présentons le modèle d intérêt ainsi que différentes méthodes d estimation.

Chapitre 2. Données longitudinales complètes 5 2.2 Modèle dichotomique Supposons que nous visitons chaque individu T fois. Soient Y it, la variable réponse pour l individu i à la période t, et Y i = (Y i,...y it ), le vecteur réponse pour l individu i =,..., n. Le modèle fait intervenir une variable latente Yit. Une réalisation de Y i est notée par y i = (y i,...y it ) et une réalisation de Yi est notée par Yi = (yi,...y it ). Soit x i = (x i,..., x it ) un vecteur de covariables de dimension (T ) pour l individu i. Si Y i est dichotomique, un des modèles les plus flexibles est le probit que nous décrivons dans cette sous section. Posons Y it = {, si Yit, si Yit où i =,..., n est l indice de l individu, t =,..., T est le temps et Yit latente qui s écrit comme est une variable Y it = α i + βx it + ɛ it, (2.2) où le paramètre α i représente l effet individuel non observable. Nous supposons que α i est une variable aléatoire de loi normale de moyenne µ et variance σ 2 et ɛ it N(, ). On a alors ce qui donne P (Y it = α i, β, x it ) = Φ(α i + βx it ) P (Y it = y it α i ) = [Φ(α i + βx it )] y it [ Φ(α i + βx it )] y it. Les paramètres d intérêt sont β, µ et σ 2. Dans la section suivante, nous nous penchons sur la fonction de vraisemblance du modèle. 2.2. Fonction de vraisemblance Soient y i = (y i,..., y it ) et x i = (x i,..., x it ), les données dont nous disposons et supposons que (y i,..., y it ) sont indépendants sachant (x i, α i ). Donc la distribution conditionnelle de (y i,..., y it x i, α i ), étant donné β, est

Chapitre 2. Données longitudinales complètes 6 f(y i α i, β, x i ) = T [Φ(α i + βx it )] y it [ Φ(α i + βx it )] y it. (2.3) t= Mais puisque les α i ne sont pas observables, alors il ne faut pas qu ils apparaissent dans l expression de la fonction de vraisemblance. Il faut utiliser la distribution marginale de y i donnée par f m (y i β, x i, µ, σ) = f(y i α i, β, x i ) exp 2πσ { } 2σ (α 2 i µ) 2 dα i (2.4) Le logarithme de (2.4) donne la log-vraisemblance marginale, l i (θ), de l individu i, avec θ = (β, σ 2, µ). Le logarithme de la fonction de vraisemblance est : l(θ) = n l i (θ). (2.5) i= Dans la section suivante, nous présenterons l algorithme que nous avons utilisé pour maximiser cette fonction. 2.3 Algorithme de maximisation de la fonction de vraisemblance La fonction de vraisemblance (2.4) ne possède pas de forme explicite. Cependant, différentes approches sont disponibles afin de l approximer. Entre autre, on va utiliser la méthode de Gauss-Legendre qui est basée sur le calcul numérique des intégrales définies ou indéfinies. Soit f : [, ] R, une fonction continue donnée. On désire approcher numériquement la quantité f(x)dx. Définition Si g est une fonction continue sur [, ] alors la formule de quadrature est donnée par J(g) = M ω j g(t j ), j=

Chapitre 2. Données longitudinales complètes 7 qui est définie par la donnée de M points d intégration telle que t... t M puis M nombres réels ω,..., ω M appelés poids de la formule de quadrature. Ces M points et ces M poids doivent être définis de sorte que J(g) soit une approximation numérique de g(t)dt. On dit que la formule de quadrature J(g) est exacte pour les polynômes de degré r si J(p) = p(t)dt pour tout polynôme de degré inférieur ou égal à r. 2.3. Formule de Gauss L idée des formules de Gauss est de choisir des points d intégration t,..., t M particuliers de sorte que la formule de quadrature soit exacte pour des polynômes de degré r aussi grand que possible. Le polynôme de Legendre de degré M est défini par G M (t) = d M 2 M M! dt M (t2 ) M. (2.6) Théorème. Les polynômes de Legendre, P M (X), de degré G, G, G 2,... vérifient les propriétés suivantes. G,..., G M forment une base de P M (X). 2. Si i j alors G i(t)g j (t)dt =, c est la propriété d orthogonalité. 3. G M à exactement M zéros réels distincts tous compris dans l intervalle (, ), ces zéros sont appelés points de Gauss. On dit que la quadrature J(g) = M j= ω jg(t j ) est la formule de Gauss-Legendre à M points si. Les points d intégration t <... < t M sont les M zéros du polynôme de Legendre. 2. Les poids ω,..., ω M sont définis par les relations ω j = L j(t)dt, j =,..., M où L,..., L M est la base de Lagrange de P M (X) associée aux M points de Gauss. Pour définir la base de Lagrange, soit L k défini par L k (t) = N i= de Lagrange est tel que :. L k est un polynôme de degré N, 2. L k (t j ) = si j k, j N, 3. L k (t k ) =. t t i t k t i appelé polynôme

Chapitre 2. Données longitudinales complètes 8 Alors L, L,..., L N forment une base de P N (X), appelée base de Lagrange, associée aux points t, t,..., t N, pour plus de détails, voir Abramowitz et Stegun (972 page 96). Nous avons programmé cet algorithme d intégration par Gauss-Legendre en utilisant le logiciel STATA et on a pris M = 4 points d intégrations. Ensuite, nous avons créé un programme qui maximise la fonction de vraisemblance (2.5), en exploitant la commande ml maximize de STATA, qui utilise l algorithme de Newton-Raphson. Les résultats sur les données simulées sont présentés dans le chapitre suivant. Ce dernier porte sur une autre méthode d estimation, complètement différente de la méthode décrite ci-haut, qui se base sur l échantillonnage de Gibbs.

Chapitre 3 Approche bayesienne Dans ce chapitre, nous estimons le modèle de base, tel que présenté à la section 2.2, en utilisant l approche bayesienne combinée avec l échantillonnage de Gibbs. Pour ce faire, nous rappelons les éléments de base de la technique bayesienne et de l échantillonnage de Gibbs. 3. Approche bayesienne 3.. Survol de la méthodologie bayesienne L approche bayésienne concentre son attention sur l utilisation de l information échantillonnale, de distributions de probabilités a priori et de distributions de probabilités a posteriori conjointes des paramètres pour décrire l incertitude sur ces derniers. La statistique bayésienne est basée sur une simple règle de probabilité. Pour motiver la simplicité de cette approche nous considérons deux variables aléatoire A et B. La règle de probabilité est f(a, B) = f(b)f(a B) (3.) où f(a, B) est la densité conjointe de A et B, f(a B) est la densité conditionnelle de A sachant B et f(b) est la densité marginale de B. Alternativement on peut changer le rôle de A et B et trouver l expression de la densité conjointe de A et B :

Chapitre 3. Approche bayesienne f(a, B) = f(a)f(b A). (3.2) Une simple manipulation de (3.) et (3.2) donne la règle de Bayes qui est au coeur de l approche bayesienne : f(b A) = f(b)f(a B). (3.3) f(a) Plaçons nous dans le contexte d une régression linéaire et où on s interesse à l estimation du vecteur de paramètres θ et soit y, un vecteur de données. On utilise la règle de Bayes et on remplace B par θ et A par y dans l equation (3.3), et ce qui donne f(θ y) = f(θ)f(y θ), (3.4) f(y) où f(θ y) est la densité a posteriori, f(y θ) est la fonction de vraisemblance, f(θ) est la densité a priori et f(y) est la densité marginale de y. La caractéristique d intérêt de l approche bayesienne est la densité a posteriori, f(θ y). Pour mettre en oeuvre l idée présentée, supposons que nous avons le modèle de régression suivant : y i = βx i + ɛ i, (3.5) où ɛ i N (, σ). Selon cette notation, le vecteur de paramètre θ contient β et σ. La loi de distribution des paramètres β et σ, ajustée à la lumière des observations de l échantillon, se fait au moyen du théorème de Bayes tel que présenté à l équation (3.4) : g(β, σ x, y) = h(x, y β, σ) g(β, σ), (3.6) h(x, y) telle que h(x, y) = h(x, y β, σ)g(β, σ x, y)dθdσ, β,σ où g(β, σ x, y) : h(x, y β, σ) : h(x, y) : g(β, σ) : distribution a posteriori des paramètres d intérêt, fonction de vraisemblance des données, distribution marginale des données distribution a priori des paramètres.

Chapitre 3. Approche bayesienne La distribution a priori est établie en fonction des croyances de l analyste, son intuition et ses analyses passées, alors que la fonction de vraisemblance contient des informations associées à l échantillon. Plus loin nous montrerons comment déterminer des lois a posteriori à partir des distributions a priori. Concentrons nous pour l instant sur la question de la distribution a priori qui sera traitée dans la section suivante. 3..2 Distributions a priori Suivant la conception bayésienne, les distributions initiales permettent d incorporer toutes les connaissances et opinions a priori sur les paramètres disponibles avant la collecte des données. Cette possibilité constitue à l évidence un apport potentiel considérable. Notons que par définition, une classe de distributions a priori forme une famille conjuguée de distribution a priori, si la densité a posteriori, p(θ x), appartient à la même classe de distribution a priori quelque soit x. Cependant, la situation qui cause problème est celle où ces distributions a priori sont inconnues et/ou peu fiables. Dans le cadre bayésien, la réponse est apportée par l utilisation des distributions a priori non-informative, conçues pour exprimer un état d ignorance sur les paramètres, en ne privilégiant pas a priori de valeurs particulières pour θ (Jeffreys 998). Les probabilités a posteriori correspondantes expriment l apport propre des données. Cette approche de l inférence bayésienne est maintenant reconnue comme un standard, pour plus de détails voir Lee (989, chapitre 2). Mais est-ce que l utilisation d une distribution non-informative est toujours possible? La réponse est oui dans le cas où l espace des paramètres est discret et fini, par exemple Θ = {θ,..., θ n }. Alors la distribution a priori non-informative est p(θ i ) = n, i =,..., n Aussi, dans le cas où nous avons un espace de paramètres continu et borné, comme par exemple Θ = [a, b], < a < b <, alors la distribution a priori est uniforme, p(θ) = b a, a < θ < b, donc il s agit bien d une distribution non-informative pour θ. De plus, une des solutions proposée est d utiliser une distribution invariante par toute transformation qui prend le nom de l a priori de Jeffrey, qui est défini comme : p(θ) [I(θ)] /2, (3.7)

Chapitre 3. Approche bayesienne 2 où I(θ) représente l information de Fisher qui a la forme suivante : [ ] 2 I(θ) = E x θ θ logf(x θ) 2 (3.8) où f(x θ) est la fonction de vraisemblance. Donc dans le cas de distributin a priori de Jeffrey la fonction de vraisemblance joue un rôle important à la détermination de la distribution a priori (3.7), pour plus de détails voir Carlin et Louis (2, chapitre 2). 3.2 Inférence bayesienne L inférence statistique traditionnelle se base sur les probabilités d échantillonnage, p(y θ), pour construire le test d hypothèse et l intervalle de confiance. Dans le cas d inférence bayesienne, pour obtenir un estimateur ˆθ(y) de θ, nous avons besoin de sélectionner la caratéristique qui résume la densité a posteriori f(θ y), comme la moyenne, le médiane ou le mode. Pour obtenir une mesure de précision d un estimateur ˆθ(y), on utilise la variance a posteriori de ˆθ(y) : varˆθ(y) = E θ y (θ ˆθ(y)) 2 (3.9) On montre dans la littérature, voir Carlin et Louis (2, chapitre 2), que la moyenne a posteriori est le meilleur estimateur qu on peut prendre. Dans la prochaine section on expliquera l échantillonnage de Gibbs. 3.3 Échantillonnage de Gibbs L échantillonnage de Gibbs est une technique permettant de générer des variables aléatoires à partir d une distribution marginale. Pour expliquer le fonctionnement de l échantillonnage de Gibbs, nous allons exploiter le cas d une densité bivariée. Supposons qu on a une densité conjointe f(x, y) et on s intéresse à la simulation de x et y. On simule d abord x puis y étant donné x ou l inverse. Ceci nécessite de connaitre les fonctions suivantes : { f X (x) f Y X (y) = f(x, y)dy y = f(y x)dx x

Chapitre 3. Approche bayesienne 3 Mais dans le cas où f X (x) et f Y (y) n ont pas une forme explicite et que les distributions conditionnelles f(x y) et f(y x) sont connues alors on utilise l échantillonneur de Gibbs :. Étape : Donner des valeurs de départ pour x et y et poser i = ; 2. Étape 2 : Effectuer les tirages conditionnels de la façon suivante : x i f(x y i ) (3.) y i f(y x i ) 3. Étape 3 : Poser i = i+ et retourner à l étape 2 et procéder ainsi jusqu à la convergence du processus. Autrement dit, les variables aléatoires x i et y i convergent vers un tirage à partir de leur distribution conjointe. Ceci donne une séquence de Gibbs de variables aléatoires : (x, y ), (x, y ),..., (x m, y m ). (3.) Selon la spécification de la distribution conditionnelle, f(x i y i ) correspond souvent à une distribution normale, logistique ou à une autre distribution à partir de laquelle nous pouvons facilement procéder à des tirages. Sous certaines conditions de régularité, si m, alors la distribution conjointe de (X m, Y m ) converge vers la vraie densité conjointe h(x, y) (Casella, 999). Toutefois, la technique d échantillonnage de Gibbs est basée sur la théorie des chaînes de Markov qui est une suite de variables aléatoires (X n, n ) à valeurs dans S, un espace d états, e, discret fini ou infini dénombrable. Une telle théorie doit satisfaire les deux conditions suivantes :. p [X n+ = s (X,..., X n ) = (e,..., r)] = p [X n+ = s X n = r], c est la propriété de Markov. 2. p [X n+ = s X n = r] ne dépend pas de n, c est la propriété d homogéneité dans le temps. Une séquence est dite chaîne markovienne si l observation précédente spécifie entièrement la distribution de l observation présente, pour plus de détails voir Ross (2). À cet égard, il faut noter que le but de la méthode Markov Chain Monte Carlo (MCMC ) est de produire des tirages de la loi conjointe f(.) à partir des tirages faits dans les distributions conditionnelles complètes en les visitant alternativement de façon systématique. Nous pouvons généraliser au cas de distributions multivariées. En effet, soit une densité conjointe f(θ, θ 2, θ 3,..., θ L ) et supposons que toutes les densités conditionnelles, complètes f(θ θ 2, θ 3,..., θ L ), f(θ 2 θ, θ 3,..., θ L ),..., f(θ L θ, θ 2,..., θ L ), soient de forme simple et facile à utiliser. Alors, en utilisant la même démarche que dans le cas de la densité bivariée, les étapes de l algorithme nous permettant d obtenir un tirage de f(θ, θ 2, θ 3,..., θ L ) se déduisent comme suit :

Chapitre 3. Approche bayesienne 4 Étape : Donner des valeurs de départ, θ, θ2, θ3,..., θl et poser i =. Étape 2 : Effectuer les tirages conditionnels de la façon suivante : θ i f(θ θ2 i, θ3 i,..., θ i L ) θ2 i f(θ 2 θ, i θ3 i,..., θ i L ) θ3 i f(θ 3 θ i, θi 2,..., θi L ) (3.2)... θ i L f(θ L θ i, θ i 2,..., θ i L ). Étape 3 : Poser i = i + et retournez à l étape 2 et procéder ainsi jusqu à convergence vers la distribution stationnaire du processus. Dans la prochaine section, nous utilisons cette méthode pour estimer les paramètres du modèle présenté à la section 2.2. 3.3. Modèle dichotomique Plaçons nous dans une situation où la variable dépendante est dichotomique et revenons à notre modèle de base présenté à la section 2.2 Y it = {, si Yit, si Yit où i =,..., n est l indice de l individu, t =,..., T est le temps et Yit latente qui s écrit comme est une variable Y it = α i + βx it + ɛ it, (3.3) où le paramètre α i représente l effet individuel non observable. Nous supposons que α i est une variable aléatoire de loi normale de moyenne µ et variance σ 2 et ɛ it N(, ). Il est pratique de considérer les variables latentes, y it, et les effets individuels, α i, commes des paramètres. Dans cette section nous expliquons comment estimer les paramètres de ce modèle, y it, i =,..., n et t =,..., T, α i, i =,..., n, β, µ, et σ 2. Donc, on dispose de n(t + ) + 3 paramètres à estimer. Dans le contexte de l estimation conjointe de β, µ, α i, y it et σ2 le lien entre l information a priori, la nouvelle information et la distribution a posteriori se fait au moyen du théorème de Bayes tel que vu à la section 3. :

Chapitre 3. Approche bayesienne 5 f(β, µ, α, y, σ 2, y x) = g(β, µ, α, y, σ 2 x, y) h(y x) = h(y β, µ, α, y, σ 2, x) g(β, µ, α, y, σ 2, x). (3.4) avec α = (α,..., α n ) yi = (yi,..., yit ) y = (y,..., y n ) Ainsi, la distribution a posteriori qui nous intéresse est g(β, µ, α, y, σ 2 x, y) = h(y β, µ, α, y, σ 2, x) g(β, µ, α, y, σ 2 x). h(y x) Notons que toutes les distributions sont conditionnelles à x, mais pour alléger la notation on les enlève des variables sur lesquelles on conditionne. Dans plusieurs cas, la distribution a posteriori est mathématiquement complexe et donc inutilisable de façon concrète. Cette limitation est contournée à l aide de l échantillonnage de Gibbs, tel que vu à la section 3.3. En effet, dans l application qui nous intéresse, la densité jointe, g(β, µ, α, y, σ 2 y), n a pas de forme explicite. La solution à ce problème serait de faire des tirages à partir des distributions a posteriori conditionnelle de chaque paramètre. Les étapes de l algorithme qui nous permet d obtenir un tirage dans la loi conjointe g() sont comme suit : étape : donner des valeurs de départs pour β, µ, αi, y it est le numéro de l itération. étape 2 : effectuer les tirages conditionnels de façon suivante : et poser k =, où k yit k+ f(yit β k, αi k, y it, y it ) α k+ i f(α i α i k, y k+ i, β k, µ k, σ 2,k ) β k+ f(β α k+, y k+, µ k, σ 2,k ) µ k+ f(µ y k+, α k+, β k+, σ 2,k ) σ 2,k+ f(σ 2 y k+, α k+, β k+, µ k+ ) (3.5)

Chapitre 3. Approche bayesienne 6 étape 3 : Poser k = k + et retourner à l étape 2 Pour déterminer les différentes distributions conditionnelles a posteriori des paramètres, présentés ci-dessus, nous allons supposer des lois a priori. Distribution a priori Les distributions a priori sont comme suit : f Y it (yit β, α i) = φ (yit α i βx it ) f αi (α i µ, σ) = ( ) σ φ αi µ σ f β (β) = ( ) β a φ b b f µ (µ) = ( ) µ a φ b b f σ (σ 2 ) = IG(c, d), (3.6) où a, b, a, b, c et d sont connus, φ() est la densité d une loi normale standard et IG() est la distribution d une gamma inverse. Avant de présenter la forme de la distribution a priori de σ 2, rappelons que la forme de densité Gamma, de paramètre c et d, qu on prend, pour une variable aléatoire X quelconque est f(x) = dc Γ(c) xc exp( xd), x >. La distribution a priori de σ 2 est une gamma inverse dont la distribution est la suivante : f(σ 2 ) = Les moments de σ 2 sont dc Γ(c) σ 2(c+) exp( d σ 2 ), σ2 >. (3.7)

Chapitre 3. Approche bayesienne 7 E(σ 2 ) = var(σ 2 ) = d c d 2 (c ) 2 (c 2). (3.8) À ce stade, nous allons présenter les différentes distributions a posteriori. 3.3.2 Estimation par l approche bayesienne Dans cette section, nous expliquons comment déterminer les distributions a posteriori des différents paramètres d intérêt. Notons que la distribution jointe est f(y it, β, α i, µ, σ 2 y it ) { n T } i= t= f Yit (y it β, α i, y it )f αi (α i µ, σ 2 ) f β (β)f µ (µ)f σ (σ 2 ) (3.9) Distribution a posteriori conditionnelle Pour déterminer les distributions conditionnelles des différents paramètres, on exploite la distribution jointe dans (3.9). Dans cette étape, on présente les lois a posteriori conditionnelle de tous les paramètres.. Distribution de y it Étant donné tous les paramètres et en exploitant le modèle de base (2.2), la simulation de yit sera déterminée à partir de la distribution normale tronquée suivante : (a) si y it = (ou yit > ), alors on a une distribution normale, tronquée à gauche à, de moyenne α i + βx it et de variance ; (b) si y it = (ou y it < ), alors on a une distribution normale, tronquée à droite à, de moyenne α i + βx it et de variance. On simule simplement une série de variables aléatoires à partir d une distribution normale de moyenne α i + βx it et de variance ; on prend la première valeur positive si y it = et la première valeur négative sinon.

Chapitre 3. Approche bayesienne 8 2. Distribution de α i La distribution conditionnelle complète de α i est obtenue en isolant les termes dans (3.9) qui dépendent de α i, ce qui donne [ T ] f(α i y i, µ, β, σ 2 ) t= f(y it α i, β) f(α i µ, σ 2 ). (3.2) Après quelques manipulations on trouve la distribution suivante (plus de détails concernant le calcul sont dans l annexe A) f(α i y i, µ, β, σ 2 ) = N ( t= (y it βx it) + µ ) σ 2 T +, T +. (3.2) σ 2 σ 2 3. Distribution de µ en procédant de la même manière que pour α i on trouve la distribution suivante de µ : [ n ] f(µ α, σ 2 ) f(α i µ, σ 2 ) f(µ), i= et après quelques manipulations mathématiques on trouve la distribution a posteriori complète suivante : µ N ( b n i= α i + σ 2 a nb + σ 2, ) σ 2 b nb + σ 2 Pour plus de détails, le lecteur peut se référer à l annexe A. (3.22) 4. Distribution de β La distribution conditionnelle de β s obtient comme suit : f(β α, y ) [ n ] T i= t= f(y it β, α i) f(β), f(α, y ) (3.23)

Chapitre 3. Approche bayesienne 9 et comme la constante de normalisation ne dépend pas de β alors la distribution conditionnelle complète est la suivante : ( a b β N + n T i= t= x it(yit α i) + n T, b i= t= x2 it + n T b i= t= x2 it ) (3.24) 5. Distribution de σ 2 La distribution de σ 2 est f(σ 2 α, µ) [ n ] f(α i µ, σ 2 ) f(σ 2 ). i= La distribution conditionnelle complète de σ 2 est une gamma inverse avec fonction de densité { n 2 i= (α i µ) 2 + d } }] c+ n 2 n Γ(c + n 2 ) σ 2(c++ n 2 ) exp [ σ2 { 2 i= (α i µ) 2 + d (3.25) Nous présentons à la section suivante les résultats de l estimation du modèle tel que présenté au chapitre 2 en utilisant l estimation par maximum de vraisemblance et par l approche bayesienne. 3.4 Résultats Les résultats qui seront présentés dans cette section sont basés sur des données simulées. En effet, on a simulé la variable explicative x it d une distribution normale de moyenne et de variance, i =,..., et t =,..., 4. En deuxième lieu, on a simulé α i, i =,...,, à partir d une distribution normale de moyenne µ = et de variance σ 2 =. À la troisième étape, on simule le terme d erreur ɛ it, i =,..., et t =,..., 4. Enfin, on simule la variable latente y it comme suit : y it = α i + β x it + ɛ it, (3.26) où β = est la vraie valeur de β. La variable y it est déterminée à partir des valeurs de y it : si y it <, alors y it = et si y it, alors y it =.

Chapitre 3. Approche bayesienne 2 3.4. Estimateur du maximum de vraisemblance Dans cette section on présente l estimation par la méthode du maximum de vraisemblance du modèle dichotomique tel que vu à la section 2.2. Pour l interpolation de Legendre, on utilise 4 points. Le résultat par maximum de vraisemblance est résumé dans le tableau suivant : Tab. 3. Estimation du maximum de vraisemblance Variables Coefficients Écart-type Vraies Valeurs β.94.9 µ -.65.37 σ 2.879.5 N Log-Vraisemblance -238.99 Seuil observé : : % : 5% : % Le tableau 3. montre que les estimateurs ˆβ, ˆµ et ˆσ 2 sont significatifs. Le résultat de l estimation du même modèle par l échantillonneur de Gibbs sera discuté à la section suivante. Le programme STATA pour faire ce calcul est présenté à l annexe B. 3.4.2 Résultats par l échantillonnage de Gibbs Nous allons étudier différentes distributions a priori dans le but de voir leur impact sur l estimation des paramètres. En effet, on a 4 différentes distributions a priori pour chaque paramètre et dans chaque cas on détermine les moments a posteriori de chaque paramètre. L espérence et la variance a posteriori de µ et β sont décrites à la section 3.3.2. Le tableau 3.2 résume les différents scénarios que nous avons utilisés. Tab. 3.2 Les différents scénarios Moments a priori Espérence (Écart-types sont entre parenthèses) µ β σ 2 2. (.) 2. (.).33 (.94 ) 2 2. (.73) 3. (.73) 2. (2. ) 3 5. (3.6) 6. (3.6) 3. (3. ) 4 3. (3.75) 4. (3.75) 3. (3. ) Scénario

Chapitre 3. Approche bayesienne 2 Les résultats de ces différents scénarios sont présentés dans le tableau 3.3 Tab. 3.3 Résultats via l échantillonnage de Gibbs pour un échantillon de taille et dont les vraies valeurs pour µ, β et σ 2 sont, et, respectivement. Moments a posteriori Moyenne a posteriori (écart-types a posteriori entre parenthèses) µ β σ 2 -.3 (.4).4 (.2).99 (.26) 2 -.6 (.4).5 (.2).8 (.3) 3 -.6 (.4).7 (.2).22 (.3) 4 -.7 (.4).5 (.2).9 (.3) Scénario Le programme MATLAB permettant d accomplir ce calcul est présenté dans l annexe B. Une analyse du tableau 3.3 montre que si la distribution a priori de µ est N(2, ), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de.3 avec un écart-type de.4. Si la distribution a priori de β est une N(2, ), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de.4 et son écart-type est.2 et si la distribution a priori de σ 2 est une Gamma inverse de moyenne.33 et d écart-type.94, alors sa moyenne a posteriori est.99 et son écart-type est de.26. Signalons à ce propos que si on passe d une distribution a priori informative, dans le sens où sa variance est petite, à d autres distributions a priori moins informatives, on remarque que l estimation de µ et β et leurs écarts-types respectifs sont peu sensibles aux distributions a priori. L estimation de σ 2 est influencée par la spécification des distributions a priori. Dans le tableau 3.3 la moyenne a posteriori varie de plus de 2% selon la spécification de la distribution a priori. Dans les pages qui suivent, on présente les graphiques montrant la convergence des itérations et les densités a posteriori pour les scénarios et 4 du tableau 3.2.

Chapitre 3. Approche bayesienne 22 2.5 Densité de Beta 3.5 Densité de Mu 3 2 2.5.5 2.5.5.5.2.4.6.8.2.4.6.8 2 2.2.8.6.4.2.2.4.6.8 Densité de SigmaCarrée.6.4.2.8.6.4.2.5.5 2 2.5 3 Fig. 3. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2.

Chapitre 3. Approche bayesienne 23 2.5 Densité de Beta 3 Densité de Mu 2 2.5 2.5.5.5.5.4.6.8.2.4.6.8 2 2.2 2.4.8.6.4.2.2.4.6.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 Fig. 3.2 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2.

Chapitre 3. Approche bayesienne 24 2.4 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations 2.2.4 2.8.2 Valeurs de Beta.6.4.2 Valeurs de Mu.2.4.8.6.6.4 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 3.3 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2.

Chapitre 3. Approche bayesienne 25 2 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.4.5.2 Valeurs de Beta Valeurs de Mu.2.4.6.5 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 3.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2.

Chapitre 3. Approche bayesienne 26 Les graphiques 3.3 et 3.4 démontrent que la convergence des tirages des différents paramètres vers une distribution stationnaire à partir de leurs distributions a posteriori est rapidement atteinte dès la première centaine d itérations. Ceci est dû au fait que les distributions a posteriori conditionnelles des paramètres sont connues. Dans le cas où les distributions a posteriori conditionnelles ne sont pas connues, Tanner (987, chapitre 6) présente différentes méthodes qui aident à atteindre la convergence rapidement. Pour faire de l inférence statistique sur les estimés, nous enlevons la première moitié des tirages et notre inférence ultime repose alors sur la deuxième moitié des tirages. La pratique de supprimer les premiers tirages est appelée burn-in ; pour plus de détails à ce sujet voir Gelman et al (2 chapitre 6 page 294).

Chapitre 4 Données longitudinales incomplètes 4. Panels incomplets Dans ce chapitre, nous étudions le modèle présenté à la section 2.2 en présence de données manquantes. En effet, si des individus sont absents de certaines coupes temporelles, nous parlons de façon générale de données longitudinales incomplètes. Dans ces deux cas, nous sommes en présence de panels incomplets. La possibilité d étudier des comportements dynamiques dépend directement de la richesse des informations relatives aux variables recueillies. Les principales difficultés quant à l utilisation de ces données sont d ordre méthodologique. La nécessité de développer les techniques appropriées pour tenir compte des manquements dans l information constitue un obstacle important. Dans les sections qui suivent, nous allons présenter différentes méthodes permettant de résoudre le problème des données manquantes. 4.2 Modèles pour le mécanisme de non-réponse Dans cette section, nous présentons les différents mécanismes qui mènent a des observations manquantes, selon la terminologie de Little et Rubin (22). Il s agit de connaitre la relation qui existe entre les données manquantes et le reste des observations. L analyse d une base de données contenant des observations manquantes va dépendre du mécanisme qui cause la non réponse.

Chapitre 4. Données longitudinales incomplètes 28 Pour ce faire, posons R it = {, si i est observé à la période t, sinon, avec i =,..., n et t =,..., T et soit R i = (R i,..., R it ) et r i = (r i,..., r it ) la réalisation de R i. La fonction de densité jointe de (r i, y i ), où y i = (y i,..., y it ), peut être factorisée comme suit : f(y i, r i ) = f(y i )f(r i y i ), (4.) où y i = (y o i, ym i ) est une partition de y i avec y o i la composante observée de y i et y m i la composante manquante de y i. Supposons que y it et le processus de non réponse sont indexés par les paramètres θ et ν, respectivement. La fonction de densité jointe sera f(y o i, ym i, r i, θ, ν) = f(y o i, ym i, θ)f(r i y o i, ym i, ν). (4.2) Les mécanismes de données manquantes sont classés selon la dépendance entre yi o et yi m de la probabilité conditionnelle f(r i yi o, ym i, ν). Les trois classes de modèles de nonréponse sont. Mécanisme manquant complètement au hasard (MCAR) : Le mécanisme est MCAR dans le cas où la probabilité de réponse des unités individuelles est uniforme et ne dépend pas de y o i, ni de y m i, c est-à-dire f(r i y o i, ym i, ν) = f(r i ν) y o i, ym i et ν. 2. Mécanisme manquant au hasard (MAR) : Le mécanisme est MAR si la probabilité de réponse des unités individuelles ne dépend pas de Yi m, mais dépend seulement de Yi o. Il s agit d une hypothèse qui est moins restrictive que MCAR et on a f(r i y o i, ym i, ν) = f(r i y o i, ν), ym i 3. Mécanisme non manquant au hasard(nmar) Un mécanisme est dit NMAR si la probabilité de réponse des unités individuelles dépend de y m i et peut dépendre de y o i. Il existe plusieurs méthodes pour contourner les problèmes des données manquantes parmi lesquelles la méthode d augmentation des données, qui sera présentée dans la section suivante.