Mohamed Adel BARHOUMI TRAITEMENT DES DONNÉES MANQUANTES DANS LES DONNÉES DE PANEL : CAS DES VARIABLES DÉPENDANTES DICHOTOMIQUES Mémoire présenté à la Faculté des études supérieures de l Université Laval dans le cadre du programme de maîtrise en statistique pour l obtention du grade de Maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES ET DE GÉNIE UNIVERSITÉ LAVAL QUÉBEC Février 26 c Mohamed Adel Barhoumi, 26
Résumé Dans ce document, nous examinons la performance de l estimation par la méthode bayésienne et celle par la méthode de vraisemblance. En premier lieu, on s intéresse au cas où la base de données est complète pour estimer un modèle dichotomique par l approche du maximum de vraisemblance et qui sera comparée à l estimation du modèle par l approche bayesienne ; dans ce dernier cas, on utilise la méthode d échantillonnage de Gibbs. En deuxième lieu, on étudie l impact du mécanisme de données manquantes ainsi que l étude des cas complets sur l estimation des paramètres du modèle. En outre, on utilise les modèles MCAR, MAR et NMAR. Nous illustrons ces méthodes d estimation à l aide des données simulées, ainsi qu avec des données réelles portant sur la décision d emploi ou de travail chez les jeunes.
Avant-propos Je tiens à remercier sincèrement mon directeur de recherche Monsieur Louis-Paul Rivest, professeur au Département de mathématique et de statistique de l Université Laval, pour ses conseils judicieux, sa patience ainsi que sa disponibilité ; j ai beaucoup apprécié travailler sous sa direction. Son encouragement et son aide m ont permis de mener ce travail à terme. J aimerais aussi remercier Monsieur Denis Bolduc pour son aide et ses conseils précieux. Je désire remercier mes parents ; je pense à ma mère ; tes conseils et tes sacrifices sont gravés dans mon esprit et me guideront pour toute la vie et à mon père ; ta patience et ton soutien moral au long de mes études ont été pour moi d un grand réconfort. Je pense aussi à mon ami Ali et à son épouse Asma pour leur support et leur dévouement, à mes frères et soeurs pour leur compréhension et leur amour qui m ont donné la force de continuer. Je tiens particulièrement à remercier ma fiancée Olfa. J aimerais enfin remercier Kamel Béji pour la relecture du mémoire.
Table des matières Résumé Avant-Propos Table des matières Liste des tableaux Table des figures ii iii iv v vii Introduction 2 Données longitudinales complètes 3 2. Panels complets............................... 3 2.. Modèles de panel.......................... 4 2.2 Modèle dichotomique............................ 5 2.2. Fonction de vraisemblance..................... 5 2.3 Algorithme de maximisation de la fonction de vraisemblance...... 6 2.3. Formule de Gauss.......................... 7 3 Approche bayesienne 9 3. Approche bayesienne............................ 9 3.. Survol de la méthodologie bayesienne.............. 9 3..2 Distributions a priori........................ 3.2 Inférence bayesienne............................ 2 3.3 Échantillonnage de Gibbs......................... 2 3.3. Modèle dichotomique........................ 4 3.3.2 Estimation par l approche bayesienne............... 7 3.4 Résultats................................... 9 3.4. Estimateur du maximum de vraisemblance............ 2 3.4.2 Résultats par l échantillonnage de Gibbs............. 2 4 Données longitudinales incomplètes 27 4. Panels incomplets.............................. 27
v 4.2 Modèles pour le mécanisme de non-réponse................ 27 4.3 Augmentation de données......................... 29 4.3. L algorithme de base........................ 29 4.3.2 Convergence de l algorithme d augmentation de données.... 3 4.4 Estimation pour le modèle dichotomique en pré- sence de données manquantes................................... 32 4.4. Mécanisme MCAR......................... 33 4.4.2 Mécanisme MAR.......................... 39 4.4.3 Mécanisme NMAR......................... 45 4.4.4 Étude des cas complets....................... 5 4.4.5 Conclusion.............................. 57 4.5 Application................................. 58 4.5. Mécanisme MCAR......................... 59 4.5.2 Mécanisme MAR.......................... 64 4.5.3 Mécanisme NMAR......................... 69 4.5.4 Étude des cas complets....................... 74 5 Conclusion 8 Bibliographie 8 A Distributions a posteriori : cas de données complètes 85 B Programmes Stata et Matlab 89 B. Pragrammes d estimation par le maximum de vraisemblance...... 89 B.2 Programmes d estimation par l échantillonnage de Gibbs........ 92 B.2. Programme d estimation par l échantillonnage de Gibbs : base de données complètes......................... 92 B.2.2 Programme adapté a des données manquantes selon différents mécanismes de non réponse.................... 97 B.2.3 Programme pour le mécanisme MAR............... B.3 Programme pour les cas complets..................... 6 C Résultats pour différentes simulations 2 C. Simulations pour le mécanisme MCAR.................. 2 C.2 Simulations pour le mécanisme MAR................... 4 C.3 Simulation pour le mécanisme NMAR................... 6 C.4 Simulation pour l étude des cas complets base de données MCAR... 7
Liste des tableaux 3. Estimation du maximum de vraisemblance................ 2 3.2 Les différents scénarios........................... 2 3.3 Résultats via l échantillonnage de Gibbs pour un échantillon de taille et dont les vraies valeurs pour µ, β et σ 2 sont, et, respectivement. 2 4. Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MCAR dans chaque période..... 34 4.2 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MAR dans chaque période...... 4 4.3 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes NMAR dans chaque période..... 45 4.4 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de donnée manquante CC-MCAR dans chaque période.... 5 4.5 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes NMAR, étude des cas complets : scénario du tableau 3.2.................................. 52 4.6 Description de la base de données : Moyenne des variables explicatives 58 4.7 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR,....................... 59 4.8 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MAR........................ 64 4.9 Résultats via l échantillonnage de Gibbs avec de différentes proportions de données manquantes NMAR...................... 69 4. Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR, études des cas complets.......... 74 C. Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période... 3 C.2 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MAR dans chaque période...... 5 C.3 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes NMAR dans chaque période..... 6
C.4 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période : étude des cas complets.............................. 7 vii
Table des figures 3. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2................ 22 3.2 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2................ 23 3.3 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2...................... 24 3.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2...................... 25 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2......................... 35 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2............................... 36 4.3 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 66% de données manquantes : scénario du tableau 3.2......................... 37 4.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, MCAR avec 66% de données manquantes : scénario du tableau 3.2...................................... 38 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2 4 4.6 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2...... 42 4.7 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2.......................... 43 4.8 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2............................... 44
4.9 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2......................... 46 4. Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, Cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2............................... 47 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2......................... 48 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2............................... 49 4.3 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2........... 53 4.4 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2............. 54 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2....... 55 4.6 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2............. 56 4.7 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR................ 6 4.8 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR....................... 6 4.9 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR............... 62 4.2 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR...................... 63 4.2 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR................ 65 4.22 Convergence de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR....................... 66 4.23 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR................ 67 4.24 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR....................... 68 ix
4.25 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR................ 7 4.26 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR....................... 7 4.27 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 65%, analyse des cas NMAR............... 72 4.28 Convergence de β, µ et σ 2, avec une proportion de données manquante de 65%, analyse des cas NMAR...................... 73 4.29 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas Complets.............. 75 4.3 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas cas complets.................... 76 4.3 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets.............. 77 4.32 Convergence de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets..................... 78 x
Chapitre Introduction Lors de l analyse d enquêtes, il est très fréquent de confronter le problème de données manquantes. Ce phénomène se manifeste par le refus de certaines personnes de répondre à certaines questions (on parle dans ce cas de non réponse partielle) ou encore de répondre au questionnaire au complet (il s agit de la non réponse totale). Une autre situation se manifeste également lorsqu il est impossible de suivre certains individus dans une enquête par panel (ou longitudinale). Ces données manquantes peuvent se retrouver dans les variables dépendantes ou les variables explicatives. La présence de ces dernières entraîne une estimation moins précise des paramètres d intérêt. Il existe plusieurs solutions au problème de données manquantes. Une solution consiste à éliminer toutes les observations qui comportent au moins une variable à valeur manquante on parle dans ce cas de l analyse des cas complets (CC). En effet, la stratégie d élimination des observations incomplètes est la solution par défault de la majorité des logiciels statistiques. Cependant cette méthode est généralement inappropriée, parce que la perte d informations qui en découle peut générer un biais important, dont on discutera plus loin dans ce document. En plus, l analyste s intéresse à l inférence à partir de l échantillon au complet. Ce travail porte sur l étude des données manquantes dans le cas d une enquête par panel. Litte et Rubin (22) présentent différents mécanismes de données manquantes. Il peut s agir soit d un mécanisme manquant complètement au hasard (MCAR), d un mécanisme manquant au hasard (MAR) et d un mécanisme n est pas manquant au hasard (NMAR). Yi et Thompson (25), utilisent l approche de maximum de vraisemblance pour estimer à la fois la moyenne de la variable réponse et les paramètres d association d une base de données longitudinales binaires incomplètes avec un mécanisme NMAR. Ibrahim et al. (25) comparent quatres approches d inférence pour les modèles linéaires généralisés avec données ayant des variables explicatives manquantes et où le
Chapitre. Introduction 2 mécanisme de non réponse est MAR : La méthode de maximum de vraisemblance, l imputation multiple, la méthode bayésienne et la méthode d estimation d équation pondérée. L objectif premier de ce travail est de comparer les méthodes de maximum de vraisemblance et bayesienne combinée avec l échantillonnage de Gibbs pour l estimation d un modèle binaire. La deuxième partie de ce travail porte sur l utilisation de l approche bayesienne et l échantillonnage de Gibbs pour contourner le problème de données manquantes. Plus précisemment, on s intéresse à l étude des cas complets ainsi qu aux différents mécanismes de données manquantes, MCAR, MAR et NMAR. Pour ce faire, nous exploitons une base de données synthétiques en premier lieu et en deuxième lieu on utilise une base de données réelles.
Chapitre 2 Données longitudinales complètes 2. Panels complets Pour qualifier les bases de données pour lesquelles nous possédons de l information temporelle concernant un ensemble d individus, nous utilisons le terme données panel. Ces dernières sont composées de coupes transversales et de coupes temporelles. Si chaque individu participe à chacune des coupes temporelles de l enquête, nous parlons alors d une base de panels complets, c est-à-dire un regroupement de coupes transversales où tous les individus sont observés à chaque période. Les grands avantages des données panel se résument comme suit :. Expliquer les effets dynamiques entre les agents, par exemple pour mesurer le taux de chômage, les coupes transversales peuvent estimer la proportion des chômeurs à une période donnée. Les données panel permettent de suivre l évolution de la situation de ces derniers dans le temps. 2. Identifier et mesurer les effets dynamiques que les données transversales ne peuvent pas détecter. Par exemple si on veut savoir si le marriage (homme-femme) peut augmenter ou diminuer le salaire d un travailleur, alors il faut observer le salaire des travailleurs avant et après le marriage, ce qui nécessite l utilisation des données panel. 3. Contrôler l hétérogeneité des individus. Aussi, interroger à répétition les différents individus permet d avoir une base de données plus informative et contenant des informations diverses. Par contre, plusieurs inconvénients reliés aux données longitudinales complètes limitent leur disponibilité dans la pratique. Le premier inconvénient est celui du suivi des per-
Chapitre 2. Données longitudinales complètes 4 sonnes échantillonnées et est associé au problème de la non réponse. En effet, dès que nous observons la présence des données manquantes, qui peuvent concerner des variables, des unités pour certaines périodes, ou provenir du fait que certaines unités de la dimension transversale ne sont pas observées à toutes les périodes, nous avons alors des données longitudinales incomplètes, que nous présentons au chapitre suivant. Pour plus de détails il faut se référer à Baltagi (995, chapitre ). Dans la prochaine section, on présente différents modèles de panel. 2.. Modèles de panel Il existe beaucoup de littérature concernant la modélisation des données panel. Nous présenterons deux modèles de panel. Pour cela, prenons comme exemple le modèle de regression linéaire suivant : y it = θ + βx it + u it, i =,..., n et t =,..., T, (2.) u it = α i + ɛ it, où x it est la variable explicative et y it est la variable dépendante à caractère continu. L indice i est celui de l individu alors que t représente le temps. La composante α i représente la caractéristque de l individu i, β est le paramètre d intérêt et ɛ it est le terme d erreur qui suit une distribution N(, σ 2 ). Le terme u it dénote l erreur composée du modèle, d où l appellation, modèle à erreur composée. Dans ce cas, nous sommes en présence d un modèle à erreur composée «One-Way Error Component Regression Model». La notation de ce modèle varie selon la nature du paramètre α i. Si α i est fixe alors il s agit d un modèle de panel à effets fixes, et si α i est aléatoire alors on parle d un modèle à effets aléatoires. Il existe aussi un autre type de modèle de panel : y it = θ + βx it + u it, i =,..., n et t =,..., T, u it = α i + λ t + ɛ it, où λ t est l effet temporel ; dans ce cas on parle d un modèle «Two-Way Error Component Regression Model». Dans ce contexte, on parle d un modèle à effets fixes si λ t et α i sont fixes et on parle d un modèle à effets aléatoires si ces deux paramètres sont aléatoires. Pour plus de détails à ce sujet voir Baltagi (995, chapitre 2). À la section prochaine nous présentons le modèle d intérêt ainsi que différentes méthodes d estimation.
Chapitre 2. Données longitudinales complètes 5 2.2 Modèle dichotomique Supposons que nous visitons chaque individu T fois. Soient Y it, la variable réponse pour l individu i à la période t, et Y i = (Y i,...y it ), le vecteur réponse pour l individu i =,..., n. Le modèle fait intervenir une variable latente Yit. Une réalisation de Y i est notée par y i = (y i,...y it ) et une réalisation de Yi est notée par Yi = (yi,...y it ). Soit x i = (x i,..., x it ) un vecteur de covariables de dimension (T ) pour l individu i. Si Y i est dichotomique, un des modèles les plus flexibles est le probit que nous décrivons dans cette sous section. Posons Y it = {, si Yit, si Yit où i =,..., n est l indice de l individu, t =,..., T est le temps et Yit latente qui s écrit comme est une variable Y it = α i + βx it + ɛ it, (2.2) où le paramètre α i représente l effet individuel non observable. Nous supposons que α i est une variable aléatoire de loi normale de moyenne µ et variance σ 2 et ɛ it N(, ). On a alors ce qui donne P (Y it = α i, β, x it ) = Φ(α i + βx it ) P (Y it = y it α i ) = [Φ(α i + βx it )] y it [ Φ(α i + βx it )] y it. Les paramètres d intérêt sont β, µ et σ 2. Dans la section suivante, nous nous penchons sur la fonction de vraisemblance du modèle. 2.2. Fonction de vraisemblance Soient y i = (y i,..., y it ) et x i = (x i,..., x it ), les données dont nous disposons et supposons que (y i,..., y it ) sont indépendants sachant (x i, α i ). Donc la distribution conditionnelle de (y i,..., y it x i, α i ), étant donné β, est
Chapitre 2. Données longitudinales complètes 6 f(y i α i, β, x i ) = T [Φ(α i + βx it )] y it [ Φ(α i + βx it )] y it. (2.3) t= Mais puisque les α i ne sont pas observables, alors il ne faut pas qu ils apparaissent dans l expression de la fonction de vraisemblance. Il faut utiliser la distribution marginale de y i donnée par f m (y i β, x i, µ, σ) = f(y i α i, β, x i ) exp 2πσ { } 2σ (α 2 i µ) 2 dα i (2.4) Le logarithme de (2.4) donne la log-vraisemblance marginale, l i (θ), de l individu i, avec θ = (β, σ 2, µ). Le logarithme de la fonction de vraisemblance est : l(θ) = n l i (θ). (2.5) i= Dans la section suivante, nous présenterons l algorithme que nous avons utilisé pour maximiser cette fonction. 2.3 Algorithme de maximisation de la fonction de vraisemblance La fonction de vraisemblance (2.4) ne possède pas de forme explicite. Cependant, différentes approches sont disponibles afin de l approximer. Entre autre, on va utiliser la méthode de Gauss-Legendre qui est basée sur le calcul numérique des intégrales définies ou indéfinies. Soit f : [, ] R, une fonction continue donnée. On désire approcher numériquement la quantité f(x)dx. Définition Si g est une fonction continue sur [, ] alors la formule de quadrature est donnée par J(g) = M ω j g(t j ), j=
Chapitre 2. Données longitudinales complètes 7 qui est définie par la donnée de M points d intégration telle que t... t M puis M nombres réels ω,..., ω M appelés poids de la formule de quadrature. Ces M points et ces M poids doivent être définis de sorte que J(g) soit une approximation numérique de g(t)dt. On dit que la formule de quadrature J(g) est exacte pour les polynômes de degré r si J(p) = p(t)dt pour tout polynôme de degré inférieur ou égal à r. 2.3. Formule de Gauss L idée des formules de Gauss est de choisir des points d intégration t,..., t M particuliers de sorte que la formule de quadrature soit exacte pour des polynômes de degré r aussi grand que possible. Le polynôme de Legendre de degré M est défini par G M (t) = d M 2 M M! dt M (t2 ) M. (2.6) Théorème. Les polynômes de Legendre, P M (X), de degré G, G, G 2,... vérifient les propriétés suivantes. G,..., G M forment une base de P M (X). 2. Si i j alors G i(t)g j (t)dt =, c est la propriété d orthogonalité. 3. G M à exactement M zéros réels distincts tous compris dans l intervalle (, ), ces zéros sont appelés points de Gauss. On dit que la quadrature J(g) = M j= ω jg(t j ) est la formule de Gauss-Legendre à M points si. Les points d intégration t <... < t M sont les M zéros du polynôme de Legendre. 2. Les poids ω,..., ω M sont définis par les relations ω j = L j(t)dt, j =,..., M où L,..., L M est la base de Lagrange de P M (X) associée aux M points de Gauss. Pour définir la base de Lagrange, soit L k défini par L k (t) = N i= de Lagrange est tel que :. L k est un polynôme de degré N, 2. L k (t j ) = si j k, j N, 3. L k (t k ) =. t t i t k t i appelé polynôme
Chapitre 2. Données longitudinales complètes 8 Alors L, L,..., L N forment une base de P N (X), appelée base de Lagrange, associée aux points t, t,..., t N, pour plus de détails, voir Abramowitz et Stegun (972 page 96). Nous avons programmé cet algorithme d intégration par Gauss-Legendre en utilisant le logiciel STATA et on a pris M = 4 points d intégrations. Ensuite, nous avons créé un programme qui maximise la fonction de vraisemblance (2.5), en exploitant la commande ml maximize de STATA, qui utilise l algorithme de Newton-Raphson. Les résultats sur les données simulées sont présentés dans le chapitre suivant. Ce dernier porte sur une autre méthode d estimation, complètement différente de la méthode décrite ci-haut, qui se base sur l échantillonnage de Gibbs.
Chapitre 3 Approche bayesienne Dans ce chapitre, nous estimons le modèle de base, tel que présenté à la section 2.2, en utilisant l approche bayesienne combinée avec l échantillonnage de Gibbs. Pour ce faire, nous rappelons les éléments de base de la technique bayesienne et de l échantillonnage de Gibbs. 3. Approche bayesienne 3.. Survol de la méthodologie bayesienne L approche bayésienne concentre son attention sur l utilisation de l information échantillonnale, de distributions de probabilités a priori et de distributions de probabilités a posteriori conjointes des paramètres pour décrire l incertitude sur ces derniers. La statistique bayésienne est basée sur une simple règle de probabilité. Pour motiver la simplicité de cette approche nous considérons deux variables aléatoire A et B. La règle de probabilité est f(a, B) = f(b)f(a B) (3.) où f(a, B) est la densité conjointe de A et B, f(a B) est la densité conditionnelle de A sachant B et f(b) est la densité marginale de B. Alternativement on peut changer le rôle de A et B et trouver l expression de la densité conjointe de A et B :
Chapitre 3. Approche bayesienne f(a, B) = f(a)f(b A). (3.2) Une simple manipulation de (3.) et (3.2) donne la règle de Bayes qui est au coeur de l approche bayesienne : f(b A) = f(b)f(a B). (3.3) f(a) Plaçons nous dans le contexte d une régression linéaire et où on s interesse à l estimation du vecteur de paramètres θ et soit y, un vecteur de données. On utilise la règle de Bayes et on remplace B par θ et A par y dans l equation (3.3), et ce qui donne f(θ y) = f(θ)f(y θ), (3.4) f(y) où f(θ y) est la densité a posteriori, f(y θ) est la fonction de vraisemblance, f(θ) est la densité a priori et f(y) est la densité marginale de y. La caractéristique d intérêt de l approche bayesienne est la densité a posteriori, f(θ y). Pour mettre en oeuvre l idée présentée, supposons que nous avons le modèle de régression suivant : y i = βx i + ɛ i, (3.5) où ɛ i N (, σ). Selon cette notation, le vecteur de paramètre θ contient β et σ. La loi de distribution des paramètres β et σ, ajustée à la lumière des observations de l échantillon, se fait au moyen du théorème de Bayes tel que présenté à l équation (3.4) : g(β, σ x, y) = h(x, y β, σ) g(β, σ), (3.6) h(x, y) telle que h(x, y) = h(x, y β, σ)g(β, σ x, y)dθdσ, β,σ où g(β, σ x, y) : h(x, y β, σ) : h(x, y) : g(β, σ) : distribution a posteriori des paramètres d intérêt, fonction de vraisemblance des données, distribution marginale des données distribution a priori des paramètres.
Chapitre 3. Approche bayesienne La distribution a priori est établie en fonction des croyances de l analyste, son intuition et ses analyses passées, alors que la fonction de vraisemblance contient des informations associées à l échantillon. Plus loin nous montrerons comment déterminer des lois a posteriori à partir des distributions a priori. Concentrons nous pour l instant sur la question de la distribution a priori qui sera traitée dans la section suivante. 3..2 Distributions a priori Suivant la conception bayésienne, les distributions initiales permettent d incorporer toutes les connaissances et opinions a priori sur les paramètres disponibles avant la collecte des données. Cette possibilité constitue à l évidence un apport potentiel considérable. Notons que par définition, une classe de distributions a priori forme une famille conjuguée de distribution a priori, si la densité a posteriori, p(θ x), appartient à la même classe de distribution a priori quelque soit x. Cependant, la situation qui cause problème est celle où ces distributions a priori sont inconnues et/ou peu fiables. Dans le cadre bayésien, la réponse est apportée par l utilisation des distributions a priori non-informative, conçues pour exprimer un état d ignorance sur les paramètres, en ne privilégiant pas a priori de valeurs particulières pour θ (Jeffreys 998). Les probabilités a posteriori correspondantes expriment l apport propre des données. Cette approche de l inférence bayésienne est maintenant reconnue comme un standard, pour plus de détails voir Lee (989, chapitre 2). Mais est-ce que l utilisation d une distribution non-informative est toujours possible? La réponse est oui dans le cas où l espace des paramètres est discret et fini, par exemple Θ = {θ,..., θ n }. Alors la distribution a priori non-informative est p(θ i ) = n, i =,..., n Aussi, dans le cas où nous avons un espace de paramètres continu et borné, comme par exemple Θ = [a, b], < a < b <, alors la distribution a priori est uniforme, p(θ) = b a, a < θ < b, donc il s agit bien d une distribution non-informative pour θ. De plus, une des solutions proposée est d utiliser une distribution invariante par toute transformation qui prend le nom de l a priori de Jeffrey, qui est défini comme : p(θ) [I(θ)] /2, (3.7)
Chapitre 3. Approche bayesienne 2 où I(θ) représente l information de Fisher qui a la forme suivante : [ ] 2 I(θ) = E x θ θ logf(x θ) 2 (3.8) où f(x θ) est la fonction de vraisemblance. Donc dans le cas de distributin a priori de Jeffrey la fonction de vraisemblance joue un rôle important à la détermination de la distribution a priori (3.7), pour plus de détails voir Carlin et Louis (2, chapitre 2). 3.2 Inférence bayesienne L inférence statistique traditionnelle se base sur les probabilités d échantillonnage, p(y θ), pour construire le test d hypothèse et l intervalle de confiance. Dans le cas d inférence bayesienne, pour obtenir un estimateur ˆθ(y) de θ, nous avons besoin de sélectionner la caratéristique qui résume la densité a posteriori f(θ y), comme la moyenne, le médiane ou le mode. Pour obtenir une mesure de précision d un estimateur ˆθ(y), on utilise la variance a posteriori de ˆθ(y) : varˆθ(y) = E θ y (θ ˆθ(y)) 2 (3.9) On montre dans la littérature, voir Carlin et Louis (2, chapitre 2), que la moyenne a posteriori est le meilleur estimateur qu on peut prendre. Dans la prochaine section on expliquera l échantillonnage de Gibbs. 3.3 Échantillonnage de Gibbs L échantillonnage de Gibbs est une technique permettant de générer des variables aléatoires à partir d une distribution marginale. Pour expliquer le fonctionnement de l échantillonnage de Gibbs, nous allons exploiter le cas d une densité bivariée. Supposons qu on a une densité conjointe f(x, y) et on s intéresse à la simulation de x et y. On simule d abord x puis y étant donné x ou l inverse. Ceci nécessite de connaitre les fonctions suivantes : { f X (x) f Y X (y) = f(x, y)dy y = f(y x)dx x
Chapitre 3. Approche bayesienne 3 Mais dans le cas où f X (x) et f Y (y) n ont pas une forme explicite et que les distributions conditionnelles f(x y) et f(y x) sont connues alors on utilise l échantillonneur de Gibbs :. Étape : Donner des valeurs de départ pour x et y et poser i = ; 2. Étape 2 : Effectuer les tirages conditionnels de la façon suivante : x i f(x y i ) (3.) y i f(y x i ) 3. Étape 3 : Poser i = i+ et retourner à l étape 2 et procéder ainsi jusqu à la convergence du processus. Autrement dit, les variables aléatoires x i et y i convergent vers un tirage à partir de leur distribution conjointe. Ceci donne une séquence de Gibbs de variables aléatoires : (x, y ), (x, y ),..., (x m, y m ). (3.) Selon la spécification de la distribution conditionnelle, f(x i y i ) correspond souvent à une distribution normale, logistique ou à une autre distribution à partir de laquelle nous pouvons facilement procéder à des tirages. Sous certaines conditions de régularité, si m, alors la distribution conjointe de (X m, Y m ) converge vers la vraie densité conjointe h(x, y) (Casella, 999). Toutefois, la technique d échantillonnage de Gibbs est basée sur la théorie des chaînes de Markov qui est une suite de variables aléatoires (X n, n ) à valeurs dans S, un espace d états, e, discret fini ou infini dénombrable. Une telle théorie doit satisfaire les deux conditions suivantes :. p [X n+ = s (X,..., X n ) = (e,..., r)] = p [X n+ = s X n = r], c est la propriété de Markov. 2. p [X n+ = s X n = r] ne dépend pas de n, c est la propriété d homogéneité dans le temps. Une séquence est dite chaîne markovienne si l observation précédente spécifie entièrement la distribution de l observation présente, pour plus de détails voir Ross (2). À cet égard, il faut noter que le but de la méthode Markov Chain Monte Carlo (MCMC ) est de produire des tirages de la loi conjointe f(.) à partir des tirages faits dans les distributions conditionnelles complètes en les visitant alternativement de façon systématique. Nous pouvons généraliser au cas de distributions multivariées. En effet, soit une densité conjointe f(θ, θ 2, θ 3,..., θ L ) et supposons que toutes les densités conditionnelles, complètes f(θ θ 2, θ 3,..., θ L ), f(θ 2 θ, θ 3,..., θ L ),..., f(θ L θ, θ 2,..., θ L ), soient de forme simple et facile à utiliser. Alors, en utilisant la même démarche que dans le cas de la densité bivariée, les étapes de l algorithme nous permettant d obtenir un tirage de f(θ, θ 2, θ 3,..., θ L ) se déduisent comme suit :
Chapitre 3. Approche bayesienne 4 Étape : Donner des valeurs de départ, θ, θ2, θ3,..., θl et poser i =. Étape 2 : Effectuer les tirages conditionnels de la façon suivante : θ i f(θ θ2 i, θ3 i,..., θ i L ) θ2 i f(θ 2 θ, i θ3 i,..., θ i L ) θ3 i f(θ 3 θ i, θi 2,..., θi L ) (3.2)... θ i L f(θ L θ i, θ i 2,..., θ i L ). Étape 3 : Poser i = i + et retournez à l étape 2 et procéder ainsi jusqu à convergence vers la distribution stationnaire du processus. Dans la prochaine section, nous utilisons cette méthode pour estimer les paramètres du modèle présenté à la section 2.2. 3.3. Modèle dichotomique Plaçons nous dans une situation où la variable dépendante est dichotomique et revenons à notre modèle de base présenté à la section 2.2 Y it = {, si Yit, si Yit où i =,..., n est l indice de l individu, t =,..., T est le temps et Yit latente qui s écrit comme est une variable Y it = α i + βx it + ɛ it, (3.3) où le paramètre α i représente l effet individuel non observable. Nous supposons que α i est une variable aléatoire de loi normale de moyenne µ et variance σ 2 et ɛ it N(, ). Il est pratique de considérer les variables latentes, y it, et les effets individuels, α i, commes des paramètres. Dans cette section nous expliquons comment estimer les paramètres de ce modèle, y it, i =,..., n et t =,..., T, α i, i =,..., n, β, µ, et σ 2. Donc, on dispose de n(t + ) + 3 paramètres à estimer. Dans le contexte de l estimation conjointe de β, µ, α i, y it et σ2 le lien entre l information a priori, la nouvelle information et la distribution a posteriori se fait au moyen du théorème de Bayes tel que vu à la section 3. :
Chapitre 3. Approche bayesienne 5 f(β, µ, α, y, σ 2, y x) = g(β, µ, α, y, σ 2 x, y) h(y x) = h(y β, µ, α, y, σ 2, x) g(β, µ, α, y, σ 2, x). (3.4) avec α = (α,..., α n ) yi = (yi,..., yit ) y = (y,..., y n ) Ainsi, la distribution a posteriori qui nous intéresse est g(β, µ, α, y, σ 2 x, y) = h(y β, µ, α, y, σ 2, x) g(β, µ, α, y, σ 2 x). h(y x) Notons que toutes les distributions sont conditionnelles à x, mais pour alléger la notation on les enlève des variables sur lesquelles on conditionne. Dans plusieurs cas, la distribution a posteriori est mathématiquement complexe et donc inutilisable de façon concrète. Cette limitation est contournée à l aide de l échantillonnage de Gibbs, tel que vu à la section 3.3. En effet, dans l application qui nous intéresse, la densité jointe, g(β, µ, α, y, σ 2 y), n a pas de forme explicite. La solution à ce problème serait de faire des tirages à partir des distributions a posteriori conditionnelle de chaque paramètre. Les étapes de l algorithme qui nous permet d obtenir un tirage dans la loi conjointe g() sont comme suit : étape : donner des valeurs de départs pour β, µ, αi, y it est le numéro de l itération. étape 2 : effectuer les tirages conditionnels de façon suivante : et poser k =, où k yit k+ f(yit β k, αi k, y it, y it ) α k+ i f(α i α i k, y k+ i, β k, µ k, σ 2,k ) β k+ f(β α k+, y k+, µ k, σ 2,k ) µ k+ f(µ y k+, α k+, β k+, σ 2,k ) σ 2,k+ f(σ 2 y k+, α k+, β k+, µ k+ ) (3.5)
Chapitre 3. Approche bayesienne 6 étape 3 : Poser k = k + et retourner à l étape 2 Pour déterminer les différentes distributions conditionnelles a posteriori des paramètres, présentés ci-dessus, nous allons supposer des lois a priori. Distribution a priori Les distributions a priori sont comme suit : f Y it (yit β, α i) = φ (yit α i βx it ) f αi (α i µ, σ) = ( ) σ φ αi µ σ f β (β) = ( ) β a φ b b f µ (µ) = ( ) µ a φ b b f σ (σ 2 ) = IG(c, d), (3.6) où a, b, a, b, c et d sont connus, φ() est la densité d une loi normale standard et IG() est la distribution d une gamma inverse. Avant de présenter la forme de la distribution a priori de σ 2, rappelons que la forme de densité Gamma, de paramètre c et d, qu on prend, pour une variable aléatoire X quelconque est f(x) = dc Γ(c) xc exp( xd), x >. La distribution a priori de σ 2 est une gamma inverse dont la distribution est la suivante : f(σ 2 ) = Les moments de σ 2 sont dc Γ(c) σ 2(c+) exp( d σ 2 ), σ2 >. (3.7)
Chapitre 3. Approche bayesienne 7 E(σ 2 ) = var(σ 2 ) = d c d 2 (c ) 2 (c 2). (3.8) À ce stade, nous allons présenter les différentes distributions a posteriori. 3.3.2 Estimation par l approche bayesienne Dans cette section, nous expliquons comment déterminer les distributions a posteriori des différents paramètres d intérêt. Notons que la distribution jointe est f(y it, β, α i, µ, σ 2 y it ) { n T } i= t= f Yit (y it β, α i, y it )f αi (α i µ, σ 2 ) f β (β)f µ (µ)f σ (σ 2 ) (3.9) Distribution a posteriori conditionnelle Pour déterminer les distributions conditionnelles des différents paramètres, on exploite la distribution jointe dans (3.9). Dans cette étape, on présente les lois a posteriori conditionnelle de tous les paramètres.. Distribution de y it Étant donné tous les paramètres et en exploitant le modèle de base (2.2), la simulation de yit sera déterminée à partir de la distribution normale tronquée suivante : (a) si y it = (ou yit > ), alors on a une distribution normale, tronquée à gauche à, de moyenne α i + βx it et de variance ; (b) si y it = (ou y it < ), alors on a une distribution normale, tronquée à droite à, de moyenne α i + βx it et de variance. On simule simplement une série de variables aléatoires à partir d une distribution normale de moyenne α i + βx it et de variance ; on prend la première valeur positive si y it = et la première valeur négative sinon.
Chapitre 3. Approche bayesienne 8 2. Distribution de α i La distribution conditionnelle complète de α i est obtenue en isolant les termes dans (3.9) qui dépendent de α i, ce qui donne [ T ] f(α i y i, µ, β, σ 2 ) t= f(y it α i, β) f(α i µ, σ 2 ). (3.2) Après quelques manipulations on trouve la distribution suivante (plus de détails concernant le calcul sont dans l annexe A) f(α i y i, µ, β, σ 2 ) = N ( t= (y it βx it) + µ ) σ 2 T +, T +. (3.2) σ 2 σ 2 3. Distribution de µ en procédant de la même manière que pour α i on trouve la distribution suivante de µ : [ n ] f(µ α, σ 2 ) f(α i µ, σ 2 ) f(µ), i= et après quelques manipulations mathématiques on trouve la distribution a posteriori complète suivante : µ N ( b n i= α i + σ 2 a nb + σ 2, ) σ 2 b nb + σ 2 Pour plus de détails, le lecteur peut se référer à l annexe A. (3.22) 4. Distribution de β La distribution conditionnelle de β s obtient comme suit : f(β α, y ) [ n ] T i= t= f(y it β, α i) f(β), f(α, y ) (3.23)
Chapitre 3. Approche bayesienne 9 et comme la constante de normalisation ne dépend pas de β alors la distribution conditionnelle complète est la suivante : ( a b β N + n T i= t= x it(yit α i) + n T, b i= t= x2 it + n T b i= t= x2 it ) (3.24) 5. Distribution de σ 2 La distribution de σ 2 est f(σ 2 α, µ) [ n ] f(α i µ, σ 2 ) f(σ 2 ). i= La distribution conditionnelle complète de σ 2 est une gamma inverse avec fonction de densité { n 2 i= (α i µ) 2 + d } }] c+ n 2 n Γ(c + n 2 ) σ 2(c++ n 2 ) exp [ σ2 { 2 i= (α i µ) 2 + d (3.25) Nous présentons à la section suivante les résultats de l estimation du modèle tel que présenté au chapitre 2 en utilisant l estimation par maximum de vraisemblance et par l approche bayesienne. 3.4 Résultats Les résultats qui seront présentés dans cette section sont basés sur des données simulées. En effet, on a simulé la variable explicative x it d une distribution normale de moyenne et de variance, i =,..., et t =,..., 4. En deuxième lieu, on a simulé α i, i =,...,, à partir d une distribution normale de moyenne µ = et de variance σ 2 =. À la troisième étape, on simule le terme d erreur ɛ it, i =,..., et t =,..., 4. Enfin, on simule la variable latente y it comme suit : y it = α i + β x it + ɛ it, (3.26) où β = est la vraie valeur de β. La variable y it est déterminée à partir des valeurs de y it : si y it <, alors y it = et si y it, alors y it =.
Chapitre 3. Approche bayesienne 2 3.4. Estimateur du maximum de vraisemblance Dans cette section on présente l estimation par la méthode du maximum de vraisemblance du modèle dichotomique tel que vu à la section 2.2. Pour l interpolation de Legendre, on utilise 4 points. Le résultat par maximum de vraisemblance est résumé dans le tableau suivant : Tab. 3. Estimation du maximum de vraisemblance Variables Coefficients Écart-type Vraies Valeurs β.94.9 µ -.65.37 σ 2.879.5 N Log-Vraisemblance -238.99 Seuil observé : : % : 5% : % Le tableau 3. montre que les estimateurs ˆβ, ˆµ et ˆσ 2 sont significatifs. Le résultat de l estimation du même modèle par l échantillonneur de Gibbs sera discuté à la section suivante. Le programme STATA pour faire ce calcul est présenté à l annexe B. 3.4.2 Résultats par l échantillonnage de Gibbs Nous allons étudier différentes distributions a priori dans le but de voir leur impact sur l estimation des paramètres. En effet, on a 4 différentes distributions a priori pour chaque paramètre et dans chaque cas on détermine les moments a posteriori de chaque paramètre. L espérence et la variance a posteriori de µ et β sont décrites à la section 3.3.2. Le tableau 3.2 résume les différents scénarios que nous avons utilisés. Tab. 3.2 Les différents scénarios Moments a priori Espérence (Écart-types sont entre parenthèses) µ β σ 2 2. (.) 2. (.).33 (.94 ) 2 2. (.73) 3. (.73) 2. (2. ) 3 5. (3.6) 6. (3.6) 3. (3. ) 4 3. (3.75) 4. (3.75) 3. (3. ) Scénario
Chapitre 3. Approche bayesienne 2 Les résultats de ces différents scénarios sont présentés dans le tableau 3.3 Tab. 3.3 Résultats via l échantillonnage de Gibbs pour un échantillon de taille et dont les vraies valeurs pour µ, β et σ 2 sont, et, respectivement. Moments a posteriori Moyenne a posteriori (écart-types a posteriori entre parenthèses) µ β σ 2 -.3 (.4).4 (.2).99 (.26) 2 -.6 (.4).5 (.2).8 (.3) 3 -.6 (.4).7 (.2).22 (.3) 4 -.7 (.4).5 (.2).9 (.3) Scénario Le programme MATLAB permettant d accomplir ce calcul est présenté dans l annexe B. Une analyse du tableau 3.3 montre que si la distribution a priori de µ est N(2, ), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de.3 avec un écart-type de.4. Si la distribution a priori de β est une N(2, ), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de.4 et son écart-type est.2 et si la distribution a priori de σ 2 est une Gamma inverse de moyenne.33 et d écart-type.94, alors sa moyenne a posteriori est.99 et son écart-type est de.26. Signalons à ce propos que si on passe d une distribution a priori informative, dans le sens où sa variance est petite, à d autres distributions a priori moins informatives, on remarque que l estimation de µ et β et leurs écarts-types respectifs sont peu sensibles aux distributions a priori. L estimation de σ 2 est influencée par la spécification des distributions a priori. Dans le tableau 3.3 la moyenne a posteriori varie de plus de 2% selon la spécification de la distribution a priori. Dans les pages qui suivent, on présente les graphiques montrant la convergence des itérations et les densités a posteriori pour les scénarios et 4 du tableau 3.2.
Chapitre 3. Approche bayesienne 22 2.5 Densité de Beta 3.5 Densité de Mu 3 2 2.5.5 2.5.5.5.2.4.6.8.2.4.6.8 2 2.2.8.6.4.2.2.4.6.8 Densité de SigmaCarrée.6.4.2.8.6.4.2.5.5 2 2.5 3 Fig. 3. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2.
Chapitre 3. Approche bayesienne 23 2.5 Densité de Beta 3 Densité de Mu 2 2.5 2.5.5.5.5.4.6.8.2.4.6.8 2 2.2 2.4.8.6.4.2.2.4.6.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 Fig. 3.2 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2.
Chapitre 3. Approche bayesienne 24 2.4 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations 2.2.4 2.8.2 Valeurs de Beta.6.4.2 Valeurs de Mu.2.4.8.6.6.4 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 3.3 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario du tableau 3.2.
Chapitre 3. Approche bayesienne 25 2 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.4.5.2 Valeurs de Beta Valeurs de Mu.2.4.6.5 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 3.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement : scénario 4 du tableau 3.2.
Chapitre 3. Approche bayesienne 26 Les graphiques 3.3 et 3.4 démontrent que la convergence des tirages des différents paramètres vers une distribution stationnaire à partir de leurs distributions a posteriori est rapidement atteinte dès la première centaine d itérations. Ceci est dû au fait que les distributions a posteriori conditionnelles des paramètres sont connues. Dans le cas où les distributions a posteriori conditionnelles ne sont pas connues, Tanner (987, chapitre 6) présente différentes méthodes qui aident à atteindre la convergence rapidement. Pour faire de l inférence statistique sur les estimés, nous enlevons la première moitié des tirages et notre inférence ultime repose alors sur la deuxième moitié des tirages. La pratique de supprimer les premiers tirages est appelée burn-in ; pour plus de détails à ce sujet voir Gelman et al (2 chapitre 6 page 294).
Chapitre 4 Données longitudinales incomplètes 4. Panels incomplets Dans ce chapitre, nous étudions le modèle présenté à la section 2.2 en présence de données manquantes. En effet, si des individus sont absents de certaines coupes temporelles, nous parlons de façon générale de données longitudinales incomplètes. Dans ces deux cas, nous sommes en présence de panels incomplets. La possibilité d étudier des comportements dynamiques dépend directement de la richesse des informations relatives aux variables recueillies. Les principales difficultés quant à l utilisation de ces données sont d ordre méthodologique. La nécessité de développer les techniques appropriées pour tenir compte des manquements dans l information constitue un obstacle important. Dans les sections qui suivent, nous allons présenter différentes méthodes permettant de résoudre le problème des données manquantes. 4.2 Modèles pour le mécanisme de non-réponse Dans cette section, nous présentons les différents mécanismes qui mènent a des observations manquantes, selon la terminologie de Little et Rubin (22). Il s agit de connaitre la relation qui existe entre les données manquantes et le reste des observations. L analyse d une base de données contenant des observations manquantes va dépendre du mécanisme qui cause la non réponse.
Chapitre 4. Données longitudinales incomplètes 28 Pour ce faire, posons R it = {, si i est observé à la période t, sinon, avec i =,..., n et t =,..., T et soit R i = (R i,..., R it ) et r i = (r i,..., r it ) la réalisation de R i. La fonction de densité jointe de (r i, y i ), où y i = (y i,..., y it ), peut être factorisée comme suit : f(y i, r i ) = f(y i )f(r i y i ), (4.) où y i = (y o i, ym i ) est une partition de y i avec y o i la composante observée de y i et y m i la composante manquante de y i. Supposons que y it et le processus de non réponse sont indexés par les paramètres θ et ν, respectivement. La fonction de densité jointe sera f(y o i, ym i, r i, θ, ν) = f(y o i, ym i, θ)f(r i y o i, ym i, ν). (4.2) Les mécanismes de données manquantes sont classés selon la dépendance entre yi o et yi m de la probabilité conditionnelle f(r i yi o, ym i, ν). Les trois classes de modèles de nonréponse sont. Mécanisme manquant complètement au hasard (MCAR) : Le mécanisme est MCAR dans le cas où la probabilité de réponse des unités individuelles est uniforme et ne dépend pas de y o i, ni de y m i, c est-à-dire f(r i y o i, ym i, ν) = f(r i ν) y o i, ym i et ν. 2. Mécanisme manquant au hasard (MAR) : Le mécanisme est MAR si la probabilité de réponse des unités individuelles ne dépend pas de Yi m, mais dépend seulement de Yi o. Il s agit d une hypothèse qui est moins restrictive que MCAR et on a f(r i y o i, ym i, ν) = f(r i y o i, ν), ym i 3. Mécanisme non manquant au hasard(nmar) Un mécanisme est dit NMAR si la probabilité de réponse des unités individuelles dépend de y m i et peut dépendre de y o i. Il existe plusieurs méthodes pour contourner les problèmes des données manquantes parmi lesquelles la méthode d augmentation des données, qui sera présentée dans la section suivante.
Chapitre 4. Données longitudinales incomplètes 29 4.3 Augmentation de données Dans cette section on explique la méthode d augmentation de données telle que présentée dans Tanner (987). Dans notre cas, on va adapter cette méthode aux cas des données longitudinales incomplètes. Supposons que y i = (y i,..., y it ), où i est l indice de l individu alors que T dénote la période d observabilité de l individu. Un individu peut être observé à une période mais ne l est pas à une autre période. Par exemple, si on a 4 périodes on peut trouver le cas suivant y i = (yi, o yi2, o yi3, m yi4), m donc l individu est observé pour les deux premières périodes et 2 et manquant pour les périodes 3 et 4. Dans ce cas, on pose yi o = (yo i, yo i2 ) et ym i = (yi3 m, ym i4 ). Pour préserver la même notation que celle décrite dans Tanner (987), on va poser y o = yi o et ym = yi m. L idée principale de cet algorithme est d augmenter les données observées y o par la quantité y m, qui sera considérée comme donnée latente. Donc si y o et y m sont tous les deux connus, on peut façilement calculer la distribution a posteriori p(θ y o, y m ). La densité qui nous intéresse est p(θ y o ), que nous ne pouvons pas déterminer de façon explicite. Mais si on peut simuler différentes valeurs de y m, alors p(θ y o ) sera la moyenne de p(θ y o, y m ) sur toutes les valeurs imputées de y m. Donc il existe une mutuelle dépendance entre p(θ y o ) et p(y m y o ) qui mène à un algorithme itératif pour calculer p(θ y o ). Soit y o, la base de données observée dont la distribution dépend d un vecteur de paramètre θ. Supposons qu il y a une façon d augmenter y o par une quantité de valeurs latentes y m. On peut façilement analyser la base de données augmentée, y = (y o, y m ). Une explication plus détaillée de cette méthode sera présentée à la section suivante. 4.3. L algorithme de base L algorithme de base est motivé par deux identités simples.. Identité a posteriori : La distribution d intérêt est la probabilité a posteriori suivante : p(θ y o ) = E y m[p(θ y o, y m )] = p(θ y o, y m )p(y m y o )dy m, (4.3) y m où p(θ y o ) est la densité a posteriori des paramètres θ sachant les données observées y o, p(y m y o ) est la densité prédictive des valeurs manquantes y m sachant y o et p(θ y m, y o ) représente la densité conditionnelle de θ sachant les données augmentées y = (y o, y m ). 2. Identité prédictive :
Chapitre 4. Données longitudinales incomplètes 3 p(y m y o ) = E φ [p(y m y o, φ)] = Θ p(y m y o, φ)p(φ y o )dφ, (4.4) où Θ représente l ensemble des valeurs possibles des paramètres θ. Si on substitue (4.4) dans (4.3), on obtient l équation suivante : g(θ) = θ k(θ, φ).g(φ)dφ, k(θ, φ) = p(θ y m, y o ).p(y m φ, y o )dy m (4.5) y m où g(θ) = p(θ y o ) et θ est le paramètre lié aux données observées et φ est le paramètre lié aux données manquantes. La méthode de substitution successive peut être utilisée pour résoudre l équation (4.5). Autrement dit, on commence par une approximation initiale g (θ) pour calculer successivement g i+ (θ) = (T g i )(θ), (4.6) où T f(θ) = k(θ, φ)f(φ)dφ (4.7) avec T une transformation d intégrale qui transforme tout fonction integrable f en une autre fonction integrable T f. Tanner et Wong (987) adoptent la méthode de Monte Carlo pour déterminer l intégrale dans (4.5). En particulier, ils appliquent la méthode de Monte Carlo à la densité a posteriori pour calculer g(θ) = p(θ y o ), ce qui donne le schéma itératif suivant : a : générer θ à partir de g i (θ), (parce que p(θ y o ) = g(θ)) a 2 : générer y m à partir de p(y m θ, y o ), où θ est la valeur générée en (a ) (et ceci en utilisant l équation (4.4)).
Chapitre 4. Données longitudinales incomplètes 3 b : Déterminer g i+. g i+ = J J p(θ yj m, yo ). (4.8) j= Il est intéressant de noter à ce propos que les étapes (a ) et (a 2 ) sont considérées comme celles de génération de données latentes, y m. En effet, ces deux étapes sont repétées J fois pour obtenir y m,..., ym J. Selon la terminologie utilisée par Rubin, on appelle cette étape l imputation multiple. C est pour cela qu on appelle l étape (a) l étape d imputation et l étape (b) l étape a posteriori. La convergence de cet algorithme sera le sujet de la section suivante. 4.3.2 Convergence de l algorithme d augmentation de données Dans cette section, on reprend l explication de Tanner et Wong (987) concernant la convergence de l algorithme. Soit L, l espace des fonctions intégrables de θ Θ et f = f(θ) dθ pour f L. Soient g i (θ), k(θ, φ) et T définies comme dans (4.5)-(4.7). Supposons que la vraie densité a posteriori qui nous intéresse est g (θ). Les résultats qui sont à l origine de la convergence de l algorithme d augmentation de données sont :. g est le seul point qui satisfait l équation de point fixe, T g = g. 2. Quelles que soient les valeurs de départ, l algorithme (4.6) converge linéairement vers g Tanner (987) montre que, sous des conditions de régularité, on a l inégalité suivante : g i+ g α i g g, avec α (, ), donc peu importe les valeurs de départ, g, l algorithme atteindra le point fixe, pour plus de détails voir Tanner (987). Dans ce document nous allons baser notre attention sur l algorithme d échantillonnage de Gibbs afin de simuler les y m et estimer par la suite les paramètre du modèle d intérêt. Nous exploitons pour cette fin une base de données simulée, qui sera expliquée dans les prochaines sections.
Chapitre 4. Données longitudinales incomplètes 32 4.4 Estimation pour le modèle dichotomique en présence de données manquantes Dans cette section, nous allons estimer le modèle dichotomique tel que présenté à la section 2.2, mais en présence de données manquantes. Pour cela nous avons simulé une base de données et nous avons fait différentes expériences en fonction de proportion de données manquantes. En premier lieu, nous supposons que la variable manquante est la variable dépendante et nous étudions le cas où le mécanisme de non réponse est MCAR, MAR et NMAR. On va aussi s intéresser à l étude des cas complets (CC), autrement dit l analyse ne concerne que les données disponibles. Revenons au modèle de base suivant : Y it = {, si Yit, si Yit où i =,..., n est l indice du sujet et t =,..., T est le temps. La variable latente, Y it, est modélisée comme suit : où { Y it = α i + βx it + ɛ it, (4.9) α i N(µ, σ 2 ) ɛ it N(, ). et α i et ɛ it sont indépendant. Nous allons estimer ce modèle en utilisant l échantillonnage de Gibbs, mais en présence des données manquantes. En outre, on utilise la démarche du chapitre précédent. Soit Yit m qui désigne que Y est manquant pour l individu i à la période t. Ainsi remarquons que si Y it est manquant alors Yit est aussi manquant et sera noté Yit m. Il convient aussi de préciser que, compte tenu du modèle à variables latentes, pour estimer les paramètres d intérêt il est suffisant de déterminer la valeur de la variable Yit m. Les distributions a priori et a posteriori sont les mêmes que dans la section 3.3.2, sauf pour la distribution a posteriori de Yit. En effet, le tirage de Yit se fait à partir de la loi normale tronquée dans le cas où Y it est observé, mais dans le cas contraire, Yit sera simulé à partir de la distribution suivante : Y it N(α i + βx it, ). (4.)
Chapitre 4. Données longitudinales incomplètes 33 où α i et β sont les valeurs courantes de l algorithme. Distribution de y it Étant donné tous les paramètres, la simulation de y it se fait à partir de la distribution normale tronquée suivante :. si y it = (ou yit > ), alors on a une distribution normale, tronquée à gauche à, de moyenne α i + βx it et de variance ; 2. si y it = (ou yit < ), alors on a une distribution normale, tronquée à droite à, de moyenne α i + βx it et de variance ; 3. si y it est manquant, alors y m it N(α i + βx it, ). À cet égard, nous allons créer des observations manquantes de Y it, selon trois mécanismes, soient les mécanismes MCAR, MAR et NMAR, dans le but de voir si l estimation des paramètres par l échantillonnage de Gibbs est sensible à la spécification du mécanisme de non réponse. Il est intéressant de noter, à ce propos, que nous étudions pour chaque mécanisme différentes proportions de données manquantes. 4.4. Mécanisme MCAR Supposons que nous avons une base de données de taille et que le but est de créer une proportion de données manquantes selon un mécanisme MCAR. Pour ce faire, nous exploitons l indicateur des données manquantes définis précédemment, R it. Posons m t, le nombre d observations manquantes à la période t, qui sera déterminé selon la probabilité suivante : p(r it = y i, p) = p, y i. (4.) Pour analyser différentes bases contenant des données manquantes, on fait varier la valeur de p(pour p =.5 on a 5% des observations sont manquantes, pour p =.5 on a 5% des observations sont manquantes et ainsi de suite). Concernant l aspect théorique, puisque R ne dépend pas des données, l algorithme donne la bonne distribution a posteriori. Le tableau 4. résume les résultats obtenus en appliquant l algorithme d échantillonnage de Gibbs à ce mécanisme.
Chapitre 4. Données longitudinales incomplètes 34 Tab. 4. Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MCAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 5% % 3% 5% 4%.73 (.26).37 (.897).4 (.2833 ) 9% 9% 22% 6% 22% -.482 (.349).535 (.256).762 (.3223) 45% 34% 49% 45% 52% -.2494 (.5).8545 (.297).685 (.3567) 66% 6% 7% 6% 66%.765 (.459).973 (.2334).9333 (.395) Proportion Il est intéressant de noter que, pour chaque proportion de données manquantes on applique l algorithme d échantillonnage de Gibbs sur cinq bases de données différentes. Les résultats de ces bases sont présentés dans les tableaux 4. et de C. l Annexe C. L analyse des résultats présentés dans les tableaux C. et 4. montrent que les moyennes a posteriori de µ et β ainsi que leurs écarts-types a posteriori ne semblent pas être affectés par la variation des proportions de données manquantes. Toutefois, l écart-type a posteriori de σ 2 est légèrement affecté par la variation des proportions des données manquantes. En effet, l écart-type a posteriori de σ 2 passe de.2833 pour une proportion de 5% à.3567 pour une proportion de 45%. Dans les pages qui suivent, on présente les graphiques des densités a posteriori de µ, β et σ 2 ainsi que leurs graphiques de convergence pour les cas de 5% et de 66% de données manquantes.
Chapitre 4. Données longitudinales incomplètes 35 2.5 Densité de Beta 3.5 Densité de Mu 3 2 2.5.5 2.5.5.5.2.4.6.8.2.4.6.8 2 2.2.6.4.2.2.4.6.8.5 Densité de SigmaCarrée.5.5.5 2 2.5 3 Fig. 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 36.6 Mu en fonction du NbIterations.4.2 Valeurs de Mu.2.4.6.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 5% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 37.8 Densité de Beta 3 Densité de Mu.6 2.5.4.2 2.5.8.6.4.5.2.2.4.6.8.2.4.6.8 2.6.4.2.2.4.6.8.5 Densité de SigmaCarrée.5.5.5 2 2.5 3 3.5 Fig. 4.3 Densités aposteriori de β, µet σ 2 ayant les vraies valeurs, et, respectivement, cas de données MCAR avec 66% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 38 2 Beta en fonction du NbIterations.8 Mu en fonction du NbIterations.8.6.6.4.4 Valeurs de Beta.2 Valeurs de Mu.2.8.2.6.4.4.2 5 55 6 65 7 75 8 85 9 95 NbIterations.6 5 55 6 65 7 75 8 85 9 95 NbIterations 3.5 sigmacarre en fonction du NbIterations 3 2.5 Valeurs de sigmacarre 2.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.4 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, MCAR avec 66% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 39 4.4.2 Mécanisme MAR Nous allons supposer un modèle monotone pour le mécanisme des données manquantes, c est-à-dire si un individus est manquant dans une période t il sera manquant pour le reste des périodes. Pour cela nous exploitons la même base de données mais les proportions de données manquantes seront crées comme suit, en utilisant la même approche que Yi et Thompson (25) :. On suppose que R i = pour tout i =,..., n. 2. En deuxième lieu, on va créer R i2 tel que p(r i2 = R i =, y i ) = exp(λ + λ y i ) + exp(λ + λ y i ), (4.2) et R i2 sera simulé à partir d une loi Bernoulli de probabilité p(r i2 = R i =, y ), et ceci en fixant les paramètres λ et λ à l avance. Étant donné qu il s agit d un modèle monotone pour le mécanisme de non réponse, alors si R i2 = ceci implique que R i3 = R i4 = sinon on passe à l étape suivante. 3. On va créer R i3 tel que p(r i3 = R i2 =, y i2 ) = exp(λ + λ y i2 ) + exp(λ + λ y i2 ). (4.3) R i3 sera créé à partir d une loi Bernoulli de probabilité p(r i3 = R i2 =, y i2 ) et si R i3 = alors R i4 = sinon on passe à l étape suivante. 4. La variable R i4 sera simulée à partir d une Bernoulli ayant la probabilité suivante : p(r i4 = R i3 =, y i3 ) = exp(λ + λ y i3 ) + exp(λ + λ y i3 ). (4.4) Les différentes proportions de données manquantes sont déterminées en faisant varier les valeurs de λ et λ. Théoriquement, l échantillonnage de Gibbs donne une estimation non biaisée de la distribution a posteriori car y it et y it sont indépendants étant donné α i. Donc la formule (3.9) est toujours vraie. Les résultats de l estimation par l échantillonnage de Gibbs, en présence de données manquantes MAR sont décrites dans le tableau (4.2),
Chapitre 4. Données longitudinales incomplètes 4 Tab. 4.2 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes MAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 5% % 3% 6% 9% -.7 (.265).383 (.93).993 (.28) 4% % 6% 4% 22%.323 (.229).8 (.22).926 (.2665) 27% % 2% 39% 49% -.94 (.388).835 (.998).9775 (.295) 53% % 44% 65% 79%.46 (.46).979 (.264).9964 (.3846) 66% % 69% 89% 97% -.946 (.649).92 (.2777).2 (.4897) Proportion L étude du mécanisme MAR montre que la moyenne a posteriori de µ ainsi que son écart-type ne sont pas affectés par la variation de proportion des données manquantes. Par contre, les moyennes et les écarts-types a posteriori de β et de σ 2 sont sensibles aux variations de proportion des données manquantes. En effet les résultats présentés dans le tableau C.2 montrent que l écart-type a posteriori de σ 2 passe de.28 pour une proportion de 5% à plus que.575, pour une proportion supérieure ou égale à 53%. La moyenne a posteriori de β passe de.93 pour une proportion de 5%, à.4422 pour une proportion de 66%. Les graphiques de densités et de convergence de µ, β et σ 2 sont présentés dans les pages qui suivent.
Chapitre 4. Données longitudinales incomplètes 4 2.5 Densité de Beta 3.5 Densité de Mu 3 2 2.5.5 2.5.5.5.2.4.6.8.2.4.6.8 2 2.2.8.6.4.2.2.4.6.6 Densité de SigmaCarrée.4.2.8.6.4.2.5.5 2 2.5 3 Fig. 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 42 2 Beta en fonction du NbIterations.4 Mu en fonction du NbIterations.8.3.6.2. Valeurs de Beta.4.2 Valeurs de Mu..2.3.8.4.6.5.4 5 55 6 65 7 75 8 85 9 95 NbIterations.6 5 55 6 65 7 75 8 85 9 95 NbIterations 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.6 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR de 5% : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 43.5 Densité de Beta 2.5 Densité de Mu 2.5.5.5.5.5.5 2 2.5.8.6.4.2.2.4.6.8.4 Densité de SigmaCarrée.2.8.6.4.2 2 3 4 5 6 Fig. 4.7 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 44 2 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.8.4.6.4.2 Valeurs de Beta.2.8 Valeurs de Mu.2.6.4.4.2.6 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 6 sigmacarre en fonction du NbIterations 5 4 Valeurs de sigmacarre 3 2 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.8 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données MAR avec 66% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 45 4.4.3 Mécanisme NMAR Les données manquantes sont créées selon un mécanisme NMAR. En effet, dans ce cas la proportion de données manquantes, m t, est créée comme suit : p(r i = y i, ν) = { si γ i + λx it + ɛ it > si γ i + λx it + ɛ it < avec γ i N(µ, σ 2 ), λ = et ɛ it N(, ). Donc pour déterminer différentes valeurs de m t, on fait varier µ. Ainsi, pour µ = 2.4 on aura m = 6%, m 2 = 5%, m 3 = 6% et m 4 = 4%. Pour µ = on aura m = 2%, m 2 = 23%, m 3 = 2% et m 4 = 2%. Pour µ =.9 on aura m = 3%, m 2 = 3%, m 3 = 33% et m 4 = 3%. Le tableau 4.3 résume les résultats obtenus en appliquant l algorithme d échantillonnage de Gibbs à ce mécanisme. Tab. 4.3 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de données manquantes NMAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 5% 8% 5% 4% 6%.53 (.356).9888 (.897).2258 (.343) 9% 6% 9% 5% 9%.277 (.296).9439 (.972).9786 (.2875) 38% 4% 36% 4% 39% -.486 (.36).34 (.233).9554 (.3345) 6% 48% 53% 47% 56% -.256 (.6).2928 (.259).799 (.437) Proportion L espérence et l écart-type a posteriori de µ ne changent pas beaucoup avec la variation de proportion des données manquantes. Les estimateurs de β et de σ 2 deviennent moins précis au fur et à mesure que la proportion de données manquantes augmente. Les graphiques de densités a posteriori et de convergence des paramètres pour le cas de 5% et de 6% de données manquantes seront présentés dans les pages suivantes.
Chapitre 4. Données longitudinales incomplètes 46 2.5 Densité de Beta 3 Densité de Mu 2 2.5 2.5.5.5.5.2.4.6.8.2.4.6.8 2.6.4.2.2.4.6.8.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 Fig. 4.9 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 47 2 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.8.4.6.2.4 Valeurs de Beta.2 Valeurs de Mu.2.8.4.6.6.4 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 3.5 sigmacarre en fonction du NbIterations 3 2.5 Valeurs de sigmacarre 2.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4. Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, Cas de données NMAR avec 5% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 48.6 Densité de Beta 3 Densité de Mu.4 2.5.2 2.8.5.6.4.2.5.5.5 2 2.5 3.8.6.4.2.2.4.6.8.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 4 4.5 Fig. 4. Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 49 2.5 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.4 2.2 Valeurs de Beta.5 Valeurs de Mu.2.4.5.6 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 4.5 sigmacarre en fonction du NbIterations 4 3.5 3 Valeurs de sigmacarre 2.5 2.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.2 Convergences de β, µ et σ 2, ayant les vraies valeurs, et, respectivement, cas de données NMAR avec 6% de données manquantes : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 5 4.4.4 Étude des cas complets Il serait utile d analyser les données disponibles, autrement dit on s intéresse à l analyse des données présent. Ainsi on retire les x dès que y it est manquant. Ibrahim et al. (25) utilisent le terme analyse des cas complets (CC), pour le reste de ce document nous adoptons la même notation. L analyse des cas complets limite l attention aux cas où toutes les variables et tous les individus sont présents. Le grand désavantage de cette méthode est la perte potentielle d information due à la non utilisation des données incomplètes. En effet, si le mécanisme de non réponse n est pas MCAR, cette perte d information comportera deux aspects : la perte de précision et le biais. L analyse des cas complets peut être justifiée lorsque la perte de précision et de biais est minime, selon Rubin et al. (22, page 4). La question est de savoir si les estimateurs seront biaisés si on analyse seulement les données pour lesquelles les individus sont observés. En effet, si un individu est manquant pour une période donnée, on l élimine de la base de données pour cette période. Donc on n utilise que les données observées. Si on a un échantillon de taille observations mais avec une proportion p de données manquantes, alors le nombre d observations qu on va considérer correspondera aux nombre d individus qui sont observés au moins une fois. Cependant, l algorithme de la section 4.4. utilise les x de l individu i de la période t qui sont manquants. Cet algorithme les ignore complètement. La non réponse, dans ce cas, est générée selon un mécanisme MCAR et on utilise les mêmes bases que celles de MCAR présentées dans la section 4.4.. Le nombre d observations n est déterminé comme suit : n = max t {,...,T } i= R it, et chaque individu i est observé t i fois : t i = T R it. t= Les résultats de cette analyse, qui ne considère que les données disponibles, sont résumés dans le tableau 4.4.
Chapitre 4. Données longitudinales incomplètes 5. Tab. 4.4 Résultats via l échantillonnage de Gibbs, scénario, avec différentes proportions de donnée manquante CC-MCAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 5% % 3% 5% 4%.644(.276).39(.24).9235(.269) 9% 9% 22% 6% 22% -.276(.39).227(.267).728(.34) 45% 45% 33% 4% 36%.66(.558).9476(.2557).2274(.428) 66% 6% 7% 6% 66%.3(.37).589(.435) 6.3554(3.554) Proportion Une analyse des résultats du tableau 4.4 et du tableau C.4 montre que les moyennes et les écarts-types a posteriori de µ, β et de σ 2 sont stables pour les proportions de 5% et de 9%. Par contre, pour une proportion de données manquantes de 45% on note une diminution de précision pour µ et β. Cependant, pour une proportion de données manquantes de 66% on remarque une perte d information très importante de tous les estimateurs. En effet, la moyenne a posteriori de µ peut atteindre.6462 avec un écarttype de.9843, celle de β peut atteindre 3.623 avec un écart-type de.72 et la moyenne de σ 2 est de 394.296 avec un écart-type de 2.53. Mais il est important de signaler que si le mécanisme de non réponse n était pas MCAR, les résultats auraient étaient biaisés et moins précis pour de faible proportion de données manquantes. On a déjà évoqué cet aspect et on estime important d y revenir. La base de données manquante NMAR, présentée ci-dessus, fera l étude d une analyse des cas complets ; les résultats sont dans le tableau 4.5.
Chapitre 4. Données longitudinales incomplètes 52. Tab. 4.5 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes NMAR, étude des cas complets : scénario du tableau 3.2 Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 5% 8% 5% 4% 6% -.347 (.282).2233 (.27).983 (.259) 9% 6% 9% 5% 9%.724 (.53).352 (.2254).282 (.425) 38% 4% 36% 4% 39% -.744 (.82).2724 (.2654).733 (.5478) 6% 48% 53% 47% 56% -.8 (.3773).787 (.3575) 5.839 (2.8455) Proportion Il en résulte que les estimateurs sont biaisés et sont beaucoup moins précis que le cas de MCAR. En effet, si x est inconnu alors y et R sont corréllés et la formule (3.9) est fausse car elle suppose l indépendance entre y et R. On ne simule plus la densité a posteriori avec l échantillonneur de Gibbs. Dans les pages suivantes on trouve les graphiques des densités a priori ainsi que leur graphique de convergences, pour l étude des CC et où les données manquantes sont MCAR.
Chapitre 4. Données longitudinales incomplètes 53 2 Densité de Beta 3.5 Densité de Mu.8 3.6.4 2.5.2 2.8.5.6.4.2.5.2.4.6.8.2.4.6.8 2.6.4.2.2.4.6.8.8 Densite de SigmaCarrée.6.4.2.8.6.4.2.5.5 2 2.5 Fig. 4.3 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 54.8 Beta en fonction du NbIterations.6 Mu en fonction du NbIterations.6.4.4.2.2 Valeurs de Beta Valeurs de Mu.2.8.6.4.4.6.2 5 55 6 65 7 75 8 85 9 95 NbIterations.8 5 55 6 65 7 75 8 85 9 95 NbIterations 2.2 sigmacarre en fonction du NbIterations 2.8.6 Valeurs de sigmacarre.4.2.8.6.4.2 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.4 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 5%, analyse des cas complets MCAR : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 55 Densité de Beta.4 Densité de Mu.9.2.8.7.6.8.5.4.6.3.4.2..2.5.5.5 2 2.5 3 3.5 4.5.5.5.5 2 2.5.6 Densite de SigmaCarrée.4.2..8.6.4.2 5 5 5 2 25 Fig. 4.5 Densités a posteriori de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 56 3.5 Beta en fonction du NbIterations 2 Mu en fonction du NbIterations 3.5 2.5 Valeurs de Beta 2.5 Valeurs de Mu.5.5.5 5 55 6 65 7 75 8 85 9 95 NbIterations.5 5 55 6 65 7 75 8 85 9 95 NbIterations 25 sigmacarre en fonction du NbIterations 2 Valeurs de sigmacarre 5 5 5 55 6 65 7 75 8 85 9 95 NbIterations Fig. 4.6 Convergence de β, µ et σ 2 ayant les vraies valeurs, et, respectivement, avec une proportion de données manquantes de 66%, analyse des cas complets MCAR : scénario du tableau 3.2
Chapitre 4. Données longitudinales incomplètes 57 4.4.5 Conclusion Notons, tout d abord, qu il est difficile de simuler les mêmes proportions de données manquantes pour tous les mécanismes et que dans environ 88% des cas si la proportion des données manquante augmente, alors la précision diminue. Pour le mécanisme MCAR, on remarque que les estimateurs ne semblent pas être influencés par la variation de proportion des données manquantes. Donc jusqu à une proportion de 66%, les estimateurs sont proches des vraies valeurs. Quant au mécanisme MAR, on remarque une perte de précision de l estimateurs de σ 2 à partir d une proportion de 53%. Pour une proportion de 66%, le biais des estimateurs de β et de σ 2 devient très important et leur précision diminue, ce qui n est pas le cas pour le mécanisme MCAR. En ce qui concerne le mécanisme NMAR, les estimateurs sont précis et ne présentent pas de biais et sont semblables à ceux du mécanisme MCAR. En revanche, si on compare les résultats de l analyse des cas complets présentée dans le tableau 4.4 avec les résultats de l analyse qui tient compte des données manquantes décrite dans le tableau 4., on remarque que le biais est plus important pour l analyse des résultats des cas complets. Les estimateurs issus de l analyse des cas complets sont aussi moins précis. Dans la prochaine section, on présente un exemple illustratif en traitant une base de données réelle.
Chapitre 4. Données longitudinales incomplètes 58 4.5 Application L exemple qui sera étudié est un sous ensemble de la base de données de Keane et Wolpin (997), Keane.raw, qu on a pris de Wooldridge (22, page 498). Il porte sur la décision de continuer les études et/ou de travailler chez les jeunes. À partir de cette base, on a sélectionné des informations concernant la scolarité et le statut d emploi de 99 individus entre 98 et 984. La variable dépendante est le statut de l individu, qui prend si l individu est au travail mais n est pas aux études, et si l individu est aux études ou n est pas aux études et ne travaille pas. Cette variable sera notée Y it, où i =,..., 99 est l indice de l individu et t =,..., 4 est le temps(en années). La variable explicative X it est le nombre d années d éducation de l individu i à la période t et varie de 7 à 8 années d éducation. Dans le reste de l application, on définit Y t = (Y t,..., Y 99t ) et X t = (X t,..., X 99t ). Une description plus détaillée de la base de données est donnée dans le tableau 4.6. Tab. 4.6 Description de la base de données : Moyenne des variables explicatives Cas possible Moyenne Effectifs Y Y 2 Y 3 Y 4 X X 2 X 3 X 4.73..39.58 68..52.82 2.4 23.25.75 2.25 2.25 8..73 2.3 2.3 26.5.5.5.5 2.33 2.6 2.6 2.33 6.75.5.5.5 4.22.5.5.5 8.... 3.25.25.25.25 4.5.5.5.5 2.28.28.42.42 7.....2.2.2.2 5.....38.38.38.38 2 On remarque, dans le tableau 4.6, que l effectif des individus qui sont aux études ou au chômage pour les quatres périodes (Y = Y 2 = Y 3 = Y 4 = ) est plus important que celui des individus qui sont au travail (Y = Y 2 = Y 3 = Y 4 = ). La moyenne de nombre d années d éducation, pour le cas où Y = Y 2 = Y 3 = Y 4 =, passe de.73 à.58,
Chapitre 4. Données longitudinales incomplètes 59 ce qui laisse croire que le nombre d individus qui sont aux études dépasse celui de ceux qui sont aux chômage. Le modèle qu on va utiliser est le même que celui présenté à la section 2.2. Les différentes bases de données manquantes sont créées selon les mécanismes de non réponse MCAR, MAR et NMAR présenté à la section 4.2. 4.5. Mécanisme MCAR Les différentes proportions des données manquantes MCAR sont créées selon la démarche présentée à la section 4.4.. Les paramètres µ et β possèdent la même loi a priori qui est la loi normale de moyenne et de variance. Quant à σ, sa distribution a priori est une gamma inverse de moyenne.4 et d écart-type.94. Tab. 4.7 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR, Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 % % % % % -2.635 (.6837).873 (.583).2923 (.2839) 7% 7% 7% 7% 6% -2.6689 (.6637).925 (.568).253 (.275) 9% 4% 2% 2% 22% -2.437 (.6572).695 (.562).9977 (.2386) 44% 43% 45% 43% 44% -2.5752 (.7597).722 (.646).673(.39) 62% 62% 63% 62% 63% -.9892 (.887).7 (.76).488(.3495) Proportion Les résultats présentés dans le tableau 4.7 montrent que les estimateurs sont précis pour une proportion de 7% et de 9%. À partir d une proportion de 44%, on note une légère dimunition de précision. En général, il n existe pas une grande différence entre les estimateurs dans le cas où on prend la base de données complète (% de données manquantes) et dans le cas de données manquantes. Les graphiques de densité et de convergence pour les proportions de 7% et 62%, respectivement, sont présentés dans les pages qui suivent.
Chapitre 4. Données longitudinales incomplètes 6 8 Densité de Beta.7 Densité de Mu 7.6 6.5 5.4 4.3 3 2.2..5.5..5.2.25.3.35.4 5 4.5 4 3.5 3 2.5 2.5.5.6 Densité de SigmaCarrée.4.2.8.6.4.2.5.5 2 2.5 3 Fig. 4.7 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR
Chapitre 4. Données longitudinales incomplètes 6.35 Beta en fonction du NbIterations Mu en fonction du NbIterations.3.5.25.5 Valeurs de Beta.2.5 Valeurs de Mu 2 2.5 3. 3.5.5 4 4.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 3 sigmacarre en fonction du NbIterations 2.5 Valeurs de sigmacarre 2.5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 Fig. 4.8 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas MCAR
Chapitre 4. Données longitudinales incomplètes 62 7 Densité de Beta.7 Densité de Mu 6.6 5.5 4.4 3.3 2.2..2...2.3.4.5 6 5 4 3 2.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 4 Fig. 4.9 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR
Chapitre 4. Données longitudinales incomplètes 63.4 Beta en fonction du NbIterations Mu en fonction du NbIterations.35.3.25 Valeurs de Beta.2.5..5 Valeurs de Mu 2 3.5 4. 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 4 sigmacarre en fonction du NbIterations 3.5 3 Valeurs de sigmacarre 2.5 2.5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 Fig. 4.2 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 62%, analyse des cas MCAR
Chapitre 4. Données longitudinales incomplètes 64 4.5.2 Mécanisme MAR Les proportions de données manquantes MAR sont créées selon l approche présentée dans la section 4.4.2. Les paramètres µ et β ont la même distribution a priori qui est la loi normale de moyenne et variance. Quant à la distribution a priori de σ 2, c est une gamma inverse de moyenne.33 et d écart-type.94. Les résultats sont présentés dans le tableau 4.8. Tab. 4.8 Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MAR Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 % % % % % -2.635(.6837).873(.583).2923(.2839) % % 7% 2% 28% -3.3283 (.855).2432 (.72).4354 (.3629) 7% % 4% 22% 32% -2.393(.729).65 (.625).372 (.3232) 3% % 26% 44% 55% -3.6(.858).999 (.728).5538 (.4235) 42% % 39% 6% 7% -2.657(.92).36(.776).9786 (.378) Proportion Les résultats présentés dans le tableau 4.8 montrent que les moyennes a posteriori de β et σ 2 sont peu affectés par la variation de proportions de données manquantes. Cependant l estimateur de µ est sensible aux changements de proportion de données manquantes. En effet la moyenne a posteriori de µ passe de 2.635 à 3.3283 et son écart-type varie de.6837 à.92. Les graphiques de densité et de convergence des paramètres sont présentés dans les pages qui suivent :
Chapitre 4. Données longitudinales incomplètes 65. 6 Densité de Beta.5 Densité de Mu.45 5.4 4.35.3 3.25.2 2.5..5...2.3.4.5.6 7 6 5 4 3 2.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 4 Fig. 4.2 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR
Chapitre 4. Données longitudinales incomplètes 66.5 Beta en fonction du NbIterations Mu en fonction du NbIterations.45.4.35 2 Valeurs de Beta.3.25.2.5 Valeurs de Mu 3 4..5 5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 6 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 4 sigmacarre en fonction du NbIterations 3.5 3 Valeurs de sigmacarre 2.5 2.5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 Fig. 4.22 Convergence de β, µ et σ 2, avec une proportion de données manquantes de %, analyse des cas MAR
Chapitre 4. Données longitudinales incomplètes 67 6 Densité de Beta.5 Densité de Mu.45 5.4 4.35.3 3.25.2 2.5..5.2...2.3.4.5 6 5 4 3 2 2.5 Densité de SigmaCarrée.5.5.5 2 2.5 3 Fig. 4.23 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR
Chapitre 4. Données longitudinales incomplètes 68.5 Beta en fonction du NbIterations Mu en fonction du NbIterations.4.3 Valeurs de Beta.2. Valeurs de Mu 2 3 4. 5.2 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 6 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 Fig. 4.24 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 42%, analyse des cas MAR
Chapitre 4. Données longitudinales incomplètes 69 4.5.3 Mécanisme NMAR La base de données NMAR est obtenue selon la démarche présentée à la section 4.4.3. Les paramètres µ, β et σ 2 ont les mêmes lois a priori que celles présentées dans la section précédente. Le résultat de l estimation de cette base de données est résumé dans le tableau 4.9. Tab. 4.9 Résultats via l échantillonnage de Gibbs avec de différentes proportions de données manquantes NMAR. Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-type a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 % % % % % -2.635 (.6837).873 (.583).2923 (.2839) 7% 7% 7% 7% 6% -2.924 (.8).222(.68).396(.3299) 2% 2% 2% 9% 2% -2.2733 (.648).53 (.522).544 (.2743) 4% 4% 42% 42% 4% -2.376 (.5923).629 (.56).974 (.2378) 65% 66% 64% 65% 65% -2.237 (.849).385 (.692).57 (.364) Proportion Selon les résultats présentés dans le tableau 4.9, on remarque que les moyennes a posteriori de β et σ 2 ne sont pas affectées par la variation de proportion de données manquantes, sauf dans le cas d une proportion de 65% où on note une dimunition de précision de ces deux paramètres. Quant à l estimateur de µ, on note une diminution importante de précision pour une proportion de 65%. Les graphiques de densités et de convergence sont présentés dans les pages qui suivent.
Chapitre 4. Données longitudinales incomplètes 7. 7 Densité de Beta.7 Densité de Mu 6.6 5.5 4.4 3.3 2.2..5.5..5.2.25.3.35.4.45 6 5 4 3 2.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 Fig. 4.25 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR
Chapitre 4. Données longitudinales incomplètes 7.45 Beta en fonction du NbIterations Mu en fonction du NbIterations.4.35.3 2 Valeurs de Beta.25.2 Valeurs de Mu 3.5 4. 5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 6 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 3.5 sigmacarre en fonction du NbIterations 3 2.5 Valeurs de sigmacarre 2.5.5 3.5 4 4.5 5 5.5 6 6.5 7 NbIterations x 4 Fig. 4.26 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas NMAR
Chapitre 4. Données longitudinales incomplètes 72 8 Densité de Beta.7 Densité de Mu 7.6 6.5 5.4 4.3 3 2.2...5.5..5.2.25.3.35.4 6 5 4 3 2.4 Densité de SigmaCarrée.2.8.6.4.2.5.5 2 2.5 3 3.5 4 Fig. 4.27 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 65%, analyse des cas NMAR
Chapitre 4. Données longitudinales incomplètes 73.4 Beta en fonction du NbIterations Mu en fonction du NbIterations.35.3.25 2 Valeurs de Beta.2.5 Valeurs de Mu 3. 4.5 5.5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 6 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 3.5 sigmacarre en fonction du NbIterations 3 2.5 Valeurs de sigmacarre 2.5.5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 Fig. 4.28 Convergence de β, µ et σ 2, avec une proportion de données manquante de 65%, analyse des cas NMAR
Chapitre 4. Données longitudinales incomplètes 74 4.5.4 Étude des cas complets Dans ce cas, la non réponse est générée selon un mécanisme MCAR et on exploite la base de données que nous avons utilisée à la section 4.5.. Les paramètres µ, β et σ 2 possèdent les mêmes lois a priori que précédemment. La technique d estimation des cas complets est la même que celle présentée à la section 4.4.4. Le résultat de cette étude est présentée dans le tableau 4.. Tab. 4. Résultats via l échantillonnage de Gibbs avec différentes proportions de données manquantes MCAR, études des cas complets. Périodes Moments a posteriori pourcentage de Moyenne a posteriori données manquantes (écart-types a posteriori entre parenthèses) t t2 t3 t4 µ β σ 2 % % % % % -2.635 (.6837).873 (.583).2923 (.2839) 7% 7% 7% 7% 6% -2.749 (.6498).964 (.554).2547(.278) 9% 4% 2% 2% 22% -2.977 (.6865).547 (.589).984 (.2426) 44% 43% 45% 43% 44% -33.379(2.2234) 2.65 (.85) 58.24(2.779) 62% 62% 63% 62% 63% -27.524(7.964) 2.687 (.5982) 368.82(9.4552) Proportion L analyse des résultats présentés dans le tableau 4. montre qu a partir d une proportion de données manquantes de 44%, on remarque un biais ainsi qu une dimunition de précision qui sont très importants. Ce résultat est cohérent avec le résultat obtenu en utilisant les données simulées. Il est important de rappeler dans le cas d analyse des cas complets la formule (3.9) est fausse car elle suppose l indépendance entre y et R. Cette condition n est pas respecté parce que si x est inconnu alors y et R sont corréllés. Les graphiques dans les pages qui suivent montrent que la convergence ne sera pas atteinte.
Chapitre 4. Données longitudinales incomplètes 75 8 Densité de Beta.7 Densité de Mu 7.6 6.5 5.4 4.3 3 2.2..5..5.2.25.3.35.4 6 5 4 3 2.5 Densité de SigmaCarrée.5.5.5 2 2.5 3 Fig. 4.29 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas Complets
Chapitre 4. Données longitudinales incomplètes 76.4 Beta en fonction du NbIterations.5 Mu en fonction du NbIterations.35.3.5.25 2 Valeurs de Beta.2 Valeurs de Mu 2.5 3.5 3.5. 4.5 4.5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 3 sigmacarre en fonction du NbIterations 2.5 2 Valeurs de sigmacarre.5.5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 Fig. 4.3 Convergence de β, µ et σ 2, avec une proportion de données manquantes de 7%, analyse des cas cas complets
Chapitre 4. Données longitudinales incomplètes 77.9 Densité de Beta.7 Densité de Mu.8.6.7.6.5.5.4.4.3.3.2.2...5.5 2 2.5 3 3.5 4 55 5 45 4 35 3 25 2 5 5 4 x 3 Densite de SigmaCarrée 3.5 3 2.5 2.5.5 2 3 4 5 6 7 8 9 Fig. 4.3 Densités a posteriori de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets
Chapitre 4. Données longitudinales incomplètes 78 3.5 Beta en fonction du NbIterations Mu en fonction du NbIterations 3 5 2 2.5 25 Valeurs de Beta 2 Valeurs de Mu 3.5 35 4 45.5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 5 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 9 sigmacarre en fonction du NbIterations 8 7 Valeurs de sigmacarre 6 5 4 3 2 4 4.5 5 5.5 6 NbIterations 6.5 7 7.5 8 x 4 Fig. 4.32 Convergence de β, µ et σ 2, avec une proportion de données manquante de 62%, analyse des cas complets
Chapitre 4. Données longitudinales incomplètes 79 L application présentée dans cette section montre que les trois mécanismes donnent des résultats similaires des moments a posteriori de β et σ 2. Seulement, pour le paramètre µ, on note une différence entre le mécanisme MAR et les deux mécanismes MCAR et NMAR. Ainsi, selon le mécanisme MAR, la moyenne a posteriori de µ varie entre 3.3283 et 2.657 avec un écart-type qui se trouve entre.729 et.92, alors que pour les deux autres mécanismes, la valeur minimale de la moyenne a posteriori est de 2.924 et l écart-type maximal est de.887. En résumé, il serait nécessaire de noter que dans le cas de données réelles, l algorithme prend plus d itérations, par rapport aux données simulées, pour converger. En effet dans le cas des données simulées, itérations sont suffisantes pour la convergence alors que dans le cas des données réelles, le nombre d itérations varie entre 5 et.
Chapitre 5 Conclusion Le problème de données manquantes est fréquemment rencontré lors de l analyse de données longitudinales. Dans ce travail, on présente une méthode d estimation pour un modèle dichotomique en utilisant une base de données panel incomplètes. Nous avons vu comment l analyse d une base de données contenant de données manquantes dépend du mécanisme qui cause la non réponse. Les résultats basés sur l utilisation de la méthode d augmentation de données, qui consiste à créer les variables latentes qui correspondent aux variables dépendantes manquantes, et l échantillonnage de Gibbs montrent que les estimateurs sont proches des vraies valeurs et sont précis quel que soit le mécanisme de non réponse. Il est à noter aussi qu en utilisant cette méthode d estimation, les estimateurs ne semblent pas être affectés par la variation des proportions des données manquantes. On note que la méthode de l analyse des cas complets, qui est basée sur la stratégie d élimination des observations incomplètes, n est valide que pour le cas du mécanisme de non réponse MCAR et avec une proportion de données manquantes inférieure à environ 45%. En effet, dans le cas où l élimination des observations devient importante, le biais et la perte de précision deviennent énormes. Cependant, si le mécanisme de non réponse n est pas MCAR, alors l étude des cas complets donne des estimateurs qui sont biaisés et moins précis, même pour de faibles proportions de données manquantes. On a remarqué aussi que dans le cas de données réelles, il existe une légère différence entre le mécanisme MAR et les deux mécanismes MCAR et NMAR. Cette différence concerne le paramètre µ qui est beaucoup moins précis comparé aux autres paramètres du modèle. Cette méthode d estimation peut également être utilisée dans les cas où les variables explicatives sont manquantes.
Bibliographie [] Abramowitz, M. et Stegun, I. A. (972) Handbook of Mathematical Functions, Dover Press, Washington [2] Albert, J. H. et Chib, S. (993) Bayesian analysis of binary and polytochomous response data. Journal of the American Statistical Association, 88(422) 669 :679. [3] Albert, P. S., Follmann, D. A., Wang, S. A. et Suh, E. B. (22) A latent autoregressive model for longitudinal binary data subject to informative missingness. Biometrics 58, 63 :64. [4] Angrist, J. D. (2) Estimating of limited dependent variable models with dummy endogenous regressors : simple strategies for empirical practice. Journal of Business and Economic Statistics. 9()2 :6. [5] Baltagi, B. H. (24). Panel Data Theory and Application. Physica Verlag, Heidelberg. [6] Baltagi, B. H. (2). A Companion to Theoretical Econometrics. Blackwell, Malden. [7] Baltagi, B. H. (995). Econometric Analysis of Panel Data. Wiley, Toronto. [8] Beal, M. J. et Ghahramani, Z. (23) The Variational bayesian EM algorithm for incomplete data : with application to scoring graphical model structures. Bayesian Statistics. 7, Disponible on ligne : http ://www.gatsby.ucl.ac.uk/ zoubin/papers/valencia2.pdf (Page Consultée le jan. 25). [9] Carlin, B. P. et Louis, T. A. (2) Bayes and Empirical Bayes Methods For Data Analysis. Chapman et Hall, Boca Raton. [] Coop, G. (23) Bayesian Econometrics. Wiley, Chichester. [] Casella, G. et George, E. I. (992) Explaining the gibbs sampler. The American Statistician, 46(3)67 :74.
BIBLIOGRAPHIE 83 [2] Fraley, C. (999) On Computing the largest fraction of missing information for the EM algorithm and the worst linear function for data augmentation. Computational Statistics & Data Analysis, 3,3 :26. [3] Gelman, A. (2) Bayesian Data Analysis. Chapman et Hall, Boca Raton. [4] Ghahramani, Z. et Jordan, M. I. (994) Learning from incomplete data. Massachusetts Institute of Technology. Disponible on Ligne : http ://www.gatsby.ucl.ac.uk/ zoubin/papers/review.pdf (Page consulté le jan. 25). [5] Gilks, R., Richardson, S. et Spiegelhalter, D. J. (996) Markov Chain Monte Carlo in Practice. Chapman et Hall, Boca Raton. [6] Ibrahim, J. G., Chen, M., Lipsitz, S. R. et Herring, A. H. (25) Missing data methods for generalized linear models : a comparative review. Journal of the American Statistical Association, (469),73 :9. [7] Lancaster, T. (24) An Introduction to Modern Bayesian Econometrics. Blackwell Publishing, Malden. [8] Lee, P. M. (989) Bayesian Statistics : An Introduction. Halsted Press, New York. [9] Little, R. J. A. et Rubin, D. B. (22). Statistical Analysis With Missing Data. Wiley Interscience Publication, New Jersey. [2] Little R. J. A. (995) Modeling the drop-out mechanism in repeated-measures studies. Journal of the American Statistical Association, 9(43) 2 :2. [2] Poirier, D. (995) Intermediate Statistics and Econometrics. MIT Press, Cambridge. [22] Raftery, A. E., Tanner M. A. et Wells M. T. (22). Statistics In The 2st Century. Chapman et Hall, Boca Raton. [23] Ross, S. M. (2) Introduction to Probability Models. Academic Press, San Diego. [24] Schafer, J. L. (997) Analysis of Incomplete Multivariate Data. Chapman et Hall, London. [25] Skrondal, A. et Rabe-Hesketh, S. (24) Generalized Latent Variable Modeling. Chapman et Hall, Boca Raton. [26] Tanner, M. A. (996). Tools For Statistical Inference. Springer, New York.
BIBLIOGRAPHIE 84 [27] Tanner M. A. et Wong W. H. (987) The Calculation of posterior distributions by data augmentation. Journal of the American Statistical Association, 82(398)528 :54. [28] Train, K. (23) Discrete Choice Methods With Simulation. Cambridge University Press. Disponible on ligne : http ://elsa.berkeley.edu/ train/books.html(page consulté le 7 mai 25). [29] Wooldrige, J. M. (22). Econometric Analysis Of Cross Section And Panel Data. MIT Press, Cambridge. [3] Yi, G. Y. et Thompson, M. E. (25). Marginal and association regression models for longitudinal binary data with drop-outs : a likelihood-based approach. The Canadian Journal of Statistics, 33() :2. [3] Zhang, P. (23) Multiple imputation : theory and application. International Statistical Review, 7(3)58 :592.
Annexe A Distributions a posteriori : cas de données complètes Dans cette section on détermine les distributions a posteriori conditionnelle des différents paramètres d intérêt en se basant sur la distribution jointe (3.9). Distribution de α i La distribution de α i est obtenue comme suit : f(α [ i yi, µ, β, σ2, x it ) T ] t= f(y it α i, β) f(α i µ, σ 2 ) { } exp T 2 t= (y it α i βx it ) 2 exp { (α 2σ 2 i µ) 2} { } exp T 2 t= (y it α i βx it ) 2 (α 2σ 2 i µ) 2 { } exp T 2 t= (y it 2 + αi 2 2α iyit + β2 x 2 it 2βx ityit + 2βα ix it ) (α 2 2σ 2 i 2µα i + µ 2 ) { exp α2 i (T + ) + α T 2 σ 2 i t= (y it βx it + µ ) + } T σ 2 t= (βx ityit 2 y it 2 β2 x 2 it 2 ) µ2 2σ ( ) 2 Pt= = N (y it βx it)+ µ σ 2,. T + σ 2 T + σ 2 Distribution de µ La distribution a posteriori de µ est déterminée en suivant les manipulations mathématiques suivantes :
Annexe A. Distributions a posteriori : cas de données complètes 86 f(µ α, σ 2 ) [ n i= f(α i µ, σ 2 )] f(µ) n i= exp { n 2σ 2 i= (α i µ) 2} exp { exp exp { 2b (µ a ) 2 } } n 2σ 2 i= (α2 i 2µα i + µ 2 ) 2b (µ 2 2µa + a 2 { ) 2 µ2 ( n + P n σ 2 i= b ) + µ( α i + a P n } σ 2 b ) a2 2b 2 i= α2 i. 2σ 2 Il s agit de noyau de la distribution normale, ainsi la distribution conditionnelle a posteriori de µ est donnée par µ N ( b n i= α i + σ 2 a nb + σ 2, ) σ 2 b. (A.) nb + σ 2 Distribution de β Les manipulations suivantes permettent de déterminer la distribution a posteriori de β : [ n ] f(β α, y ) T i= t= f(y it β, α i ) f(β) n i= { exp T 2 t= y 2 it + T 2 α2 i + α T i t= y it β2 T 2 t= x2 it + β T t= x ityit } βα T i t= x it exp { (β a)2} 2b { exp n T 2 i= t= y 2 it + T n 2 i= α2 i + n T i= t= α iyit β2 n T 2 i= t= x2 it +β n T i= t= x ityit β n } T i= t= α ix it 2b β2 + aβ a2 ) b 2b { exp β2 ( n T 2 i= t= x2 it + ) + β( n T b i= t= x ityit n T i= t= α ix it + a) b + n T i= t= α iyit n T } 2 i= t= y 2 it + T n 2 i= α2 i a2 2b ce qui permet de donner la distribution conditionnelle complète suivante de β : ( a b β N + n T i= t= x it(yit α i ) + n T, b i= t= x2 it + n T b i= t= x2 it ) (A.2) Distribution de σ 2
Annexe A. Distributions a posteriori : cas de données complètes 87 Nous déterminons dans un premier temps la distribution a priori de σ 2. Posons z suit une distribution gamma de paramètres c et d et soit σ 2 =, donc la distribution z de σ 2 est une Gamma inverse dont la distribution est : f(σ 2 ) = f z (z (σ 2 )) J ( ) = f z (A.3) σ 2 σ 4 = dc Γ(c) σ 2(c ) exp( d σ ) 2 σ 4 = dc Γ(c) σ 2(c+) exp ( dσ ). 2 (A.4) Étant données les différents valeurs de α i et µ, la distribution a posteriori de σ 2 s obtient comme suit : [ n i= [ n ] f(σ 2 α i, µ) f(α i µ, σ 2 ) f(σ 2 ) i= ( σ 2 2 exp ) ] 2σ (α 2 i µ) 2 σ 2(c+) exp ( dσ ) 2 ( ) σ 2(c+) σ 2 n 2 exp n (α 2σ 2 i µ) 2 d σ 2 i= σ 2(c++ n 2 ) exp ( σ n ( i= (α ) i µ) 2 + d). 2 2 (A.5) (A.6) Donc la distribution conditionnelle complète de σ 2 est une gamma inverse dont la distribution est : { n 2 i= (α i µ) 2 + d } { }] c+ n 2 Γ(c + n) σ 2(c++ n 2 ) exp [ σ2 n (α i µ) 2 + d (A.7) 2 2 i= Distribution de y it
Annexe A. Distributions a posteriori : cas de données complètes 88 La distribution conditionnelle a posteriori de yit est normale tronquée de la forme suivante :. Si y it = (ou yit > ), alors on a une distribution normale, tronquée à gauche à, de moynne α i + βx it et de variance ; 2. Si y it = (ou yit < ), alors on a une distribution normale, tronquée à droite à, de moynne α i + βx it et de variance.
Annexe B Programmes Stata et Matlab Dans cette section, on présente les programmes qui ont servi à l estimation du modèle par le maximum de vraisemblance avec STATA ainsi que les différents programmes d estimation par l échantillonnage de Gibbs avec MATLAB. B. Pragrammes d estimation par le maximum de vraisemblance Voici le programme qu on a utilisé pour l estimation du modèle par maximum de vraisemblance présenté à la section 2.2 /*****************************************************************/ ** Maximum de vraisemblance pour le modèle de probit_dicho_panel */ ******************************************************************/ /*------------------------------------------------------------------------------*/ * Ce programme intitulé mlfunc est réalisé pour maximiser la fonction de * * vraisemblance telle que présentée dans le chapitre 2 en utilisant l algorithme* * de Gauss-Legendre. Dans ce programme on a crée une fonction appelée intquad * * qui a comme entrée la fonction Func, le nombre de points d intégration (4), * * la borne inférieur et la borne superieur de l intégrale (-5 et 5) et ayant * * comme sortie la valeur numérique de logaritme de la fonction de vraisemblance * * qui sera stocké dans resultat * /*-----------------------------------------------------------------------------*/
Annexe B. Programmes Stata et Matlab 9 capture program drop mlfunc * pour effacer le programme mlfunc s il existe program define mlfunc * définir le programme mlfunc args lnf beta mu sig * définir les arguments du programme capture dropvars resultat scalar deter = beta scalar deter2 = mu scalar deter3 = abs( sig ) intquad Func 4-5 5 resultat * est une fonction qui calcule l intégrale quietly replace lnf = ln(resultat) * de Func entre -infinie et plus l infinie end capture program drop Func * définir un nouveau programme qui s intitule program define Func * Func et qui génère la fonction de vraisemblance args alfa * définie dans la section 2.2 capture drop _func #delimit ; gen double _func = [norm( alfa + deter*x)]^y*[(-norm( alfa + deter*x))] ^(-Y)*[norm( alfa + deter*x2)]^y2*[(-norm( alfa + deter*x2))]^(-y2)* [norm( alfa + deter*x3)]^y3*[(-norm( alfa + deter*x3))]^(-y3)* [norm( alfa + deter*x4)]^y4*[(-norm( alfa + deter*x4))]^(-y4)* normden(( alfa -deter2)/deter3)/deter3; #delimit cr end ****** Start of program here set more off *mat b=(,,) use panel_.dta, clear ml model lf mlfunc (beta:) (mu:) *ml check *ml init b, skip (sig:)
Annexe B. Programmes Stata et Matlab 9 ml maximize ml graph outtex, level labels details legend file(c:\maxvrs_) replace title( vraisemblance)
Annexe B. Programmes Stata et Matlab 92 B.2 Programmes d estimation par l échantillonnage de Gibbs Cette partie de l annexe décrit les différents programmes MATLAB utilisés afin d estimer le modèle dichotomique en utilisant l échantillonnage de Gibbs. B.2. Programme d estimation par l échantillonnage de Gibbs : base de données complètes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Programme d échantillonnge de Gibbs sur données complètes simulés %%%%%% %% Les Vraies valeurs sont Mu =, Beta = et Sigma = %%%%%%%%%%%%%%%% %% Dernière modification le /3/5 %%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est composé d une fonction principale intitulé gibbsmatopt3 % % ayant comme entrée : NbIterations ainsi que le fichier de données et des % % valeurs initiales de paramètres. La sortie de cette fonction est : NomFi-% % chiersorties et NomFichierSorties2 où NomFichierSorties contient les % % valeurs de Beta, Alpha, Mu et sigma carrée de chaque itération. Le % % NomFichierSorties2 contient les moyennes a posteriori de sigma carré, de % % Mu et de Beta ainsi que leurs écarts-types respectifs. Toutefois cette % % fonction principale fait appelle à trois sous fonctions, soient : Trunca-% % tednormal qui sert à faire des tirages à partir d une loi normal tronquée% % qui a comme entrée le vecteur de données, y, la variable explicative, x, % % les valeurs courantes de la variance, sig, de, Beta, d alpha et de numéro% % de l itération i, et comme sortie une vecteur de yetoile. La fonction % % Graphiques ayant comme entrée : ValeursX, ValeursY,NoFigure,Titre, % % XLabel,YLabel et comme sortie le graphique de convergence des différents % % paramètres d intérets. La fonction Kdensity ayant comme entrée : ValeursXX% % NoFig, Titre et comme sortie le graphique de la densité a posteriori des % % paramètres. % %--------------------------------------------------------------------------% function gibbsmatopt3(nbiterations,nomfichiersorties,nomfichiersorties2)
Annexe B. Programmes Stata et Matlab 93 SS=load ( panel_.txt ); Id = SS(:,);X2=SS(:,3);X=SS(:,2); X3=SS(:,4);X4=SS(:,5);Y=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 3 ;dd = 6 ;aa = 4 ; aa = 3 ;bb = 4 ;bb = 4 ; yetoile=ones(n,);yetoile2=ones(n,); yetoile3=ones(n,);yetoile4=ones(n,); alphaprecedent=ones(n,);alphaactuel=ones(n,); beta=ones(nbiterations,);mu=ones(nbiterations,); sigmacarre=ones(nbiterations,);nbenlever = NbIterations/2 ; var=;var2=;var3=;var4=; %Début de l échantillonnage de Gibbs for (i = 2:NbIterations) moy = alphaprecedent+beta(i-)*x; moy2 = alphaprecedent+beta(i-)*x2; moy3 = alphaprecedent+beta(i-)*x3; moy4 = alphaprecedent+beta(i-)*x4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%% yetoile = TruncatedNormal(Y,moy,sigmacarre,i) ; yetoile2 = TruncatedNormal(Y2,moy2,sigmacarre,i) ; yetoile3 = TruncatedNormal(Y3,moy3,sigmacarre,i) ; yetoile4 = TruncatedNormal(Y4,moy4,sigmacarre,i) ; %%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%% moyenne_alpha = zeros(n,); moyenne_alpha = yetoile + yetoile2 + yetoile3 + yetoile4 - beta(i-,)*(x+x2+x3+x4) + (mu(i-,)/(sigmacarre(i-,)))*ones(n,); moyenne_alpha = moyenne_alpha/(4+/(sigmacarre(i-,))); variance_alpha = /(4+/(sigmacarre(i-,)));
Annexe B. Programmes Stata et Matlab 94 alphaactuel = normrnd(moyenne_alpha,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de mu %%%%%%%%%%%%%%%% moyenne_mu = (bb*sum(alphaactuel) + aa*sigmacarre(i-))/(n*bb +(sigmacarre(i-))); variance_mu = (bb*(sigmacarre(i-)))/(n*bb+(sigmacarre(i-))); mu(i,) = normrnd(moyenne_mu, sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de beta %%%%%%%%% moyenne_beta = ; variance_beta = ; moyenne_beta = sum(x.*(yetoile - alphaactuel) + X2.*(yetoile2 - alphaactuel)+x3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%%% Calcul de sigmacarre %%%% sigmacarre_shape = cc + n/2; sigmacarre_scale = /((.5 * sum((alphaactuel - mu(i,)).^2)) + dd ) ; sigmacarre(i,) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,) = /sigmacarre(i,); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale sur i X_axe = [:NbIterations] ; alphaactuel = [alphaactuel] ; Graphiques(X_axe(NbEnlever:NbIterations,),sigmacarre(NbEnlever:NbIterations,),7, sigmacarre en fonction du NbIterations, NbIterations, Valeurs de sigmacarre ); saveas(gcf, ConSig.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),mu(NbEnlever:NbIterations,),72, Mu en fonction du NbIterations, NbIterations, Valeurs de Mu );
Annexe B. Programmes Stata et Matlab 95 saveas(gcf, ConMu.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),beta(NbEnlever:NbIterations,),73, Beta en fonction du NbIterations, NbIterations, Valeurs de Beta ); saveas(gcf, ConBeta.eps, psc2 ) Kdensity(sigmacarre(NbEnlever:NbIterations,),74, Densité de SigmaCarrée ) ; saveas(gcf, DenSig.eps, psc2 ) Kdensity(mu(NbEnlever:NbIterations,),75, Densité de Mu ) ; saveas(gcf, DenMu.eps, psc2 ) Kdensity(beta(NbEnlever:NbIterations,),76, Densité de Beta ) ; saveas(gcf, DenBeta.eps, psc2 ) FID = fopen(nomfichiersorties, w ); fprintf(fid, X_axe = [ ); fprintf(fid, %6.2f,X_axe); fprintf(fid, ]; \n\n ); % on imprime le reste des résultats de la m^eme façon fclose(fid); Resltat = fopen(nomfichiersorties2, w ); fprintf(resltat, MoySig = [ ); fprintf(resltat, %6.2f,mean(sigmacarre(NbEnlever:NbIterations,))); fprintf(resltat, ]; \n\n ); fclose(resltat); %% Creation de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) %% i est le numéros de l itération %% n = length(x) ; Phi = normcdf(-x,,); upositif = unifrnd(phi,); unegatif = unifrnd(,phi); upositif = norminv(upositif,,); unegatif = norminv(unegatif,,); for j = :n if (y(j,) == ) ; yet(j,) = x(j,) + upositif(j,) ; end;
Annexe B. Programmes Stata et Matlab 96 if (y(j,) == ); yet(j,) = x(j,) + unegatif(j,) ; end; end; %% Création de fonction Kdensity %%% function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(valeursxx); figure(nofig) plot(xi,f); title(titre); %% Création de fonction Graphique %%% function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure, % TitreDeLaFigure,XLabel,YLabel) figure(nofigure) plot(valeursx,valeursy); title(titre); xlabel(xlabel); ylabel(ylabel);
Annexe B. Programmes Stata et Matlab 97 B.2.2 Programme adapté a des données manquantes selon différents mécanismes de non réponse Ce programme est adapté pour l estimation par la méthode d échantillonnage de Gibbs en respectant les modèles de mécanisme de non réponse. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%% Programme d échantillonnge de Gibbs sur données manquantes MCAR %% %%%% Les Vraies valeurs sont Mu =, Beta = et Sigma = %%%%%%%%%% %%%% Dernière modification le 8//5 %%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est semblable à celui qui précède sauf que dans ce cas nous % % sommes en présence d une base de données ayant des observations manqua- % % ntes selon un mécanisme MCAR. Donc les changements par rapport au progr- % % amme ci-dessus sont : % % ) Au niveau de la lecture de la base de données on ajoute les variables % % indicatrices des observations manquantes, R. % % 2) La fonction TruncatedNormal, qui sert à faire des tirages à partir % % d une loi normal tronquée, contient une nouvelle étape qui simule % % yetoile à partir d une loi normale et pas à partir d une loi normal % % tronquée, dans le cas où on a une observation manquante. % %--------------------------------------------------------------------------% function gibbsmatopt3(nbiterations,nomfichiersorties,nomfichiersorties2) t = cputime; SS=load ( panelm2emeperde_.txt ); Id = SS(:,);X=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa = 2 ;bb = ;bb = ; yetoile=ones(n,);yetoile2=ones(n,);yetoile3=ones(n,); yetoile4=ones(n,);alphaprecedent=ones(n,); alphaactuel=ones(n,);beta=ones(nbiterations,);
Annexe B. Programmes Stata et Matlab 98 mu=ones(nbiterations,);sigmacarre=ones(nbiterations,); NbEnlever = NbIterations/2 ; %Début de l algorithme for (i = 2:NbIterations) moy = alphaprecedent+beta(i-)*x; moy2 = alphaprecedent+beta(i-)*x2; moy3 = alphaprecedent+beta(i-)*x3; moy4 = alphaprecedent+beta(i-)*x4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%% yetoile = TruncatedNormal(Y,moy,sigmacarre,i) ; yetoile2 = TruncatedNormal(Y2,moy2,sigmacarre,i) ; yetoile3 = TruncatedNormal(Y3,moy3,sigmacarre,i) ; yetoile4 = TruncatedNormal(Y4,moy4,sigmacarre,i) ; %%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,); moyenne_alpha = yetoile + yetoile2 + yetoile3 + yetoile4 - beta(i-,)* (X+X2+X3+X4) + (mu(i-,)/(sigmacarre(i-,)))*ones(n,); moyenne_alpha = moyenne_alpha/(4+/(sigmacarre(i-,))); variance_alpha = /(4+/(sigmacarre(i-,))); alphaactuel = normrnd(moyenne_alpha,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de mu %%%%%%%%%%%%%%% moyenne_mu = (bb*sum(alphaactuel) + aa*sigmacarre(i-))/(n*bb +(sigmacarre(i-))); variance_mu = (bb*(sigmacarre(i-)))/(n*bb+(sigmacarre(i-))); mu(i,) = normrnd(moyenne_mu, sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de beta %%%%%%%%%%%%%% moyenne_beta = ; variance_beta = ; moyenne_beta = sum(x.*(yetoile - alphaactuel)+x2.*(yetoile2 - alphaactuel) +X3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb;
Annexe B. Programmes Stata et Matlab 99 moyenne_beta = moyenne_beta / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%% Calcul de sigmacarre carree %%%%%%%% sigmacarre_shape = cc + n/2; sigmacarre_scale = /((.5 * sum((alphaactuel - mu(i,)).^2)) + dd ) ; sigmacarre(i,) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,) = /sigmacarre(i,); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale sur i duree = cputime - t ; X_axe = [:NbIterations] ; alphaactuel = [alphaactuel] ; % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure,Titre) Graphiques(X_axe(NbEnlever:NbIterations,),sigmacarre(NbEnlever:NbIterations,),, sigmacarre en fonction du NbIterations, NbIterations, Valeurs de sigmacarre ); saveas(gcf, ConSig.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),mu(NbEnlever:NbIterations,),2, Mu en fonction du NbIterations, NbIterations, Valeurs de Mu ); saveas(gcf, ConMu.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),beta(NbEnlever:NbIterations,),3, Beta en fonction du NbIterations, NbIterations, Valeurs de Beta ); saveas(gcf, ConBeta.eps, psc2 ) Kdensity(sigmacarre(NbEnlever:NbIterations,),4, Densité de SigmaCarrée ) ; saveas(gcf, DenSig.eps, psc2 ) Kdensity(mu(NbEnlever:NbIterations,),5, Densité de Mu ) ; saveas(gcf, DenMu.eps, psc2 ) Kdensity(beta(NbEnlever:NbIterations,),6, Densité de Beta ) ; saveas(gcf, DenBeta.eps, psc2 ) FID = fopen(nomfichiersorties, w ); % ouvrir un fichiers qui s appelle fprintf(fid, X_axe = [ ); % NomFichierSorties et dans lequel fprintf(fid, %6.2f,X_axe); % on imprime le résultat fprintf(fid, ]; \n\n ); %% Création de fonction Graphique de densité %%%
Annexe B. Programmes Stata et Matlab function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(valeursxx); figure(nofig) plot(xi,f); title(titre); %% Création de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi = normcdf(-x,,); upositif = unifrnd(phi,); unegatif = unifrnd(,phi); upositif = norminv(upositif,,); unegatif = norminv(unegatif,,); for j = :n if (y(j,) == ) ; yet(j,) = x(j,) + upositif(j,) ; end; if (y(j,) == ); yet(j,) = x(j,) + unegatif(j,) ; end; if(y(j,) == 999 ) ; yet(j,) = normrnd(x(j,),) ; end; end; %% Création de fonction Graphique %%% function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(nofigure) plot(valeursx,valeursy); title(titre); xlabel(xlabel); ylabel(ylabel);
Annexe B. Programmes Stata et Matlab B.2.3 Programme pour le mécanisme MAR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%% Programme d échantillonnge de Gibbs sur données manquantes MAR %%%%%%% %%%%% Les Vraies valeurs sont Mu =,Beta = et Sigma = %%%%%%%%%%%%%%%% %%%%% Dernière modification le 9//5 %%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est semblable à celui qui précède sauf que dans ce cas nous % % sommes en présence d une base de données ayant des observations manqua- % % ntes selon un mécanisme MAR. Donc le changement par rapport au program- % % me ci-dessus est au niveau de la création des indicatrices des observati-% % ons manquante, qui sont crées selon un mécanisme MAR est sont bien comme-% % ntés au début de ce programme % %--------------------------------------------------------------------------% function gibbsmatopt3(nbiterations,nomfichiersorties,nomfichiersorties2) t = cputime; SS=load ( panel_.txt ); Id = SS(:,);X=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa = 2 ;bb = ;bb = ; lamda =.5 ;lamda =.8 ; yetoile=ones(n,);yetoile2=ones(n,);alphaprecedent=ones(n,); yetoile3=ones(n,);yetoile4=ones(n,);alphaactuel=ones(n,); beta=ones(nbiterations,);mu=ones(nbiterations,); sigmacarre=ones(nbiterations,);nbenlever = NbIterations/2 ; %%%%%%%%%%%%% Creer les données manquantes selon MAR %%%%%%%% for (j = :n) R(j,) = ; end;
Annexe B. Programmes Stata et Matlab 2 prob2(:,) = exp(lamda + lamda*y)./( + exp(lamda + lamda*y)) ; R2 = binornd(,prob2(:,)) ; observation2 = tabulate(r2) ;clear j ; for ( j = :n ) if (R2(j,) == ) R3(j,) = ; R4(j,) = ; end; if (R2(j,) == ) prob32(j,) = exp(lamda + lamda*y2(j,))./( + exp(lamda + lamda* Y2(j,))) ; R3(j,) = binornd(,prob32(j,)) ;end; if (R3(j,) == ) R4(j,) = ; end; if (R3(j,) == ) prob43(j,) = exp(lamda + lamda*y3(j,))./( + exp(lamda + lamda* Y3(j,))) ; R4(j,) = binornd(,prob43(j,)) ;end;end; observation3 = tabulate(r3) ;observation4 = tabulate(r4) ; horzcat(observation2, observation3, observation4) clear j ; for (j = :n) if (R(j,) == ) Y(j,) = 999 ; end; if (R2(j,) == ) Y2(j,) = 999 ; end; if (R3(j,) == ) Y3(j,) = 999 ; end; if (R4(j,) == ) Y4(j,) = 999 ; end;end; %%%%%%%%%% Fin de Création les données manquantes selon MAR %%%%%%%% %% Début de l algorithme
Annexe B. Programmes Stata et Matlab 3 for (i = 2:NbIterations) moy = alphaprecedent+beta(i-)*x;moy2 = alphaprecedent+beta(i-)*x2; moy3 = alphaprecedent+beta(i-)*x3;moy4 = alphaprecedent+beta(i-)*x4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%%%%%%%%%%%%%% yetoile = TruncatedNormal(Y,moy,sigmacarre,i) ; yetoile2 = TruncatedNormal(Y2,moy2,sigmacarre,i) ; yetoile3 = TruncatedNormal(Y3,moy3,sigmacarre,i) ; yetoile4 = TruncatedNormal(Y4,moy4,sigmacarre,i) ; %%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,); moyenne_alpha = yetoile + yetoile2 + yetoile3 + yetoile4 - beta(i-,)*(x+x2 +X3+X4) + (mu(i-,)/(sigmacarre(i-,)))*ones(n,); moyenne_alpha = moyenne_alpha/(4+/(sigmacarre(i-,))); variance_alpha = /(4+/(sigmacarre(i-,))); alphaactuel = normrnd(moyenne_alpha,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de mu %%%%%%%%%%%%%%%%%%% moyenne_mu = (bb*sum(alphaactuel) + aa*sigmacarre(i-))/(n*bb +(sigmacarre(i-))); variance_mu = (bb*(sigmacarre(i-)))/(n*bb+(sigmacarre(i-))); mu(i,) = normrnd(moyenne_mu, sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de beta %%%%%%%%%%%%%%%%%%% moyenne_beta = ; variance_beta = ; moyenne_beta = sum(x.*(yetoile - alphaactuel) + X2.*(yetoile2 - alphaactuel) +X3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = / ((/bb) + sum(x.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,) = normrnd(moyenne_beta, sqrt(variance_beta)); sigmacarre_shape = cc + n/2; %%%%%%%%%%%%%%%%% Calcul de sigmacarre carree %%%%%%%%%%%%%%%
Annexe B. Programmes Stata et Matlab 4 sigmacarre_scale = /((.5 * sum((alphaactuel - mu(i,)).^2)) + dd ) ; sigmacarre(i,) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,) = /sigmacarre(i,); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale sur i duree = cputime - t ; X_axe = [:NbIterations] ; % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure,Titre) Graphiques(X_axe(NbEnlever:NbIterations,),sigmacarre(NbEnlever:NbIterations,),, sigmacarre en fonction du NbIterations, NbIterations, Valeurs de sigmacarre ); saveas(gcf, ConSig.eps, psc2 ); Graphiques(X_axe(NbEnlever:NbIterations,),mu(NbEnlever:NbIterations,),2, Mu en fonction du NbIterations, NbIterations, Valeurs de Mu ); saveas(gcf, ConMu.eps, psc2 ) ; Graphiques(X_axe(NbEnlever:NbIterations,),beta(NbEnlever:NbIterations,),3, Beta en fonction du NbIterations, NbIterations, Valeurs de Beta ); saveas(gcf, ConBeta.eps, psc2 ) ; Kdensity(sigmacarre(NbEnlever:NbIterations,),4, Densité de SigmaCarrée ) ; saveas(gcf, DenSig.eps, psc2 ) ; Kdensity(mu(NbEnlever:NbIterations,),5, Densité de Mu ) ; saveas(gcf, DenMu.eps, psc2 ) ; Kdensity(beta(NbEnlever:NbIterations,),6, Densité de Beta ) ; saveas(gcf, DenBeta.eps, psc2 ) FID = fopen(nomfichiersorties, w ); fprintf(fid, X_axe = [ ); fprintf(fid, %6.2f,X_axe);fprintf(FID, ]; \n\n ); fprintf(fid, sigmacarre = [ );fprintf(fid, %6.6f, sigmacarre); fprintf(fid, ]; \n\n ); %% On imprime le reste de résultat de la m^eme façon %%%% Création de la fonction de densité Kdensity %%%%%%%%% function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(valeursxx); figure(nofig);plot(xi,f);title(titre);
Annexe B. Programmes Stata et Matlab 5 %%%% Création de la fonction Normal tronquee %%%%%%%%%%%%%%%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi = normcdf(-x,,);upositif = unifrnd(phi,); unegatif = unifrnd(,phi);upositif = norminv(upositif,,); unegatif = norminv(unegatif,,); for j = :n if (y(j,) == ) ;yet(j,) = x(j,) + upositif(j,) ;end; if (y(j,) == );yet(j,) = x(j,) + unegatif(j,) ; end; if(y(j,) == 999 ) ;yet(j,) = normrnd(x(j,),) ;end;end; %% Création de fonction Graphique %%% function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(nofigure) plot(valeursx,valeursy); title(titre); xlabel(xlabel); ylabel(ylabel);
Annexe B. Programmes Stata et Matlab 6 B.3 Programme pour les cas complets %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%% Programme d échantillonnge de Gibbs: étude des cas complets %% %%%%%% Les Vraies valeurs sont Mu =, Beta = et Sigma = %%%%%%%%%%% %%%%%% Dernière modification le 5//5 %%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Dans ce programme on s intéresse seulement à l estimation des données % % disponibles. Donc on ne fait pas une simulation des données manquante. % % Le lecteure remarquera que chaque vecteurs de données est multiplié par % % le vecteur d indicatrice des observations maquantes, R. Le but de ce pro-% % gramme est de montrer que l estimation des cas disponibles donne des est-% % imateurs biaisé, ce qui est confirmé dans le tableau l AnnexeD intitulé % % Simulation pour l étude des cas complète des données MCAR. % %--------------------------------------------------------------------------% function gibbsmatopt3(nbiterations,nomfichiersorties,nomfichiersorties2) t = cputime; SS = csvread( panelcc4pourcent.csv,,) ; Id = SS(:,);X=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); R=SS(:,);R2=SS(:,);R3=SS(:,2); R4=SS(:,3); %% Création de vecteur qui contient les périodes de chaque personne %% Ti = R + R2 + R3 + R4 ; tabtemps = tabulate(ti) ; %%% Création de n %% taille = max(r,r2) ; taille2 = max(r3,r4) ; taille = max(taille,taille2) ; n = sum(taille) ;
Annexe B. Programmes Stata et Matlab 7 % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa = 2 ;bb = ;bb = ; yetoile=ones(,);yetoile2=ones(,); yetoile3=ones(,);yetoile4=ones(,); alphaprecedent=ones(,);alphaactuel=ones(,); beta=ones(nbiterations,);mu=ones(nbiterations,); sigmacarre=ones(nbiterations,); NbEnlever = NbIterations/2 ; %%%%%%%%%% Creer les données manquantes %%%%%%%%%% for (j = :) if (R(j,) == ) Y(j,) = 999 ; end; if (R2(j,) == ) Y2(j,) = 999 ; end; if (R3(j,) == ) Y3(j,) = 999 ; end; if (R4(j,) == ) Y4(j,) = 999 ; end; end; %%%%%%%%% Début de l échantillonnage de Gibbs %%%%%% for (i = 2:NbIterations) moy = alphaprecedent+beta(i-)*x.*r; moy2 = alphaprecedent+beta(i-)*x2.*r2; moy3 = alphaprecedent+beta(i-)*x3.*r3; moy4 = alphaprecedent+beta(i-)*x4.*r4; %%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%%%%%%%%%% yetoile = TruncatedNormal(Y,moy,sigmacarre,i) ; yetoile2 = TruncatedNormal(Y2,moy2,sigmacarre,i) ; yetoile3 = TruncatedNormal(Y3,moy3,sigmacarre,i) ;
Annexe B. Programmes Stata et Matlab 8 yetoile4 = TruncatedNormal(Y4,moy4,sigmacarre,i) ; %%%%%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,); moyenne_alpha = R.*yetoile + R2.*yetoile2 + R3.*yetoile3 + R4.*yetoile4 - beta(i-,)*(r.*x+r2.*x2+r3.*x3+r4.*x4) + (mu(i-,)/(sigmacarre(i-,))) ; moyenne_alpha = moyenne_alpha./(ti+/(sigmacarre(i-,))); variance_alpha =./(Ti+/(sigmacarre(i-,))); alphaactuel = normrnd(moyenne_alpha,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de mu %%%%%%%%%%%%%%%%%%% moyenne_mu = (bb*sum(alphaactuel) + aa*sigmacarre(i-))/(n*bb +(sigmacarre(i-))); variance_mu = (bb*(sigmacarre(i-)))/(n*bb+(sigmacarre(i-))); mu(i,) = normrnd(moyenne_mu, sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de beta %%%%%%%%%%%%%%%% moyenne_beta = ;variance_beta = ; moyenne_beta = sum(r.*x.*(yetoile - alphaactuel) + R2.*X2.*(yetoile2 - alphaactuel) +R3.*X3.*(yetoile3 - alphaactuel) +R4.*X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((/bb) + sum(r.*(x).^2 + R2.*(X2).^2 + R3.*(X3).^2 + R4.*(X4).^2)); variance_beta = / ((/bb) + sum(r.*(x).^2 + R2.*(X2).^2 + R3.*(X3).^2 + R4.*(X4).^2)); beta(i,) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%%% Calcul de sigmacarre carree %%%%%%%%%%%% sigmacarre_shape = cc + n/2; sigmacarre_scale = /((.5 * sum((alphaactuel - mu(i,)).^2)) + dd ) ; sigmacarre(i,) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,) = /sigmacarre(i,);
Annexe B. Programmes Stata et Matlab 9 alphaprecedent = alphaactuel; i end ; %%%% F I N D échantillonnage de Gibbs ::: %%%%%%%%%%%% duree = cputime - t ; X_axe = [:NbIterations] ; alphaactuel = [alphaactuel] ; % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure, Titre) Graphiques(X_axe(NbEnlever:NbIterations,),sigmacarre(NbEnlever:NbIterations,),, sigmacarre en fonction du NbIterations, NbIterations, Valeurs de sigmacarre ); saveas(gcf, ConSig.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),mu(NbEnlever:NbIterations,),2, Mu en fonction du NbIterations, NbIterations, Valeurs de Mu ); saveas(gcf, ConMu.eps, psc2 ) Graphiques(X_axe(NbEnlever:NbIterations,),beta(NbEnlever:NbIterations,),3, Beta en fonction du NbIterations, NbIterations, Valeurs de Beta ); saveas(gcf, ConBeta.eps, psc2 ) Kdensity(sigmacarre(NbEnlever:NbIterations,),4, Densite de SigmaCarrée ) ; saveas(gcf, DenSig.eps, psc2 ) Kdensity(mu(NbEnlever:NbIterations,),5, Densité de Mu ) ; saveas(gcf, DenMu.eps, psc2 ) Kdensity(beta(NbEnlever:NbIterations,),6, Densité de Beta ) ; saveas(gcf, DenBeta.eps, psc2 ) FID = fopen(nomfichiersorties, w );% Ouvrir le fichier NomFichierSorties % et écrireles résultats que nous avons fprintf(fid, X_axe = [ ); % besoin, fprintf(fid, %6.2f,X_axe); fprintf(fid, ]; \n\n );
Annexe B. Programmes Stata et Matlab fclose(fid); Resltat = fopen(nomfichiersorties2, w ); fprintf(resltat, MoySig = [ ); fprintf(resltat, %6.2f,mean(sigmacarre(NbEnlever:NbIterations,))); fprintf(resltat, ]; \n\n ); fclose(resltat); %% Création de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi = normcdf(-x,,); upositif = unifrnd(phi,); unegatif = unifrnd(,phi); upositif = norminv(upositif,,); unegatif = norminv(unegatif,,); for j = :n if (y(j,) == ) ; yet(j,) = x(j,) + upositif(j,) ; end; if (y(j,) == ); yet(j,) = x(j,) + unegatif(j,) ; end; if(y(j,) == 999 ) ; yet(j,) = normrnd(x(j,),sqrt(sig(i-,))) ; end; end; %% Création de fonction Graphique %%% function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(valeursxx); figure(nofig) plot(xi,f); title(titre);
Annexe B. Programmes Stata et Matlab %% Création de fonction Graphique %%% function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(nofigure) plot(valeursx,valeursy); title(titre); xlabel(xlabel); ylabel(ylabel); %%%%% Exécution du PRG suivant %%% cd.. cd ResultatsBase2pourcent gibbsmar(, ResultatsBase2pourcent, moments ) disp( haha j ai fini le 2eme PRG dans duree/6 minute )
Annexe C Résultats pour différentes simulations Dans cette annexe on présente quelques résultats supplémentaires intéressants relatifs aux analyses fait au chapitre 4. Ainsi pour chaque mécanisme de données manquantes on analyse cinq bases de données différentes. les tableaux (C.), (C.2), (C.3) et (C.4) indiquent que les résultats issus des différentes bases de données sont semblables. Autrement dit, pour chaque proportion de données manquantes les cinq différentes bases donnent presque le même résultats. C. Simulations pour le mécanisme MCAR
Annexe C. Résultats pour différentes simulations 3 Tab. C. Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori et données manquantes écart-type a posteriori entre parenthèses t t2 t3 t4 µ β σ 2 % 3% 5% 4%.73 (.26).37 (.897).4 (.2833 ) 2 6% 6% 3% 6%.242 (.268).33 (.959).93 (.282) 5% 3 5% 4% 6% 7%.55 (.244).335 (.22).952 (.2565) 4 7% 4% 7% 3% -.52 (.44).35 (.44).322 (.3872) 5 5% 8% 5% 3% -.68 (.244).855 (.833).9956 (.2653) 9% 22% 6% 22% -.482 (.349).535 (.256).762 (.3223) 2 4% 24% 4% 23%.94 (.424).2545 (.27).2742 (.3694) 9% 3 22% 2% 9% 2%.298 (.352).27 (.27).59 (.34) 4 7% 2% 9% 6%.982 (.3).879 (.946).73 (.293) 5 5% 9% 5% 24%.968 (.244).362 (.2).925 (.259) 34% 49% 45% 52% -.2494 (.5).8545 (.297).685 (.3567) 2 48% 37% 43% 46%.439 (.326).262 (.2366).922 (.396) 45% 3 45% 33% 4% 36%.725 (.486).3 (.2256).367 (.423) 4 52% 45% 42% 4% -.37 (.469).7 (.2236).673 (.3926) 5 53% 53% 5% 55%.2565 (.43).8736 (.23).9853 (.33) 6% 7% 6% 66%.765 (.459).973 (.2334).9333 (.395) 2 59% 58% 67% 69%.32 (.53).887 (.248).9246 (.346) 66% 3 76% 64% 75% 6% -.36 (.59).9973 (.2262).994 (.3664) 4 6% 68% 76% 67%.436 (.638).82 (.29).2772 (.5449) 5 7% 64% 7% 7% -.9 (.732).82 (.2828).563 (.6633) Proportion Simulations
Annexe C. Résultats pour différentes simulations 4 C.2 Simulations pour le mécanisme MAR
Annexe C. Résultats pour différentes simulations 5 Tab. C.2 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori et données manquantes écart-type a posteriori entre parenthèses t t2 t3 t4 µ β σ 2 % 3% 6% 9% -.7 (.265).383 (.93).993 (.28) 2 % % 4% 7% -.356 (.42).843 (.299).3694 (.379) 5% 3 % 2% 5% 8% -.84 (.243).7986 (.74).9478 (.2695) 4 % 3% 9% 5% -.272 (.3).984 (.92).59 (.2995) 5 % 2% 5% 8%.28 (.28).526 (.973).88 (.28) % 6% 4% 22%.323 (.229).8 (.22).926 (.2665) 2 % 3% 2% 27%.956 (.29).4394 (.2234).959 (.2745) 4% 3 % % 7% 26%.34 (.38).68 (.956).9928 (.2838) 4 % % 2% 37%.429 (.429).44 (.267).2329 (.495) 5 % % 7% 2%.225 (.24).973 (.895).866 (.2454) % 2% 39% 49% -.94 (.388).835 (.998).9775 (.295) 2 % 22% 34% 47% -.94 (.388).835 (.998).9775 (.295) 27% 3 % 9% 4% 5%.2 (.264).33 (.98).8333 (.2569) 4 % 7% 39% 5%.678 (.467).8478 (.249).282 (.49) 5 % 23% 38% 46%.53 (.48).9272 (.28).2544 (.3979) % 44% 65% 79%.46 (.46).979 (.264).9964 (.3846) 2 % 48% 67% 78%.63 (.696).2298 (.2568).288 (.575) 53% 3 % 58% 83% 93% -.2948 (.684).9469 (.2358).586 (.4823) 4 % 54% 79% 9%.888 (.65).987 (.2499). (.444) 5 % 5% 77% 9%.674 (.74).9863 (.2669).3235 (.59) % 69% 89% 97% -.946 (.649).92 (.2777).2 (.4897) 2 % 69% 87% 98%.3643 (.74).24 (.2762).22 (.5776) 66% 3 % 72% 94% 99%.36 (.75).5545 (.334).637 (.5942) 4 % 8% 93% 99%.89 (.945).6375 (.44).574 (.9255) 5 % 77% 95% 99% -.536 (.2).5385 (.4422) 2.455 (.2966) Proportion Simulations
Annexe C. Résultats pour différentes simulations 6 C.3 Simulation pour le mécanisme NMAR Tab. C.3 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes NMAR dans chaque période Périodes Moments a posteriori pourcentage de Moyenne a posteriori et données manquantes écart-type a posteriori entre parenthèses t t2 t3 t4 µ β σ 2 8% 5% 4% 6%.53 (.356).9888 (.897).2258 (.343) 2 % 7% 8% 4%.935 (.2386).9839 (.82).8955 (.2386) 5% 3 7% 5% 4% 4%.89 (.224).2844 (.992).95 (.2529) 4 7% 9% 5% 5%.53 (.28).3 (.989).37 (.2778) 5 8% 4% % 4% -.26 (.43).243 (.979).2843 (.362) 6% 9% 5% 9%.277 (.296).9439 (.972).9786 (.2875) 2 22% 5% 2% 4% -.75 (.37).343 (.226).82 (.395) 9% 3 24% 23% 9% 8%.99 (.288).268 (.286).955 (.2886) 4 7% 8% 22% 9%.77 (.33).6 (.266).9632 (.283) 5 9% 4% 9% 24%.397 (.463).9824 (.953 ).2545 (.3763) 4% 36% 4% 39% -.486 (.36).34 (.233).9554 (.3345) 2 34% 43% 32% 29%.5 (.39).24 (.224).9355 (.278) 38% 3 35% 36% 34% 35%.29 (.428).486 (.297).997 (.337) 4 34% 42% 4% 44%.852 (.296).28 (.222).7983 (.237) 5 44% 39% 37% 44%.785 (.3).27 (.222).8636 (.27) 48% 53% 47% 56% -.256 (.6).2928 (.259).799 (.437) 2 54% 64% 63% 6%.392 (.532).967 (.2495).38 (.3847) 6% 3 57% 58% 49% 52%.37 (.59).28 (.2467).2295 (.475) 4 63% 6% 58% 6%.254 (.539).4 (.229).659 (.44) 5 6% 6% 58% 59%.96 (.473).78 (.2364).45 (.396) Proportion Simulations
Annexe C. Résultats pour différentes simulations 7 C.4 Simulation pour l étude des cas complets base de données MCAR Tab. C.4 Résultats via l échantillonnage de Gibbs scénario avec de différents proportions de données manquantes MCAR dans chaque période : étude des cas complets Périodes Moments a posteriori pourcentage de Moyenne a posteriori et données manquantes écart-type a posteriori entre parenthèses t t2 t3 t4 µ β σ 2 % 3% 5% 4%.644(.276).39(.24).9235(.269) 2 6% 6% 3% 6%.262(.326).372(.24).837(.367) 5% 3 5% 4% 6% 7%.545(.252).323(.268).947.2653) 4 7% 4% 7% 3% -.437(.47).2767(.2).329(.3738) 5 5% 8% 5% 3% -.239(.264).8889(.95).475.34) 9% 22% 6% 22% -.276(.39).227(.267).728(.34) 2 4% 24% 4% 23%.959(.43).2466(.23).64(.353) 9% 3 22% 2% 9% 2%.29(.327).792(.239).348(.35) 4 7% 2% 9% 6%.299(.273).9244(.253).9654(.2887) 5 5% 9% 5% 24%.984(.24).6(.239).8794(.254) 45% 33% 4% 36%.66(.558).9476(.2557).2274(.428) 2 52% 45% 42% 4% -.65(.726).493(.3358).4687(.5447) 45% 3 53% 53% 5% 55%.437(.2239).26(.3633) 2.3728(.9288) 4 48% 37% 43% 46%.667(.667).2259(.2865).263(.494) 5 34% 49% 45% 52% -.296(.694).972(.256).372(.4599) 6% 7% 6% 66%.3(.37).589(.435) 6.3554(3.554) 2 59% 58% 67% 69%.784(.597) 3.444(.84) 2.357(9.283) 66% 3 7% 64% 7% 7%.544(.983) 3.623(.72) 86.4692(7.29) 4 6% 68% 76% 67%.2492(.8764) 2.857(.69) 2.3334(47.36) 5 76% 64% 75% 6%.6462(.9843) 2.6683(.87) 394.296(2.53) Proportion Simulations