INSTITUT NATIONAL DE LA STATISTIQUE ET DES ETUDES ECONOMIQUES Série des Documents de Travail 'Méthodologie Statistique



Documents pareils
Remboursement d un emprunt par annuités constantes

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Mesure avec une règle

Les jeunes économistes

STATISTIQUE AVEC EXCEL

Editions ENI. Project Collection Référence Bureautique. Extrait

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Dirigeant de SAS : Laisser le choix du statut social

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Montage émetteur commun

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Interface OneNote 2013

Exercices d Électrocinétique

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

La Quantification du Risque Opérationnel des Institutions Bancaires

Système solaire combiné Estimation des besoins énergétiques

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Généralités sur les fonctions 1ES

INTERNET. Initiation à

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

santé Les arrêts de travail des séniors en emploi

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

1. Les enjeux de la prévision du risque de défaut de paiement

Terminal numérique TM 13 raccordé aux installations Integral 33

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Pratique de la statistique avec SPSS

Pour plus d'informations, veuillez nous contacter au ou à

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

TD 1. Statistiques à une variable.

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Paquets. Paquets nationaux 1. Paquets internationaux 11

Le Prêt Efficience Fioul

P R I S E E N M A I N R A P I D E O L I V E 4 H D

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Des solutions globales fi ables et innovantes.

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Analyse des Performances et Modélisation d un Serveur Web

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Corrigé du problème de Mathématiques générales Partie I

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Pro2030 GUIDE D UTILISATION. Français

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Prêt de groupe et sanction sociale Group lending and social fine

Page 5 TABLE DES MATIÈRES

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

hal , version 1-14 Aug 2009

Calcul de tableaux d amortissement

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Stéganographie Adaptative par Oracle (ASO)

Professionnel de santé équipé de Médiclick!

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Prise en compte des politiques de transport dans le choix des fournisseurs

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Étranglement du crédit, prêts bancaires et politique monétaire : un modèle d intermédiation financière à projets hétérogènes

ACTE DE PRÊT HYPOTHÉCAIRE

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Les méthodes numériques de la dynamique moléculaire

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Attention! Danger de blessure par injection de produit! Les groupes Airless produisent des pressions de projection extrêmement élevées

Version provisoire Ne pas citer sans l accord des auteurs

Grandeur physique, chiffres significatifs

Séparation de Sources par lissage cepstral des masques binaires

22 environnement technico-professionnel

Transcription:

INSTITUT NATIONAL DE LA STATISTIQUE ET DES ETUDES ECONOMIQUES Sére des Documents de Traval 'Méthodologe Statstque N 9702 MODELES UNIVARIES ET MODELES DE DUREE sur données ndvduelles S. LOLLIVIER Cette note s nspre pour parte d un traval réalsé au CREST en collaboraton avec C.Casès. Il a également bénéfcé des remarques de D.Verger. Toute suggeston est benvenue en vue d une verson ultéreure. Ces documents de traval ne reflètent pas la poston de l'insee et n'engagent que leurs auteurs.workng papers do not reflect the poston of INSEE but only ther authors vews. Modèles unvarés et Modèles de durée 1

RESUME Ce document est consacré à l étude des modèles dans lesquels la varable explquée est soumse à une troncature. Sous un formalsme analogue, ces modèles recouvrent deux grands domanes. Le premer s ntéresse aux modèles pour lequel la varable est observée sous forme d une système de tranches, le cas échéant sur une parte de l échantllon, le complément étant observé en clar. Un cas partculer est celu du modèle Tobt smple, dans lequel la varable est observée en clar seulement en dessous d un certan seul. On rencontre ce type de stuaton lorsque l on a souhaté smplfer la collecte de l nformaton, par exemple questonner les ndvdus sur une varable sensble sous forme d un système de tranches plutôt qu en clar. Le deuxème domane d applcaton est celu des modèles de durée. La partcularté de ces modèles est de s ntéresser à des varables postves, soumses éventuellement à un phénomène de censure lorsque la durée n est que partellement observée. Dans le texte sont décrts ces dfférents modèles, leur formalsme, et le moyen de les estmer avec le logcel SAS. On s ntéresse enfn aux bas ntroduts par la sélecton endogène, qu peuvent apparatre lorsque les durées sont observées à partr de fchers de stock. C est par exemple le cas lorsque l on réalse un suv des chômeurs à partr d un échantllon extrat d une coupe nstantanée. Dfférentes methodes sont proposées afn d obtenr des estmateurs convergents des caractérstques de la lo de la durée. MOTS CLES : Modèles de durée, modèles qualtatfs, sélecton endogène, varables censurées. Modèles unvarés et Modèles de durée 2

Introducton L 'analyse économétrque sur données ndvduelles cherche généralement à précser les dspartés selon dfférents crtères, mas sur une seule varable. En effet, on s'ntéresse prncpalement à l'étude d'un comportement unque, en néglgeant fréquemment d'éventuels phénomènes de smultanété. Ces derners se manfestent plutôt lorsque certanes varables explcatves sont suspectées d endogénété, auquel cas une nstrumentaton est nécessare pour obtenr des estmateurs convergents. Mas on se ramène le plus souvent à un modèle dans lequel une seule varable explquée apparaît. Un cas partculer très répandu de ce type de modèle est celu pour lequel la varable dépendante est contnue (consommaton, salares, patrmone,...). On utlse alors l estmateur des mondres carrés ordnares. L e problème se complque lorsque la varable dépendante n'est connue que sous forme dscrète. Il n est alors plus queston d utlser l estmateur des mondres carrés ordnares, sous pene d ntrodure des bas dans les estmatons. La soluton consste à postuler l'exstence d'une varable latente contnue, dont une dscrétsaton à partr d un ensemble de seuls permet d obtenr la varable observée. C est à cette varable latente que l on applque un modèle lnéare. Deux cas de fgure peuvent alors se produre selon la nature du phénomène observé : sot les seuls qu permettent la dscrétsaton de la varable latente sont connus, sot ls ne le sont pas. Comme on le verra, cette dstncton apparemment anodne modfe radcalement la nature du problème et les contrantes lées à l estmaton. La premère stuaton se rencontre par exemple lorsqu une varable contnue n'est observée que sous la forme de tranches (notamment pour des mpératfs de collecte, ou afn de lmter des problèmes de non réponse sur la varable contnue,...) ou encore dans le cas du modèle Tobt smple. Dans ce derner modèle, la varable est connue sot en clar s elle est en deçà d un certan seul, sot sous forme dscrète (dépassement du seul) dans le cas contrare. Une seule varable ntervent contrarement au modèle Tobt généralsé où l observaton de la varable d ntérêt est condtonné par la valeur d une autre varable. Les seuls peuvent auss être nconnus dans toute une sére de questons pour lesquels seul un classement est dsponble. Ce peut être le cas dans des modèles de chox de portefeulle (détermnaton du nombre d'actfs patrmonaux) ou de chox d'ntenstés (enquêtes d'opnon). La stuaton extrême est celle des modèles dchotomques pour lesquelles l'nformaton sur la varable latente est mnmale et se rédut à la poston par rapport à un seul nobservé. L es modèles de durées usuels appartennent à la même famlle que les précédents ; ans, les modèles exponentels, de Webull, et plus généralement les modèles à durée de ve accélérée s'nscrvent en effet dans une formalsme analogue. Seule la lo du résdu dffère. Dans les cas précédents, ls étaent généralement supposés normaux vore logstques alors que dans les modèles de durées, les famlles sont plus larges. Cette dfférence d approche tent au fat que les paramètres des varables explcatves sont dans la pratque assez peu sensbles au chox des résdus. Dans les modèles unvarés, ces paramètres consttuent les varables d ntérêt. Mas dans les modèles de durée, c est précsément le résdu qu détermne la lo du hasard de base, et par conséquent les caractérstques de la lo de la durée (espérance, exstence d un mode dans les taux de sorte). Il faut donc apporter un son tout partculer au chox de ce résdu. L orsque les observatons ne sont pas soumses à des phénomènes de censure, l'estmaton de des modèles de durée par les mondres carrés ordnares est lcte, sous réserve que l on postule un hasard de base log-normal. En présence de censure, la stuaton est analogue à celle du modèle Tobt smple pusqu'une parte des données est connue exactement et une autre au travers de l'appartenance à un ntervalle (une dem-drote en l occurrence). Seule l'optque change pusque fréquemment cet ntervalle est varable avec les ndvdus : toutes les dates de censure ne sont pas dentques. Mas cette stuaton est en fat peu fréquente pour les varables collectées par questonnare. On propose en général aux ndvdus un système de tranches dans lequel on l nvte à se placer, de sorte que la Modèles unvarés et Modèles de durée 3

varable est toujours connue sous la forme de l appartenance à un ntervalle, dont les lmtes sont le plus souvent fnes. Modèles unvarés et Modèles de durée 4

1. Un formalsme général Un formalsme général régt la plupart de ces modèles unvarés, qu l s agsse des modèles à varable latente dscrétsée ou des modèles de durée à durée de ve accélérée. On consdère un échantllon d'ndvdus dont les caractérstques observables sont notées X. On cherche à explquer les dspartés d une varable Y au moyen d un modèle lnéare : Y = Xb +σ u où u est une varable aléatore centrée et rédute de densté f et de foncton de répartton F. L échantllon est consttué de deux sous-populatons, dont l une est éventuellement vde : Dans un premer sous échantllon E 1, la varable explquée Y est observable telle quelle sous forme contnue («en clar»). Comme dans le modèle lnéare smple, la probablté que l observaton y, y + dy s écrt : appartenne à l ntervalle [ ] y Xb f σ Dans le complément E 2, seule l'appartenance de la varable à un ntervalle [ y1 y2], est connue. L une des deux lmtes de l ntervalle est éventuellement nfne. La probablté que l observaton appartenne à cet ntervalle est alors : F y Xb F y Xb 2 1 σ σ Au total, la vrasemblance de l'échantllon s'écrt : L = E 1 y f X σ b E 2 y F 2 X σ b y F 1 X σ b les fonctons de répartton valant 1 s y 2 =+ et 0 s y 1 =. A ce stade, les lmtes peuvent être connues ou non. On verra ultéreurement en quo la résoluton dffère selon l un ou l autre cas. Tous les modèles paramétrques décrts par la sute se ramèneront à ce formalsme général. Modèles unvarés et Modèles de durée 5

2. Les modèles habtuels d'analyse de la varance 2.1. Les mondres carrés ordnares Il s'agt d'un cas partculer du modèle précédent pour lesquels la varable explquée est observée dans tout l'échantllon ( E 2 est vde) et la densté est celle d'une lo normale. La maxmsaton de la vrasemblance condut à un estmateur b qu correspond à celu des mondres carrés ordnares et à un estmateur σ asymptotquement équvalent à celu des mondres carrés ordnares. C'est ce type de modèle que l'on utlse, ou une forme logarthmque, lorsque les comportements sont observés (salares, consommaton, patrmone,...). Dans SAS, l s estme asément au moyen de la PROC REG ou de la PROC GLM. 2.2. L'observaton d une varable en tranches Afn de faclter la collecte de l'nformaton, par exemple lors d'un entreten, on peut recuellr la varable Y sous une forme qualtatve. On demande à l'ndvdu de se placer dans un système de tranches préalablement défnes, dont les lmtes y, j j = 1,..., J sont les mêmes pour tous les ndvdus nterrogés. L'ensemble E 1 est alors vde et la vrasemblance du modèle s'écrt : avec la conventon que y j+ J L F y Xb F y Xb j+ 1 j = σ σ E =+ j= 1 1. I [ yj, yj 1 ] y + Le modèle se présente comme un cas partculer de celu décrt dans la premère parte, dans lequel les seuls correspondent aux lmtes de tranches. Il s'estme par maxmsaton de la vrasemblance. Tous les paramètres b de même que σ sont dentfables. Les fonctons de répartton les plus couramment utlsées sont celles des los normales ou logstques. Dans SAS, ce type de modèle s estme faclement au moyen de la PROC LIFEREG, qu, comme son nom ne l ndque pas, permet d ajuster des modèles sur varables en tranches. La syntaxe de cette procédure permet en effet de défnr pour chaque observaton une lmte basse et une lmte haute de tranche, avant d ntrodure les varables explcatves et le chox de la lo du résdu. Ans, dans le panel européen des ménages, la varable de patrmone est en tranches. La PROC LIFEREG permet d en estmer les dspartés selon l âge (sous forme lnéare par morceaux), le dplôme, le nveau socal, la strate de commune, le nombre d enfants, le type de ménage et le revenu (toutes ces varables sous forme de varables ndcatrces). On dspose d une varable lqud en tranches, à partr de laquelle on crée deux varables de lmtes de tranches patb et path. Pour les tranches extrêmes, l une seulement de ces varables est rensegnée, l autre est lassée manquante. S à la fos patb et path sont manquantes, l ndvdu n a pas répondu à la queston. Il reste à chosr la lo du résdu et donc le type de modèle (c log-normal, ce qu correspond au cas le plus fréquent.) Modèles unvarés et Modèles de durée 7

La syntaxe est alors la suvante : Data b; Set b; f lqud='01' then do;patb=.;path=20000;end; else f lqud='02' then do;patb=20000;path=50000;end; else f lqud='03' then do;patb=50000;path=100000;end; else f lqud='04' then do;patb=100000;path=300000;end; else f lqud='05' then do;patb=300000;path=500000;end; else f lqud='06' then do;patb=500000;path=1000000;end; else f lqud='07' then do;patb=1000000;path=1500000;end; else f lqud='08' then do;patb=1500000;path=2000000;end; else f lqud='09' then do;patb=2000000;path=2500000;end; else f lqud='10' then do;patb=2500000;path=3000000;end; else f lqud='11' then do;patb=3000000;path=. ;end; else do;patb=. ;path=. ;end; proc lfereg data=b;weght pondc; model (patb,path)=vagm30 vag3040 vag4050 vag5060 vag6070 vag70p dplo0 dplo2-dplo6 nvso0-nvso8 strat0-strat3 nenf1-nenf3 type1-type3 rev1 rev3-rev9 / d=lnormal; ce qu fournt les résultats suvante, nterprétables exactement comme ceux d un modèle d analyse de varance usuel estmé par la PROC REG. Modèles unvarés et Modèles de durée 8

Lfereg Procedure Data Set =WORK.B Dependent Varable=Log(PATB) Dependent Varable=Log(PATH) Weght Varable =PONDC Noncensored Values= 0 Rght Censored Values= 136 Descrpton des censures Left Censored Values= 819 Interval Censored Values=6013 Observatons wth Mssng Values= 376 Log Lkelhood for LNORMAL -13759.52234 Log-Vrasemblance Varable DF Lfereg Procedure Estmate Std Err ChSquare Pr>Ch Label/Value b σ b INTERCPT 1 9.21003925 0.162628 3207.245 0.0001 Intercept VAGM30 1 0.08798331 0.014821 35.23871 0.0001 VAG3040 1 0.06704215 0.008052 69.31701 0.0001 VAG4050 1 0.02185667 0.007934 7.589456 0.0059 VAG5060 1 0.04885419 0.008526 32.82993 0.0001 VAG6070 1-0.0065107 0.00831 0.613822 0.4334 VAG70P 1-0.0283076 0.005795 23.86381 0.0001 DIPLO0 1-0.2909669 0.052256 31.00406 0.0001 DIPLO2 1 0.06181353 0.05658 1.193566 0.2746 DIPLO3 1 0.21581094 0.066135 10.64849 0.0011 DIPLO4 1 0.24255722 0.084681 8.204528 0.0042 DIPLO5 1 0.26457413 0.07575 12.19926 0.0005 DIPLO6 1 0.15801937 0.070424 5.034757 0.0248 NIVSO0 1 0.46419766 0.146861 9.990692 0.0016 NIVSO1 1 0.82186552 0.089953 83.47802 0.0001 NIVSO2 1 0.87957675 0.080511 119.3553 0.0001 NIVSO3 1 1.05655868 0.182963 33.34727 0.0001 NIVSO4 1 1.06761488 0.16681 40.96247 0.0001 NIVSO5 1 0.56812701 0.084683 45.0086 0.0001 NIVSO6 1 0.39045112 0.070652 30.54138 0.0001 NIVSO7 1 0.22675185 0.067542 11.27076 0.0008 NIVSO8 1 0.25768671 0.064508 15.95732 0.0001 STRAT0 1 0.55078724 0.054838 100.8809 0.0001 STRAT1 1 0.39600277 0.05803 46.56832 0.0001 STRAT2 1 0.22431927 0.059726 14.10597 0.0002 STRAT3 1 0.05862081 0.05033 1.356589 0.2441 NENF1 1 0.00878707 0.04706 0.034865 0.8519 NENF2 1 0.07446941 0.054417 1.872753 0.1712 NENF3 1-0.1199515 0.066119 3.291212 0.0697 TYPE1 1 0.21331312 0.127783 2.78668 0.0951 TYPE2 1 0.55880017 0.128919 18.78807 0.0001 TYPE3 1 0.49671275 0.128143 15.02526 0.0001 REV1 1-0.1939098 0.103926 3.481356 0.0621 REV3 1 0.63109612 0.067146 88.33793 0.0001 REV4 1 0.98282676 0.071125 190.9478 0.0001 REV5 1 1.37415856 0.073341 351.0562 0.0001 REV6 1 1.73728459 0.075715 526.4764 0.0001 REV7 1 2.25948102 0.091496 609.8378 0.0001 REV8 1 2.81499348 0.120845 542.6264 0.0001 REV9 1 3.13910012 0.21504 213.0951 0.0001 SCALE 1 1.2972722 0.01246 Normal scale parameter Ecart-type du résdu Modèles unvarés et Modèles de durée 9

Remarques: lorsque la talle de l'échantllon est grande, la perte d'nformaton par rapport à l'observaton d'une varable contnue est mnme, dès lors que le nombre de tranches est suffsant (6 ou 7, vor Lollver S. et Verger D.). Cec tent au fat que l nformaton fourne par les lmtes de tranches est rche, surtout s l on tent compte du fat que les déclaratons en clar sont fréquemment arrondes. lorsque le nombre de tranches est grand (une vngtane), la dernère content en général une fable proporton des observatons. S la talle de l'échantllon est suffsante, l'utlsaton des mondres carrés ordnares sur les centres de tranches fournt alors des résultats proches de ceux obtenus par l'estmaton du maxmum de vrasemblance avec résdus normaux. En partculer, la sensblté à la conventon adoptée pour la dernère tranche, peu remple, nfluence peu les résultats. la souplesse de la syntaxe de la procédure permet de réalser un ajustement même s les tranches sont ndvdualsées, par exemple lorsque l on demande au ménage un mnorant et un majorant de son patrmone. Les varables patb et path correspondent alors au mnorant et majorant déclarés par le ménage. 2.3. Les modèles ''mxtes'' S la varable explquée est connue en clar dans un sous échantllon et dsponble sous formes de tranches sur le complément, la vrasemblance est, comme dans le cas général, composée de deux morceaux, l un correspondant à la fracton des réponses exactes et l autre à celle des réponses en tranches. Le premer morceau correspond à un produt de denstés, le second à un produt de probabltés. Cette stuaton se produt par exemple lorsque l on cherche à nterroger les ndvdus sur leurs revenus, mas en restant volontarement dscret sur les plus élevés. On demande alors le revenu de façon quanttatve en deçà d un certan seul ~ y, mas seulement une réponse qualtatve au delà du seul (du style «ou, mon revenu dépasse ~ y»). La vrasemblance se dédut asément de la formule générale et s écrt: L= y Xb f σ E1 E2 ~ F y Xb 1 σ On est alors dans la stuaton du modèle «Tobt smple». Les modèles mxtes se rencontrent également lorsque les non-réponses à la queston quanttatve sont «repêchées» au moyen d'une queston en tranches. Dans tous les cas, l'estmaton par la méthode du maxmum de vrasemblance fournt les valeurs de b et σ comme précédemment, en utlsant à nouveau la PROC LIFEREG. En effet, lorsque la réponse est connue de façon exacte, l sufft d affecter la même valeur aux deux varables décrvant l ntervalle, cette valeur étant celle déclarée par le ménage. C est ans le cas pour le panel européen des ménages, pour lequel la déclaraton de revenu mnet est repêchée par une varable en tranches mest. Modèles unvarés et Modèles de durée 10

data a; set a; rev=nput(mnet,6.); f rev ne. then do;revb=rev;revh=rev;end; else f mest='1' then do;revb=.;revh=3000;end; else f mest='2' then do;revb=3000;revh=5000;end; else f mest='3' then do;revb=5000;revh=7500;end; else f mest='4' then do;revb=7500;revh=10000;end; else f mest='5' then do;revb=10000;revh=13000;end; else f mest='6' then do;revb=13000;revh=20000;end; else f mest='7' then do;revb=20000;revh=30000;end; else f mest='8' then do;revb=30000;revh=50000;end; else f mest='9' then do;revb=60000;revh=. ;end; else do;revb=. ;revh=. ;end; proc lfereg data=a outest=est;weght pondc; model (revb,revh)=vagm30 vag3040 vag4050 vag5060 vag6070 vag70p dplo0 dplo2-dplo6 nvso0-nvso8 strat0-strat3 nenf1-nenf3 type1-type3 / d=lnormal; L estmaton fournt les résultats suvants, en tous ponts analogues à ceux obtenus pour un ajustement classque pour lequel toutes la varable serat connue pour tous les ndvdus. Modèles unvarés et Modèles de durée 11

Lfereg Procedure Data Set =WORK.A Dependent Varable=Log(REVB) Dependent Varable=Log(REVH) Weght Varable =PONDC Noncensored Values= 5991 Rght Censored Values= 16 Left Censored Values= 41 Interval Censored Values=1100 Observatons wth Mssng Values= 196 Log Lkelhood for LNORMAL -5432.952055 Lfereg Procedure Varable DF Estmate Std Err ChSquare Pr>Ch Label/Value INTERCPT 1 8.94724012 0.049193 33080.52 0.0001 Intercept VAGM30 1 0.03804874 0.004578 69.08885 0.0001 VAG3040 1 0.00657975 0.002631 6.252358 0.0124 VAG4050 1 0.01301212 0.002616 24.75031 0.0001 VAG5060 1 0.00061276 0.002806 0.047681 0.8271 VAG6070 1 0.00273921 0.002708 1.023088 0.3118 VAG70P 1-0.0068922 0.001833 14.1425 0.0002 DIPLO0 1-0.0875714 0.016836 27.05645 0.0001 DIPLO2 1 0.10708727 0.018532 33.39155 0.0001 DIPLO3 1 0.20453983 0.021544 90.13374 0.0001 DIPLO4 1 0.23182775 0.027617 70.46389 0.0001 DIPLO5 1 0.25263033 0.024452 106.7421 0.0001 DIPLO6 1 0.3501983 0.022547 241.2404 0.0001 NIVSO0 1-0.2850696 0.044571 40.90659 0.0001 NIVSO1 1-0.1791728 0.029059 38.01637 0.0001 NIVSO2 1 0.05279525 0.026245 4.046693 0.0443 NIVSO3 1 0.64408415 0.057812 124.1226 0.0001 NIVSO4 1 0.64762405 0.053783 144.9979 0.0001 NIVSO5 1 0.54461179 0.026302 428.752 0.0001 NIVSO6 1 0.29294258 0.022414 170.811 0.0001 NIVSO7 1 0.1032311 0.021524 23.0027 0.0001 NIVSO8 1 0.08905539 0.02055 18.77956 0.0001 STRAT0 1-0.1965433 0.017722 123.0025 0.0001 STRAT1 1-0.1644878 0.018783 76.69383 0.0001 STRAT2 1-0.1569688 0.019333 65.92187 0.0001 STRAT3 1-0.1617025 0.016225 99.33007 0.0001 NENF1 1 0.1720999 0.015399 124.9075 0.0001 NENF2 1 0.1970958 0.017823 122.288 0.0001 NENF3 1 0.2458074 0.021398 131.9591 0.0001 TYPE1 1-0.4452637 0.04063 120.1009 0.0001 TYPE2 1 0.24221608 0.041433 34.17562 0.0001 TYPE3 1-0.0047246 0.041249 0.013119 0.9088 SCALE 1 0.43984377 0.003737 Normal scale parameter Modèles unvarés et Modèles de durée 12

3. Imputatons de la varable latente 3.1 Le cas des réponses en tranches Une fos l estmaton réalsée, on peut tenter de reconsttuer la varable latente. En effet, seule une varable quanttatve permet de fournr des caractérstques de moyenne, de moments, de dsperson ou de concentraton. La premère méthode qu vent à l esprt consste à mputer à chaque observaton le centre de la tranche (obtenu par une moyenne arthmétque ou géométrque). Cette mputaton est par nature sensble à la conventon adoptée pour la dernère tranche. Cependant, en présence de beaucoup de tranches, et lorsque la dernère est peu remple, cette méthode permet de calculer des moyennes de façon acceptable, que ce sot sur l ensemble ou sur des grosses strates. Néanmons, les caractérstques de concentraton sont mal approxmées. Cec vent du fat que la varablté nterne aux tranches n est pas resttuée, et donc que celle de la varable ans mputée est nsuffsante. On préfère procéder par smulaton, c est à dre par trage aléatore dans la lo théorque des résdus. La technque consste à utlser la prédcton Xb, pus à trer des résdus u * dans la lo théorque jusqu à ce que la varable smulée Xb + σ u * sot dans la bonne tranche. En cas de non réponse à la queston en tranches, on retent le premer trage. Cette technque donne de bons résultats pour reconsttuer l essentel de la dstrbuton de la varable latente (vor Lollver S., Verger D.). Avec les logcels dsponbles, elle est facle à mettre en oeuvre. Elle attent toutefos ses lmtes, surtout dans les modèles en logarthme, lorsqu l s agt d mputer des valeurs correspondant à la dernère tranche, qu n est pas bornée supéreurement. Des trages de résdus élevés condusent à des valeurs parfos élevées de la varable smulée. Le caractère atypque de ces trages est encore renforcé par l exponentaton. Même s de telles valeurs ne sont pas nécessarement ncompatbles avec ce que l on sat par alleurs des valeurs extrêmes de la varable, leur mputaton à des ndvdus «représentatfs» ultéreurement extrapolés en foncton de leur taux de sondage pose problème. On peut ans aboutr à une concentraton excessve de la varable, même s les prncpaux fractles sont valables. Aucune soluton n est satsfasante. Une premère consste à borner la dernère tranche avec une nformaton extéreure. Elle évte les trages trop excessfs, mas ne règle pas le problème de leur représentatvté. On pourrat à la lmte duplquer les ndvdus au prorata de leur pondératon, mas cette méthode alourdrat fortement l explotaton. Dans la pratque, un réglage manuel de ces trages extrêmes est souvent nécessare. 3.2 Le cas des réponses mxtes (en contnu et en tranches) Dans la mesure où, dans la pratque, la quas-totalté de l échantllon fournt une réponse en contnu, la tentaton est encore plus forte d mputer une valeur pour les observatons comportant une réponse en tranches, ou une non réponse. D alleurs, une abondante lttérature est dsponble sur les technques d mputaton des non réponses lorsque l échantllon ne comporte que des réponses en clar (pas de queston de rattrapage en tranches). Ces technques, couramment employées, sont fondées sot sur une modélsaton, sot sur l mputaton drecte d une varable déjà observée dans l échantllon («hot deck» total ou stratfé), sot sur un mélange des deux (vor N.Caron, document méthodologque). On utlse c des méthodes analogues, mas qu prennent en compte le fat que certanes observatons sont connues sous la forme d appartenance à des tranches. L mputaton dot alors respecter cette nformaton supplémentare. Un premer moyen pour réalser les mputatons consste à procéder comme dans la secton précédente, à savor smuler un résdu dans la lo condtonnelle, celu-c étant ajouté à la valeur centrale. On peut également utlser une seconde méthode, relatvement vosne, mas qu s nspre des procédures de «hot deck» en utlsant davantage l nformaton contenue dans l échantllon. En effet, l ensemble des observatons pour lesquelles la varable est connue en clar fournt un ensemble de résdus «observés». Pour mputer la varable Modèles unvarés et Modèles de durée 13

latente, on ajoute à la valeur centrale un aléa tré au sort dans cet ensemble, qu respecte l appartenance de la varable latente à la tranche. Dans la pratque, on commence par mélanger par randomsaton les résdus observés et l on ntalse à zéro un compteur de résdus. On consdère ensute les observatons où la varable dot être mputée. S le premer résdu convent pour la premère observaton, l est retenu, et l on ncrémente de un le compteur. Snon, on fat défler le fcher des résdus en ncrémentant le compteur, jusqu à obtenr un résdu adéquat. On passe ensute à l observaton suvante sans remettre le compteur à zéro. S les mputatons ne portaent que sur des non réponses totales (pas de tranches), cette méthode réalse un trage avec remse de n résdus parm N. Elle présente l avantage de n ntrodure qu une très fable proporton d aléa tout en reconsttuant la dstrbuton de la varable latente. Outre ces proprétés théorques plus performantes au vu des technques de redressement, cette méthode rédut fréquemment dans la pratque le nombre de trages atypques dans la dernère tranche, ce qu lmte le nombre de réglages manuels, toujours nsatsfasants. Elle est néanmons un peu plus complexe à mettre en oeuvre que la méthode fondée sur les résdus smulés. Modèles unvarés et Modèles de durée 14

4. Les modèles à seuls nconnus Même s ls ont été peu évoqués jusqu c, la plupart des modèles à réponse qualtatve rencontrés dans la lttérature théorque et emprque concernent la stuaton dans laquelle les lmtes des tranches ne soent pas drectement observables. Ce type de modèle est en effet fréquent lorsqu'on recherche les dspartés entre ndvdus d'un nombre de bens (durables, fnancers...) ou lorsque le questonnare comporte des questons d'opnon. La varable observée est par nature qualtatve, et non quanttatve et dscrétsée comme dans les cas précédents. En revanche, la varable latente est plus hypothétque et mons «naturelle» que celle obtenue par dscrétsaton de la varable contnue sous jacente. Il s agt de propenson à détenr tel ou tel ben, de penchant à dversfer, ou encore de moral plus ou mons bon. En toute généralté, le problème est analogue, pusque la vrasemblance a toujours la forme décrte en 2.2. En revanche, et la nuance est de talle, les seuls y j sont nconnus et dovent par conséquent être estmés dans la procédure. Il se pose alors un problème d'dentfcaton ; en effet, les paramètres sont les y j, b et σ. Ceux-c n'ntervennent dans la vrasemblance que sous la forme y j σ et b σ. De ce fat, toute multplcaton des paramètres par un même scalare condut à la même valeur de la vrasemblance. On le vot, la non observaton des seuls modfe radcalement la nature du problème, alors même que le formalsme est vosn. L nformaton dsponble est appauvre dans des proportons consdérables. Dans SAS, l faut utlser la PROC LOGISTIC pour estmer ce type de modèle à seuls nconnus (vor le document n 9606 de la collecton «Méthodologe Statstque» pour une présentaton approfonde de ces modèles). On contrant en général σ à être égal à 1 pour rendre le modèle dentfable. Mas les paramètres estmés b et les seuls estmés y j n'ont plus une nterprétaton absolue, et fournssent seulement une échelle d ntensté du phénomène explqué (on a plus ou mons enve de fare telle ou telle chose). Le cas lmte est celu du modèle à un seul seul. Dans la vrasemblance, ce seul et la constante ntervennent de la même façon. Etant ndscernables l un de l autre dans l estmaton, l est nécessare d ntrodure un contrante pour rendre le modèle dentfable. Dans la pratque, le seul est fréquemment contrant à zéro. La vrasemblance s'écrt alors: en ayant posé c = b σ. ( 1 ) y L = F( X c) F( X c) E 1 > 0 1 y < 0 S F est la foncton cumulatve de la lo normale, le modèle est un probt dchotomque. S F est la foncton cumulatve de la lo logstque, l s'agt d'un logt dchotomque. Modèles unvarés et Modèles de durée 15

5. Les modèles de durée A pror, on pourrat trater une varable de durée comme n'mporte quelle varable aléatore quanttatve contnue, à cec près qu'elle prend nécessarement une valeur réelle postve. Ce n'est pas une caractérstque très dscrmnante, pusqu'on la retrouve dans d'autres thèmes de l'analyse économque, comme par exemple celle des salares. La référence habtuelle à la lo normale nécesste alors une transformaton sur les données, en en prenant par exemple le logarthme. Ans, une des los de base en économétre des salares est la lo log-normale, qu revent à fare une hypothèse de normalté sur le log de la varable étudée. Cette dstrbuton est, on le verra, beaucoup mons centrale en économétre des durées. La partcularté des données de durées provent du fat qu'elles peuvent s'nterpréter faclement comme résultant d'un processus stochastque sous-jacent, c est à dre d un chemnement aléatore qu fat passer un ndvdu entre dfférents états. Ce processus rend ans compte des dates de changements d'état de l'ndvdu (ve et mort, emplo et chômage, être parent d'un enfant ou de deux enfants...). La durée d'un état est alors smplement l'écart entre date de début et date de fn d'un état. Les caractérstques de ce processus condusent alors à défnr de grandes classes de los de probablté pour les durées. De plus, certans outls probablstes partculers, comme la foncton de surve ou la foncton de hasard, prendront une place plus détermnante dans l'analyse que l'habtuelle densté de probablté, car ls ont l'avantage de s'nterpréter très smplement. 5.1. Rappels de termnologe La varable de durée T présente la partcularté de prendre nécessarement des valeurs réelles postves. En plus de la densté f et de la foncton de répartton F, on ntrodut habtuellement deux autres notatons : La foncton de surve St () correspond à la probablté que la durée sot plus grande que t, sot : St () = f( udu ) = 1 Ft () t La foncton de hasard ht ()fournt la probablté que la durée sot comprse entre t et t+ dt sachant qu'elle est plus grande que t : ht () = f () t St () ht () représente le taux nstantané de sorte de l'état que l'on observe. S l'on s'ntéresse par exemple à la durée de ve des ndvdus, l représente le rsque de décès à un âge donné sachant que l'on a déjà survécu jusqu'à cet âge. Enfn, la durée moyenne restante est l'espérance de la durée qu reste sachant que l'on a déjà attent t : rt () = ET ( t/ T> t) C'est par exemple l'espérance de ve à un âge donné, dans l exemple précédent. Chacune de ces tros fonctons caractérse la lo d'une varable de durée, au même ttre que la densté de probablté. La plus utlsée est la foncton de hasard. C'est en général cette foncton que Modèles unvarés et Modèles de durée 17

chercheront à estmer les modèles économétrques les plus smples. Elle permet de caractérser la probablté mmédate de changer d'état en t. Il exste des relatons smples entre densté, surve, hasard et durée moyenne restante. Ans, on peut asément montrer que : f () t d ht () = = log St ( ) St () dt t S( t) = exp h( u) du 0 0 ET ( ) = Sudu ( ) Selon les cas étudés, les fonctons de hasard, ou taux de sorte nstantanés, peuvent avor des formes très dfférentes. S l'on consdère la durée de ve des hommes en France, le hasard représente smplement le taux de mortalté. Sa forme est en U, avec deux pettes «bosses», l'une vers 18-22 ans, l'autre vers 40 ans. La parte décrossante aux tous premers âges de la ve s'explque par la fn de la pérode de mortalté néo-natale et nfantle, le premer pc par les accdents de la crculaton, le second par les malades cardo-vasculares. Enfn, le taux de mortalté recommence à augmenter régulèrement aux âges élevés. La représentaton d'un tel type de foncton par une lo paramétrée smple n'est, a pror, pas évdente. Pour d'autres phénomènes étudés, comme la durée de chômage, cette modélsaton peut être plus smple. Ans les fonctons de hasard utlsées dans ce cas sont parfos supposées crossantes, pus décrossantes (en rason, par exemple, d'une ntensté varable de recherche d'emplo), ou ben smplement décrossantes (en rason, par exemple, d'une rétcence des employeurs à embaucher des chômeurs de longue durée). 5.2. Modèles à durée de ve accélérée Ces modèles se rattachent drectement au formalsme développé dans la premère secton. Ils postulent l'exstence d'une lo de référence de la durée T 0. Pour un ndvdu dont les caractérstques observables sont X, la durée s'écrt : La plupart du temps, on chost la forme : et donc : T = T 0 ϕ( X, b) ϕ( Xb, ) = exp( Xb) T = T 0 exp( Xb) Tout se passe comme s l'effet des varables observables état d'allonger ou de rétrécr l'unté du temps. L ntérêt prncpal de ces modèles est en effet de permettre d nterpréter l effet des varables explcatves comme un changement d échelle de l axe du temps. L égalté précédente condut à une écrture sous la forme : Modèles unvarés et Modèles de durée 18

log( T) = Xb + log( T0 ) où T 0 est une varable aléatore dont on contrant généralement l'espérance à être égale à 1. De ce fat, la varable aléatore en logarthme est centrée. Le modèle de durée est alors assmlable à un modèle lnéare. Dans le cas très partculer où T 0 sut une lo log normale, et que toutes les durées sont observables, le modèle de durée peut s'estmer par les mondres carrés ordnares au moyen de la PROC REG. Une des partculartés les plus fréquentes des modèles de durée est qu'elles sont rarement parfatement observées. La pérode d'observaton est en effet souvent trop courte pour mesurer les durées les plus longues. On parle alors d'observatons censurées. Par exemple, s on sut un échantllon de chômeurs, certans auront qutté cet état à la date de la fn d'observaton, d'autres y seront demeurés et la durée totale restera nconnue. En présence de censure, l'ajustement par un modèle lnéare n'est pas envsageable, même s la durée de base sut une lo log-normale. S l'on note g et G la densté et la foncton de répartton de la varable aléatore log( T 0 ), la vrasemblance s'écrt: L = E 1 g(logt X b) ( 1 G(logtˆ X b) ) où E 1 est l'échantllon non censuré et E 2 l'échantllon censuré avec t égal à la durée censurée. E 2 Ce modèle à nouveau est équvalent à celu décrt dans la premère parte, avec un seul t pour les durées censurées. L estmaton ne peut s opérer qu au moyen de la PROC LIFEREG. Lorsque le seul est le même pour tous, et sous l hypothèse de hasard log-normal, l estmaton correspond rgoureusement à celle d un modèle Tobt smple. En général, le seul est varable selon les ndvdus, et le hasard de base dfférent. La procédure d'estmaton est vosne, et s effectue asément, toujours grâce à la PROC LIFEREG. Dans le cas de la lo log normale, de foncton de répartton Φ,la foncton de surve, la densté et le hasard s écrvent : t Xb St () ( log( ) = 1 Φ ) σ t Xb ( log( ) Φ ) f() t = σ σt t Xb ( log( ) Φ ) ht () = σ t Xb t( ( log( ) σ 1 Φ )) σ La durée de ve a alors l espérance d une lo log normale : ET ( / X) = exp( Xb+σ 2 2 ) Outre la lo log normale, la lo la plus utlsée pour les modèles à durée de ve accélérée est la lo log logstque. Toutes deux permettent de représenter des hasards présentant un mode (fonctons crossantes pus décrossantes). La foncton de surve, la densté et le hasard s écrvent : Modèles unvarés et Modèles de durée 19

α St ( ) = ( 1+ t exp( Xb)) αt α 1 exp( Xb) f() t = α ( 1+ t exp( Xb)) αt α 1 exp( Xb) ht () = + α 1 t exp( Xb) La foncton de répartton, complément à 1 de la foncton de surve, peut également s écrre : 1 exp[ α(log( t) Xb/ α)] Ft () = 1+ exp[ α(log( t) Xb/ α)] 2 2 ce qu sgnfe que la varable log( T ) sut une lo logstque de varance π 3 α et d espérance Xb α. On est ben dans le cadre des modèles à durée de ve accélérée. Lorsque α < 1, le hasard est monotone décrossant de l nfn à zéro. S α = 1, l est monotone décrossant de exp( Xb ) à zéro. Enfn, s α > 1, le hasard présente un mode pour / ( α 1) 1 t = exp( Xb) et est nul en zéro et à l nfn. L espérance de la durée s écrt : ET ( / X) = exp( Xb) Β( 1+ 1/ α, 1 1/ α ) où Βcorrespond à la lo BETA. La PROC LIFEREG permet d estmer ces modèles log logstques. 5.3. Les modèles à hasard proportonnel La forme générale du hasard pour ce type de modèle s écrt : α ht () = ϕ( Xbh, ) 0 () t h t 0( ) est appelé hasard de base. Il correspond au hasard de la populaton de référence. L effet des varables explcatves consste à multpler par un facteur d échelle ce hasard de base. Le plus souvent, on adopte la conventon : ϕ( Xb, ) = exp( Xb) ce qu revent à postuler un facteur d échelle multplcatf. Parm les modèles à hasard proportonnel, on peut cter: la lo exponentelle pour laquelle le hasard de base est constant. Cela sgnfe qu à n mporte quelle date, la probablté de changer d état est la même. C est la rason pour laquelle on dt fréquemment du modèle exponentel qu l est «sans mémore» (le processus sous-jacent est markoven). Ses caractérstques sont les suvantes: ht ( ) = exp( Xb) St () = exp texp( Xb) 2 [ ] Modèles unvarés et Modèles de durée 20

f ( t) = exp( Xb)exp t exp( Xb) et l espérance de la durée s écrt : ET ( / X) = exp( Xb) Notons que la foncton de répartton peut auss s écrre : [ ] Ft ( ) = 1 exp exp(log( t) + Xb) de sorte que le modèle exponentel peut également s nterpréter comme un modèle à durée de ve accéléré du type de ceux décrts dans la parte précédente. Dans SAS, la PROC LIFEREG permet d estmer les modèles exponentels. la lo de Webull ntrodut un paramètre α tel que T α 0 suve une lo exponentelle. Les caractérstques de cette lo sont alors : ht ( ) = αt α 1 exp( Xb) St () = exp t α exp( Xb) [ ] f( t) = αt α 1 exp( Xb)exp t α exp( Xb) ET ( / X) = exp( Xb) Γ( 1+ 1/ α ) où Γ correspond à la lo GAMMA Le hasard est monotone, crossant s α > 1, décrossant s α < 1 et constant s α = 1. Notons à nouveau que la foncton de répartton peut s écrre : Xb Ft ( ) = 1 exp exp α(log( t) + ) α de sorte que le modèle de Webull peut encore s nterpréter comme un modèle à durée de ve accéléré, que l on peut estmer au moyen de la PROC LIFEREG. les modèles à hasard constant par morceaux Les modèles à hasard constant par morceaux consttuent une généralsaton du modèle exponentel, lu apportant davantage de souplesse. En effet, dans ces modèles, le hasard est constant (condtonnellement aux varables explcatves) au cours d ntervalles de durée, dont le nombre et la longueur sont lassés à l apprécaton de l utlsateur. Plus précsément, le hasard s écrt θ 1 θ 2 ht () =.. θ M 0 t < 1 1 t < 2 M 1 t < avec θ j = µ j exp( Xb). On a chos c des ntervalles de durées égaux (le mos, le trmestre,...). Un formalsme plus général est dsponble dans Lancaster [1990]. Dans chacun des ntervalles, le modèle est exponentel condtonnellement aux varables explcatves. L espérance de la durée est alors : Modèles unvarés et Modèles de durée 21

M 1 1 M 1 1 1 EY ( / X) = ( 1 exp( θ))exp( θ j) + exp( θ j ) θ θ = 1 SAS ne propose pas de procédure d estmaton de ce type de modèles. Ils présentent néanmons l avantage de peu contrandre la forme du hasard de base, et de se rapprocher des modèles non paramétrques ou sem-paramétrques (vor nfra). j= 1 5.4 L utlsaton de la Proc Lfereg pour les modèles de durée Cette procédure estme des modèles à durée de ve accélérée (ou s y ramenant) sous la forme : Y = Xβ + σ U où exp( U ) sut une lo connue (exponentelle, logstque, normale). Elle fournt en sorte des estmateurs de β et σ. Il reste à en dédure les estmateurs de b et α, ntroduts comme paramètres dans les modèles décrts précédemment. On les retrouve sot drectement, sot par règle de tros, en procédant de la façon suvante : pour la foncton log-normale : on a drectement les bons estmateurs. pour la foncton log-logstque avec : t Xb Ft () ( log( ) = Φ ) σ exp[ α(log( t) Xb/ α)] Ft () = 1+ exp[ α(log( t) Xb/ α)] on retrouve les estmateurs requs au moyen de la transformaton α = 1 / σ et b = β / σ. dans le cas du modèle exponentel, [ ] Ft ( ) = 1 exp exp(log( t) + Xb) on remarque que log( T) + Xb= U, où exp( U ) sut une lo exponentelle d'espérance 1. On obtent b = β, en contragnant σ = 1. enfn, dans le cas du modèle de Webull, Xb Ft ( ) = 1 exp exp α(log( t) + ) α Xb U on a de même log( T) + =, où exp( U ) sut à nouveau une lo exponentelle d'espérance 1. Par α α conséquent : α = 1 / σ et b = β / σ. M j= 1 Modèles unvarés et Modèles de durée 22

5.5 Mse en oeuvre smplfée (prncpales optons). PROC LIFEREG < Optons 1 > ; MODEL response = ndependants < Optons 2 > ; Instructons oblgatores By varables ; CLASS varables ; OUTPUT < Optons 3 > ; Instructons facultatves WEIGHT varables ; Optons 1 : DATA = OUTEST = data permet de récupérer les estmateurs dans data. COVOUT ajoute la matrce de varance-covarance dans OUTEST. Optons 2 : * Censor (lst) précse l'exstence d'une censure à drote (vor LIFETEST supra). D = précse la dstrbuton D=EXPONENTIAL modèle exponentel D=WEIBULL Webull D=LLOGISTIC log logstque D=LNORMAL log normal Optons 3 : OUT = data Keyword = name précse le nom du data de sorte. avec CENSORED = varable ndcatrce d'une censure CDF = cumulatve XBETA = Xβ. CLASS joue le même rôle que dans la PROC GLM. 5.4 Exemples d estmatons Ceux-c sont trés du calendrer mensuel de l enquête annuelle sur l emplo. On se lmte aux femmes (s= 2 ). On dspose d une varable de durée de chômage duree exprmée en mos ; celle-c est censurée s la varable cens vaut 1. On ntrodut la classe d âge age comme seule varable explcatve. Tros varantes sont proposées, avec le modèle log-normal, le modèle log-logstque et le modèle de Webull. Dans les tros cas, la lecture drecte des coeffcents montre que la durée de chômage augmente avec l âge, dans des proportons assez vosnes (s l on adopte la même normalsaton), ce qu montre que l estmaton des coeffcents est assez peu sensble au chox du résdu. En revanche, les tros estmatons montrent une forme du hasard assez dfférente, due à une sous représentaton des durées courtes dans l échantllon. Le modèle de Webull conclue à un hasard un peu décrossant, alors que le modèle log-logstque présente un mode pour les durées courtes. Seul un examen mnuteux au moyen des modèles non paramétrques ou sem-paramétrques permet d en comprendre la rason, à savor un taux de sorte mnoré pour les durées courtes. Modèles unvarés et Modèles de durée 23

La syntaxe des tros estmatons est la suvante : proc lfereg data=a(where=(s='2')); class age; model duree*cens(1)=age / d=lnormal; proc lfereg data=a(where=(s='2')); class age ; model duree*cens(1)=age / d=llogstc; proc lfereg data=a(where=(s='2')); class age ; model duree*cens(1)=age / d=webull; Modèles unvarés et Modèles de durée 24

Lfereg Procedure Class Level Informaton Class Levels Values AGE 8 1 2 3 4 5 6 7 8 Number of observatons used = 1879 Lfereg Procedure Data Set =WORK.A Dependent Varable=Log(DUREE) Censorng Varable=CENS Censorng Value(s)= 1 Noncensored Values= 1265 Rght Censored Values= 614 Left Censored Values= 0 Interval Censored Values= 0 Log Lkelhood for LNORMAL -2450.416708 Modèle Log Normal Lfereg Procedure Varable DF Estmate Std Err ChSquare Pr>Ch Label/Value INTERCPT 1 2.58123764 0.150097 295.7427 0.0001 Intercept AGE 7 56.02357 0.0001 1-0.7845203 0.161513 23.59369 0.0001 1 1-0.8038823 0.162098 24.59415 0.0001 2 1-0.7045329 0.166983 17.80166 0.0001 3 1-0.6082512 0.171072 12.64177 0.0004 4 1-0.789089 0.17224 20.98867 0.0001 5 1-0.4620755 0.19372 5.689512 0.0171 6 1 0.05443582 0.213643 0.064922 0.7989 7 0 0 0.. 8 Référence par défaut SCALE 1 1.19444704 0.024557 Normal scale parameter Modèles unvarés et Modèles de durée 25

Lfereg Procedure Class Level Informaton Class Levels Values AGE 8 1 2 3 4 5 6 7 8 Number of observatons used = 1879 Lfereg Procedure Data Set =WORK.A Dependent Varable=Log(DUREE) Censorng Varable=CENS Censorng Value(s)= 1 Noncensored Values= 1265 Rght Censored Values= 614 Left Censored Values= 0 Interval Censored Values= 0 Log Lkelhood for LLOGISTC -2481.700714 Modèle Log Logstque Lfereg Procedure Varable DF Estmate Std Err ChSquare Pr>Ch Label/Value INTERCPT 1 2.69329634 0.170331 250.0245 0.0001 Intercept AGE 7 56.75212 0.0001 1-0.9097342 0.180601 25.37386 0.0001 1 Paramètres à 1-0.9306772 0.181786 26.21072 0.0001 2 transformer 1-0.8451554 0.187263 20.36906 0.0001 3 1-0.741975 0.189708 15.29711 0.0001 4 1-0.9344953 0.191997 23.69007 0.0001 5 1-0.5766439 0.213003 7.328965 0.0068 6 1-0.0195009 0.240015 0.006601 0.9352 7 0 0 0.. 8 SCALE 1 0.71289653 0.016332 Logstc scale parameter α = 1. 408 Modèles unvarés et Modèles de durée 26

Lfereg Procedure Class Level Informaton Class Levels Values AGE 8 1 2 3 4 5 6 7 8 Number of observatons used = 1879 Lfereg Procedure Data Set =WORK.A Dependent Varable=Log(DUREE) Censorng Varable=CENS Censorng Value(s)= 1 Noncensored Values= 1265 Rght Censored Values= 614 Left Censored Values= 0 Interval Censored Values= 0 Log Lkelhood for WEIBULL -2545.470743 Modèle de Webull n est pas égal à la log-vrasemblance décrte c (vor manuel SAS) Lfereg Procedure Varable DF Estmate Std Err ChSquare Pr>Ch Label/Value INTERCPT 1 3.33821043 0.17412 367.5614 0.0001 Intercept -3.296 AGE 7 77.01698 0.0001 1-1.1321535 0.183147 38.21292 0.0001 1 1.118 1-1.0666168 0.183876 33.64871 0.0001 2 1.024 1-0.872119 0.188409 21.42638 0.0001 3 0.861 1-0.8870589 0.191704 21.41118 0.0001 4 0.876 1-0.9954031 0.192491 26.74103 0.0001 5 0.983 1-0.7022714 0.211963 10.97717 0.0009 6 0.693 1-0.0285197 0.247474 0.013281 0.9083 7 0.028 0 0 0.. 8 SCALE 1 1.01271776 0.022172 Extreme value scale parameter α = 0. 987 Modèles unvarés et Modèles de durée 27

6. Un estmateur non paramétrque des modèles de durée : Kaplan-Meer 6.1 Présentaton générale L'estmateur de Kaplan Meer est très smple à calculer, et généralse la noton de foncton de répartton emprque en tenant compte des données censurées à drote. C'est pourquo l sert généralement de base à toute étude sur les durées. Il peut en effet guder le chox d'une forme paramétrque partculère. Rappelons qu'l dot être calculé pour des populatons homogènes. Pour comprendre le prncpe du calcul, plaçons-nous dans le cas où l n'y a pas de censure. Alors la surve en t peut être smplement estmée par : St () = 1 Ft () où Ft () = n/ N où n t est nombre de durées nféreures à t et N le nombre total d'observatons. Dans SAS, cette foncton de répartton emprque est smplement calculée par une PROC FREQ. On peut remarquer que la foncton de surve estmée peut s'écrre smplement comme un produt de probabltés condtonnelles. Plaçons nous dans le cas smple sans censure et où on n'observe qu'une seule fos chaque valeur de durée, que l'on notera dans l'ordre crossant t 0, t 1,..., t N, avec t 0 = 0. On a alors : S() t = P( T > t) = P( T > t / T > t ) = ( q ) 1 1 t t j< où q j est la probablté nstantanée de sortr en t j (l'équvalent de la foncton de hasard en temps dscret). Cette probablté q j vaut alors 1/( N j+ 1), pusqu'on observe une sorte en j parm les N ( j 1 ) personnes qu survvent juste après t j 1. Ces N ( j 1 ) personnes sont appelées, par référence aux données médcales, l'ensemble à rsque en t j. S mantenant certanes durées sont censurées à drote, on va reprendre la même dée, mas en adaptant la noton d'ensemble à rsque en t j. Il sera cette fos défn comme le nombre r j d'observatons n sortes, n censurées avant t j. Alors l'estmateur de q j s'écrra 1/r j, et la surve sera estmée par ( 1 1/ rj ). j< Dans le cas le plus général où l'on peut observer un nombre d j supéreur à 1 de sortes à chaque date j, l'estmateur de Kaplan-Meer pour le hasard à la date j sera dj / rj, et celu de la surve s écrra : St ( j ) = ( 1 d j / r j ) tj < t Notons également que l'on peut l'utlser pour estmer une durée moyenne : pusque l'espérance de la durée peut généralement s'écrre: ET ( ) = uf( udu ) = Sudu ( ) 0 0 t j Modèles unvarés et Modèles de durée 28

on peut utlser l'estmateur suvant : I 1 = 1 T = ( t t ) S ( t ), I étant le nombre de durées dfférentes observées. La durée moyenne ne sera donc la moyenne emprque que s'l n'y a pas de censure. Ces estmateurs de la foncton de surve et du hasard sont programmés dans la PROC LIFETEST (vor plus lon pour le détal de sa mse en oeuvre). L'estmateur de Kaplan Meer a de bonnes proprétés : l est en effet basé à dstance fne, mas convergent et de lo asymptotque connue (Normale). Il est donc possble d'utlser les tests asymptotques habtuels. Il est également possble d'utlser des méthodes non paramétrques pour tester l'homogénété de deux sous-populatons. On a vu plus haut que cette homogénété est essentelle pour nterpréter correctement la forme du hasard. SAS fournt, dans la procédure LIFETEST, deux types de tests non paramétrques. Le premer est un test de rangs généralsant le test de Wlcoxon à des données censurées. Il revent à ordonner l'ensemble des durées T des deux échantllons comparés, en conservant, de plus, l'nformaton sur la censure ( D = 1 s la sorte est observée) et l'échantllon d'orgne ( Z = 1 s la durée vent de l'échantllon 1). On compare alors deux à deux les durées ( T, Tj ) et on attrbue un score U j à toutes ces pares : Uj = 1 s T > Tj et Dj = 1 Uj = 1 s T < Tj et Dj = 1 Uj = 0 snon On construt alors la statstque de rang U = U j Z j. Cela revent à sommer, pour les durées de l'échantllon 1, les scores des pares non censurées. On peut montrer que la lo de U est asymptotquement normale, de varance connue, sous l'hypothèse nulle du test (homogénété des deux échantllons, sot même lo de durée (en fat, même lo pour le couple ( T, D ). On rejette l hypothèse nulle lorsque le rapport U/ V0 ( U) dépasse 1,96. On montre également que la statstque de test U s'écrt de façon plus générale : 1 r ( t ) U = r( t) d, rt ( ) où les d sont les sortes non censurées en t, et r 1 ( t )l'ensemble à rsque de l'échantllon 1. Modèles unvarés et Modèles de durée 29

Le second test, dt du «log-rank», revent à comparer les probabltés de sorte des deux échantllons à chaque date t. La statstque de test est assez proche de la précédente, pusqu'elle s'écrt : r t V = 1 ( ) d rt ( ) Cette statstque est également asymptotquement normale sous H 0. Ces deux types de tests sont effectués dans la PROC LIFETEST. Ils permettent de tester l'homogénété globale entre strates, mas auss la sgnfcatvté d'exogènes partculères. Dans le premer cas, on construt un vecteur Ψ de statstques de rangs dont les composantes sont défnes par : Ψ= j UZ j k où Z k est une varable ndcatrce d'appartenance à la strate k. La statstque globale utlsée pour le premer type d'hypothèse est Ψ ' V Ψ où V est une nverse généralsée de la varance estmée de Ψ qu sut asymptotquement un χ 2 ( c 1) où c est le nombre total de strates. Cette méthode est strctement équvalente aux prncpes généraux des tests énoncés dans le paragraphe précédent. 6.2 Mse en oeuvre smplfée. Cette procédure est utlsable sur des données pouvant être censurées à drote. Elle calcule des fonctons de surve par strates et propose des tests de rang afn d'étuder l'homogénété des strates. PROC LIFETEST < Optons 1 > ; TIME varable < Optons 2 > ; Instructons oblgatores By varables ; ID varables ; STRATA varable < Optons 3 > ; Instructons facultatves TEST varables ; Optons 1 : DATA = précse la table SAS contenant les données. INTERVALS = value fournt une lste des extrémtés des ntervalles utlsés dans les calculs de surve. Par défaut, SAS découpe la durée maxmale de l'échantllon en dx ntervalles. Ans, ntervals = 5, 10 to 30 by 10 produt le découpage [0,5),[5,10),[10,20),[20,30),[30, ). Elargr l ntervalle METHOD = type par défaut, SAS utlse les estmateurs de Kaplan Meer de la surve on préférera METHOD = ACT s on veut connaître la foncton de hasard emprque (opton consellée par la sute). NOTABLE supprme l'mpresson de la foncton de surve ( nstructon consellée sur les fchers de données ndvduelles). Modèles unvarés et Modèles de durée 30