Données longitudinales et modèles de survie

Documents pareils
MODELES DE DUREE DE VIE

Données longitudinales et modèles de survie

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Descripteur global Interaction orale générale

LES FACTEURS DE FRAGILITE DES MENAGES

PROBABILITES ET STATISTIQUE I&II

Minimum de 5 contacts repartis sur deux semaines, dont au moins un le soir et un pendant un week-end!

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

La transition école travail et les réseaux sociaux Monica Del Percio

Représentation d une distribution

RECRUTEMENT SURVEILLANCE DES EXAMENS. Temps de travail : Vous êtes recruté(e) pour une durée et un nombre d heures fixés contractuellement.

Fiche de projet pour les institutions publiques

PROGRAMMES DONT LES UNIVERSITES PARTENAIRES SONT DIPLOMANTES. N.B : DIPLOME DE TECHNICIEN SUPERIEUR(DTS) : équivaut au BAC+2

Avis de changement. le changement concerne mon adresse de résidence mon adresse postale

Famille multirésidence : recensement et sources alternatives

Loi binomiale Lois normales

L ETUDE DES MIGRATIONS DE RETOUR : DONNEES DE RECENSEMENT, D ENQUETE ET DE FICHIERS

LES GARANTIES DU REGIME CONVENTIONNEL DES CADRES DE LA PRODUCTION AGRICOLE

Les débats sur l évolution des

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

DOSSIER DE DEMANDE DE DIPLÔME PARTIE 1 RECEVABILITÉ DU DOSSIER

Le parcours professionnel des chômeurs de longue durée en Suisse

VIVRE OU SURVIVRE, TELLE EST LA QUESTION

Cette publication constitue un instantané

REGIME DE PREVOYANCE CONVENTIONNEL OBLIGATOIRE

Statistiques Descriptives à une dimension

Déclaration de ressources Complément (12 mois)

Pièces à joindre RENTREE Qui peut bénéficier de la bourse de lycée?

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Association des banquiers canadiens

L axe 5 du Cancéropole Nord Ouest

UNIVERSITE PARIS 1 PANTHEON SORBONNE

Observatoire Gleeden de l infidélité

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

SESAM construction d une source de données synthétique

Décès et succession LE DECES

Les Français et le don d organes

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

TÉMOIGNAGES de participantes et de participants dans des groupes d alphabétisation populaire

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

Module 1. Formation à la structure Mutuelle et aux outils d'accès aux soins de santé

UNIVERSITÉ 66,8 C.P.G.E. 74,8 % D.U.T. B.T.S. 13,4 % 2,3 11,1 Autres formations 9,7. Total : 97,5 % 7,8 0,2. Lettres Economiques

La réforme des pensions expliquée

C R É D I T A G R I C O L E A S S U R A N C E S. Des attitudes des Européens face aux risques

ARRÊTÉ du. Projet d arrêté fixant le programme d'enseignement de santé et social en classe de seconde générale et technologique

First Line and Maintenance in Nonsquamous NSCLC: What Do the Data Tell Us?

Un autre regard sur. Michel R. WALTHER. Directeur général de la Clinique de La Source 52 INSIDE

En 6 Choisis ton thème

Modélisation aléatoire en fiabilité des logiciels

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

à l accès aux fonctions publiques selon le mérite ; à l accès à l eau et à un environnement sain ; au développement durable.»

Docteur José LABARERE

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Etat des lieux du prélèvement et de la greffe d organes, de tissus et de cellules MAROC

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

Examen de Logiciels Statistiques

Cohorte Observatoire Musculosquelettique (COMETT) Pénibilité et Vieillissement

Le dépistage du cancer de la prostate. une décision qui VOUS appartient!

MODE D EMPLOI DE L APPRENTISSAGE

INDICES DE PRIX EXPÉRIMENTAUX DES SERVICES FINANCIERS

DOSSIER DE MARIAGE * * Documents à signer et à remettre

Guide de l Enquête sur la population active

3.04 Prestations de l AVS Age flexible de la retraite

Le Logiciel de Facturation ultra simplifié spécial Auto-Entrepreneur

POPULATION ÂGÉE D UN AN ET PLUS AYANT DÉMÉNAGÉ UN AN AUPARAVANT

l assurance-vie Toute la lumière sur Un guide pratique pour vous aider à atteindre la sécurité financière à toutes les étapes de votre vie

Un écrivain dans la classe : pour quoi faire?

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Prochaines Dates séminaires Nom : Prénom :.. Date naissance :.. Adresse Complète :

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Retraite du Service public! Préfon-Retraite : la retraite complémentaire du service public

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Continuité et dérivabilité d une fonction

CURRICULUM VITAE. Emploi sollicité: A. Nom: Prénoms : Domicile: rue N à. Né(e) à : Nationalité : N carte d identité :

DOCUMENT L HISTOIRE DE L ÉDUCATION EN FRANCE

Calcul élémentaire des probabilités

Analyse et interprétation des données

Finanzführerschäin. Maison des jeunes Am Quartier

N o G au catalogue. Guide de l Enquête sur la population active

AVANT-PROPOS. Est-ce un énorme investissement? Quels sont les avantages concrets de la VoIP?

Jeu pour l oral «Les vies antérieures» Devinez les vies antérieures de vos amis!

La retraite de nos enfants Colloque Question-Retraite Centre Mont-Royal, Montréal

Hommes et femmes au travail Ni tout à fait les mêmes, ni tout à fait des autres. Etude Ipsos pour ELLE

Programme de Maîtrise en Leadership & Management des organisations. Formulaire de demande d admission. Section 1 - Identification

Don d organes et mort cérébrale. Drs JL Frances & F Hervé Praticiens hospitaliers en réanimation polyvalente Hôpital Laennec, Quimper

Guide du/de la candidat/e pour l élaboration du dossier ciblé

Application des courbes ROC à l analyse des facteurs pronostiques binaires

DESCRIPTIF DU DOCUMENT. Déploiement Nouveau système de rémunération au ème salaire

catégorie - développement rh

LE NIVEAU ÉLEVÉ DE LA DETTE à la consommation

TSTI 2D CH X : Exemples de lois à densité 1

Diane Patrimoine. L épargne salariale : outil d optimisation et de défiscalisation de la rémunération. Diane Patrimoine 1

CHAPITRE I : PRESENTATION DES INSTRUMENTS DE LA SAISIE

UTILISATION DE LA BORNE PAR LE CLIENT

Être seul. Jean-Louis Pan Ké Shon* Données sociales. La société française

FORMULAIRE DE DEMANDE D AIDE NON REMBOURSABLE POUR PETITS PROJETS LOCAUX. Libreville - GABON. Tel. : (241) / Fax : (241)

Séries Statistiques Simples

DOSSIER DE CREATION D'ENTREPRISE

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe.

Transcription:

Données longitudinales et modèles de survie 2. Concepts de base André Berchtold Département des sciences économiques, Université de Genève Cours de Master

Plan du cours DONNÉES LONGITUDINALES 1 DONNÉES LONGITUDINALES 2 3

Plan du cours DONNÉES LONGITUDINALES 1 DONNÉES LONGITUDINALES 2 3

Définition DONNÉES LONGITUDINALES Data in which many units are observed over multiple time periods. (OECD Glossary of Statistical Terms) Synonyme courant, mais imprécis : Données de panel. Dans l idéal, des données longitudinales sont des données pour lesquelles la valeur d une (ou de plusieurs) variable d intérêt est connue à chaque instant durant une période d observation.

Panel versus longitudinal nbre enfants 5 4 3 2 1 0 10 20 30 40 50 Données de panel, 1 femme nbre enfants 5 4 3 2 1 0 10 20 30 40 50 Données longitudinales, 1 femme t t

Sources de données longitudinales Suivis individuels : Chaque événement important est enregistré lorsqu il survient. Dossier médical Panels : Observation périodique des mêmes individus. Panel Suisse des Ménages (PSM) Transitions de l Ecole à l Emploi (TREE) Enquête rétrospective : Fait appel à la mémoire des interviewés. Enquête biographique rétrospective du PSM Couplage des données de diverses sources : Recensements successifs, données fiscales, registre des population, actes de mariage, actes de décès,... Wanner & Delaporte (2001) : recensements et état-civil Perroux & Oris (2005) : Genève au XIXème (1816-1843), recensements, actes de mariage et de décès, immigration

Types de données longitudinales Séquences : Suites chronologiques d états ou d événements. Séquences d états..., célibataire à 25, marié à 26, marié à 27, divorcé à 28,... Les panels génèrent naturellement des séquences d états. Séquences d événements début d une union, 1er enfant, mariage, 2ème enfant, chômage, divorce,... Evénements datés : Suites d événements avec indication de leur date. fin de l école secondaire à 19 ans, premier emploi à 19 ans, première union à 20 ans, 1er enfant à 23 ans,... On peut en général passer d une présentation à l autre question d organisation des données

Représentation des données (1) Evénements datés fin école secondaire en 1970 premier job en 1971 mariage en 1973 Séquences d états année 1969 1970 1971 1972 1973 état civil célib. célib. célib. célib. marié niv. formation primaire secondaire secondaire secondaire secondaire emploi non non 1er 1er 1er Episodes id de à état civil formation emploi 1 1969 1969 célib. primaire non 1 1970 1970 célib. secondaire non 1 1971 1972 célib. secondaire 1er 1 1973 1973 marié secondaire 1er

Représentation des données (2) Données personnes-périodes id année état civil formation emploi 1 1969 célib. primaire non 1 1970 célib. secondaire non 1 1971 célib. secondaire 1er 1 1972 célib. secondaire 1er 1 1973 marié secondaire 1er 2 1969 célib. primaire 1er 2 1970 célib. primaire 1er 2 1971 marié primaire 1er 2 1972 marié primaire non 2 1973 marié primaire non.

Durées DONNÉES LONGITUDINALES L analyse des biographies s intéresse essentiellement à la durée des épisodes ou alternativement au risque que l épisode se termine après une durée t. La durée de séjour dans un état est le temps s écoulant entre deux événements (durée des épisodes). Exemples : temps entre immatriculation et obtention du diplôme premier engagement et premier changement d emploi mariage et 1ère naissance mariage et divorce diagnostic d une maladie grave et décès

Calendrier et cohortes Les dates sont des mesures de type intervalle (pas de zéro absolu) dont l origine est arbitraire. On peut mesurer le temps depuis une date fixe (par exemple depuis le 1er janvier 1900) ou relative (date de naissance, début de l emploi). plusieurs calendriers (horloges) possibles pour un même individu Exemples : âge : durée depuis la naissance durée mariage : durée depuis le mariage époque de l événement : durée depuis une date fixe telle que le début du siècle Cohorte : Ensemble d individus ayant vécu un événement particulier (naissance par exemple) en même temps.

Fichiers de données (1) Fichier individus : Une ligne par individu (durée en mois). emploi mariage indiv déb 1 fin 1 déb 2 fin 2 déb 1 fin 1 déb 2 fin 2 1 204 216 260 350 300 - - - 2 240 400 401-340 500 - -.

Fichiers de données (2) Fichier épisodes : Une ligne par épisode (nouvelle ligne chaque fois qu un événement se produit). indiv début fin emploi nbre emplois marié 1 1 203 non 0 non 1 204 216 oui 1 non 1 217 259 non 1 non 1 260 299 oui 2 non 1 300 350 oui 2 oui 2 1 239 non 0 non 2 240 339 oui 1 non 2 340 400 oui 1 oui 2 401 500 oui 2 oui 2.

Fichiers de données (3) Fichier personnes-périodes : Pour chaque personne, une ligne pour chaque période où elle est observée. indiv mois emploi nbre emplois marié 1 1 non 0 non..... 1 203 non 0 non 1 204 oui 1 non..... 1 216 oui 1 non 1 217 non 1 non..... 1 259 non 1 non

Fichiers de données (4) indiv mois emploi nbre emplois marié 1 260 oui 2 non..... 1 299 oui 2 non 1 300 oui 2 oui..... 1 350 oui 2 oui 2 1 non 0 non..... 2 239 non 0 non 2 240 oui 1 non.....

Représentation des épisodes (1) Méthode la plus générale : (o i, d i, s i, r i ), où o i = état d origine (définissant le début de l épisode) d i = état de destination (un changement vers cet état définit la fin de l épisode) s i = date de début de l épisode (date à laquelle l état d origine est observé pour la première fois) r i = date de fin de l épisode (date à laquelle l état de destination est observé pour la première fois) Exemple pour l emploi de l individu 1. épisode i o i d i s i r i 1 sans emploi employé 1 204 2 employé sans emploi 204 217 3 sans emploi employé 217 260.

Représentation des épisodes (2) Représentation simplifiée : (t i, e i ) où t i = r i s i durée de l épisode e i = 1 si l événement a lieu en fin d épisode et 0 sinon Ne considère que des événements simples (oui/non) et la durée de l épisode. Exemple pour l événement fin de l emploi. épisode i t i e i 1 203 0 2 13 1 3 43 0.

Représentation des épisodes (3) Le type de représentation dépend du logiciel utilisé. SPSS par exemple n autorise que la représentation simplifiée (t i, e i ). Le package survival de R donne plus de souplesse en permettant d utiliser plusieurs représentations, dont notamment la représentation simplifiée (t i, e i ) et une représentation (t1 i, t2 i, e i ), où t1 i = date de début de l épisode t2 i = date de fin de l épisode (avant la survenue du changement d état) e i = 1 si l événement a lieu en fin d épisode et 0 sinon

Représentation des épisodes (4) Exemple pour l événement fin de l emploi. épisode i t1 i t2 i e i 1 1 203 0 2 204 216 1 3 217 259 0. Par extension, il est possible d utiliser ce type de représentation avec une variable supplémentaire indiquant le type de censure des données, ce qui permet notamment d utiliser des données censurées à gauche.

Définition DONNÉES LONGITUDINALES Données pour lesquelles l événement (initial ou terminal) n a pas lieu durant la période observée. Exemple d un étudiant qui a interrompu ses études (A) dont on ne connaît pas la date de début d études (C, D) toujours en études (D, F) B C D A E F? G T 0 T 1 Période d observation

Traitement DONNÉES LONGITUDINALES Les données censurées requièrent un traitement spécial. On ne peut pas simplement ignorer ces cas (que l on sait être exposés au risque durant la période observée). Données tronquées à droite : dont on ne connaît pas la date de fin de l épisode. Données tronquées à gauche : dont on ne connaît pas la date de début de l épisode. Durée de séjour effective plus longue que la durée observée. Exclure ces cas conduit à sous-estimer la durée moyenne de séjour. On sait bien traiter les données tronquées à droite, mais le traitement des données tronquées à gauche est plus délicat (impossible avec la représentation (t i, e i )).

Exemple de biais DONNÉES LONGITUDINALES Age au mariage en Suisse, femmes Année de naissance moyenne écart type médiane maximum n 1935 et avant 26.0 5.11 25 53 302 1936-1955 24.7 4.61 24 50 852 1956-1970 26.0 4.32 26 43 773 1971 et plus tard 24.3 2.72 24 30 126 Total 25.4 4.54 25 53 2053 Source : PSM, enquête biographique de 2001/02 Age maximum des femmes de la dernière classe = 30 ans. que des femmes mariées jeunes moyenne, médiane et dispersion sous-estimées

Plan du cours DONNÉES LONGITUDINALES 1 DONNÉES LONGITUDINALES 2 3

Trois grandes catégories d événements Evénement unique : Dans le domaine biomédical ou industriel, l événement est le plus souvent unique (la mort, la rupture d une pièce,...) analyse de survie Evénements multiples : En sciences sociales, en démographie, on analyse souvent conjointement plusieurs événements (fin de scolarité, premier emploi, second emploi, mariage, naissance du premier enfant, du deuxième, divorce, veuvage, mort). étude des liens entre les risques (risques compétitifs, interactions entre risques, Courgeau & Lelièvre, 1989) Evénement à répétition : Parfois, un même événement peut se produire à plusieurs reprises (mariage, naissance d un enfant, changement d emploi).

Evénements multiples (1) Les événements multiples peuvent être classifiés en différents types. I. Evénements dont le type est déterminé par un processus causal distinct de l occurence de l événement. On décide de partir en vacances (événement), puis on décide de l endroit des vacances (type de l événement).

Evénements multiples (2) II. Evénements causés par des processus distincts. IIa. La survenance d un événement implique la non-survenance d un autre (risques compétitifs). Si l on décède d un cancer, on ne décédera pas d un accident de la circulation. IIb. Evénements rendant impossible l observation d un autre événement. Un employé prenant sa retraite ne peut plus être licencié. IIc. Evénements totalement indépendants les uns des autres. Avoir un accident de la circulation et aimer la littérature. IId. Evénements dont la survenance augmente ou diminue (mais pas totalement) les chances d occurence d un autre événement. Terminer ses études augmente la probabilité de commencer un emploi.

Plan du cours DONNÉES LONGITUDINALES Fonctions importantes Exemple numérique 1 DONNÉES LONGITUDINALES 2 3 Fonctions importantes Exemple numérique

Fonctions importantes Exemple numérique Décrire la durée d un épisode La durée T d un épisode (qui correspond aussi au temps avant la survenance de l événement dans le cas d événements uniques) est une variable aléatoire. Elle est décrite par plusieurs fonctions liées les unes aux autres. Ces fonctions peuvent être définies indifféremment en temps continu ou en temps discret.

Fonction de densité Fonctions importantes Exemple numérique Cette fonction représente la probabilité que l événement survienne à chaque temps t (cas discret) ou dans chaque intervalle de temps (cas continu). En temps continu, la fonction de densité f (t) de la durée T s écrit P(T [t, t + dt]) f (t) = lim dt 0 dt En temps discret, nous avons une distribution de probabilité définie par p t = P(T = t)

Fonctions importantes Exemple numérique Fonction de répartition ou de distribution Cette fonction représente la probabilité que l événement se soit déjà produit au temps t. En temps continu, la fonction de répartition F(t) de la durée T s écrit F(t) = P(T t) = t 0 f (t) dt En temps discret, nous avons une distribution de probabilité cumulée définie par F t = t i=1 p i

Fonctions importantes Exemple numérique Fonction de survie ou de séjour Cette fonction représente la probabilité que l événement ne se soit pas encore produit au temps t. En temps continu, la fonction de survie S(t) s écrit S(t) = 1 F(t) En temps discret, nous avons S t = 1 F t 1

Fonctions importantes Exemple numérique Fonction de hasard ou de risque instantané Cette fonction décrit la densité (proportion) de cas subissant l événement en t parmi ceux exposés au risque en t. En temps continu, la fonction de hasard h(t) s écrit P(t T t + dt T t) h(t) = lim = f (t) dt 0 dt S(t) En temps discret, nous avons h t = p t S t

Fonction de hasard cumulé Fonctions importantes Exemple numérique Cette fonction décrit le nombre moyen d événements qui serait observé si l individu étudié était exposé en permanence au risque. En temps continu, la fonction de hasard cumulé H(t) s écrit H(t) = En temps discret, nous avons t 0 h(t) dt H t = t i=1 h i

Exemple (1) DONNÉES LONGITUDINALES Fonctions importantes Exemple numérique Personnes quittant leur premier emploi. Suivi de 200 personnes durant une période de 5 années (temps discret). t # restant # quittant p t F t S t h t 1 200 11 0.055 0.055 1 0.055 2 189 25 0.125 0.180 0.945 0.132 3 164 10 0.050 0.230 0.820 0.061 4 154 13 0.065 0.295 0.770 0.084 5 141 12 0.060 0.355 0.705 0.085 >5 129 0.645 1 0.645 1 total 848 200

Exemple (2) DONNÉES LONGITUDINALES Fonctions importantes Exemple numérique La probabilité de quitter son emploi après 2 ans se calcule comme p 2 = # quittant en t = 2 # total = 25 200 = 0.125 La probabilité de quitter son emploi au plus tard après 2 ans se calcule comme F 2 = # quittant en t 2 # total = 11 + 25 200 = 0.180

Exemple (3) DONNÉES LONGITUDINALES Fonctions importantes Exemple numérique La probabilité de ne pas avoir quitté son emploi au début de la deuxième année se calcule comme S 2 = 1 F 1 = 1 0.055 = 0.945 Le risque (instantané) de quitter son premier emploi après 2 ans sachant qu on a gardé son emploi la première année se calcule comme h 2 = # quittant en t = 2 # restant en t = 2 = 25 189 = 0.132 = p 2 = 0.125 S 2 0.945

Exemple (4) DONNÉES LONGITUDINALES Fonctions importantes Exemple numérique 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité instantanée Probabilité cumulée Fonction de survie Hasard 1 2 3 4 5 Années

Fonctions importantes Exemple numérique Exemple (5) L exemple précédent est un peu simpliste dans la mesure où l on suppose implicitement que toutes les personnes quittant leur emploi une année donnée le quitte à la fin de celle-ci. La méthode actuarielle permet de corriger ceci en répartissant les événements tout au long de l année.

Fonctions importantes Exemple numérique Bibliographie Courgeau D, Lelièvre É (1989) Analyse démographique des biographies. Paris : Editions de l INED. Perroux O, Oris M (2005) Présentation de la base de données de la population de Genève de 1816 à 1843. Séminaire statistique sciences sociales, Université de Genève. Wanner P, Delaporte E (2001) Reconstitution de trajectoires de vie à partir des données de l état civil (BEVNAT). Une étude de faisabilité. Rapport de recherche, Forum Suisse des Migrations.