L analyse de séquence dans R avec la librairie TraMineR



Documents pareils
Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

données en connaissance et en actions?

La classification automatique de données quantitatives

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Le parcours professionnel des chômeurs de longue durée en Suisse

Title Text. Gestion de données de mobilité Mobility data management

Analyse des trajectoires des chômeurs en fin de droits dans le canton de Genève

R00 Installation du logiciel R sous Windows

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Gilbert Ritschard. CV September 2015

Services à la recherche: Data Management et HPC *

Modélisation du comportement habituel de la personne en smarthome

RTFM! Les «mailing lists» en tant que nouvelles formes de communication entre scientifiques.

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au Data-Mining

Cairnalys est une société spécialisée dans le développement de la connaissance client et l analyse des campagnes d ing.

TRAVAUX DE RECHERCHE DANS LE

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Ne cherchez plus, soyez informés! Robert van Kommer

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Archivage à long terme des données de la recherche scientifique

CURRICULUM VITAE. CHAMP DE SPÉCIALISATION Économie financière. Économétrie financière. Économétrie.

Présentation Alfresco

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Outils pour les réseaux de neurones et contenu du CD-Rom

OPTIMISER SON PROCESSUS DE TEST AVEC UNE APPROCHE BOITE GRISE

TD d économétrie appliquée : Introduction à STATA

Présentation du logiciel

Introduction au Data-Mining

Plateforme WikiJob spécifications

Travaux pratiques avec RapidMiner

Agrégation des portefeuilles de contrats d assurance vie

Généralités. Aperçu. Introduction. Précision. Instruction de montage. Lubrification. Conception. Produits. Guides à brides FNS. Guides standards GNS

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

#BigData Dossier de presse Mai 2014

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Logiciel XLSTAT version rue Damrémont PARIS

UNIVERSITE DE YAOUNDE II

MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS- DAUPHINE. Département Master Sciences des Organisations de l'université Paris-Dauphine

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

BIG Data et R: opportunités et perspectives

Agenda de la présentation

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Les Entrepôts de Données

2 Serveurs OLAP et introduction au Data Mining

Les études de cas Responsable: Monika Niederhuber, Pauline Bart

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

Mines Nantes 20/05/2014. Institut Mines-Telecom : a national network 12 Engineering Graduate schools & 1 Business school. 2 Institut Mines-Télécom

Apprentissage Automatique

Jean-Philippe DANGLADE

NON-LINEARITE ET RESEAUX NEURONAUX

INTERNET, C'EST QUOI?

Liste des pe riodiques e lectroniques de sociologie en ligne

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

LES DIFFERENTS TYPES DE MESURE

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Application du data mining pour l évaluation de risque en assurance automobile

Forthcoming Database

Recherche et Formation dans un environnement de pointe. Contact:

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

SPECIALISTE EN MEDIAS SOCIAUX. Formation professionnelle préparant au diplôme SAWI de Spécialiste en médias sociaux.

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Partir aux Etats-Unis

Modélisation d un réseau sociotechnique Application à la gestion de crise. Guillaume Philippe (UBS / CAMKA System) Christine Chauvin (UBS)

SHAREPOINT PORTAL SERVER 2013

Laboratoire 4 Développement d un système intelligent

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

INTRODUCTION AU DATA MINING

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Pentaho Business Analytics Intégrer > Explorer > Prévoir

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Jeudi 17 février Nicolas Darcheville Vincent Goessens

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

DESCRIPTION DES PRODUITS ET MÉTRIQUES

INTERVENANTS. Laurence Rossinelli Directrice des Opérations Commerciales Société Générale Equipment Finance

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Toni Lazazzera Tmanco is expert partner from Anatole ( and distributes the solution AnatoleTEM

Nouveaux enjeux, Risque en évolution : Comment transformer la gestion du risque? Patrick Schraut Senior Manager Professional Services

Formation. Mastère Spécialisé en Sécurité des Systèmes Intégrés & Applications. Post-master s degree in Security of Integrated Systems & Applications

La formation interprofessionnelle pour les professions de la santé: L avenir C est dès maintenant!

SAN07 IBM Social Media Analytics:

Extraction d information des bases de séquences biologiques avec R

Comme cet outil est un des outils majeurs professionnels, Facebook vous propose également une Aide.

Pourquoi signer votre Accord Entreprise Microsoft avec SHI?

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Institut français des sciences et technologies des transports, de l aménagement

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

Transcription:

L analyse de séquence dans R avec la librairie TraMineR Alexis Gabadinho, Gilbert Ritschard Nicolas S. Müller, Matthias Studer Institut d études démographiques et du parcours de vie Université de Genève http://mephisto.unige.ch/traminer Rencontre de statistique appliquée Palette d applications sous R, 28 avril 2011, Paris 24/4/2011gr 1/25

Outline 1 Introduction 2 Aperçu des possibilités de TraMineR 3 Documentation et communauté d utilisateurs 24/4/2011gr 2/25

Outline 1 Introduction 2 Aperçu des possibilités de TraMineR 3 Documentation et communauté d utilisateurs 24/4/2011gr 3/25

TraMineR TraMineR : Trajectory Miner in R (Accessoirement inspiré par notre goût pour le Gewürztraminer) Librement disponible sur le CRAN (Comprehensive R Archive Network) http://cran.r-project.org/web/packages/traminer/ Installation : install.packages("traminer") TraMineR peut être simplement et directement combiné avec les autres librairies de R Par exemple, les dissimilarités entre séquences obtenues avec TraMineR peuvent être utilisées avec les procédures déjà optimisées de clustering, de MDS, les outils de régression linéaire et non-linéaire,... 24/4/2011gr 4/25

Le projet de recherche TraMineR et le fruit d un projet projet FNS Mining event histories : Towards new insights on personal Swiss life courses Project FN 100012-113998 and FN-100015-122230 Début : 1er février 2007 Fin : 31 janvier 2011 Gilbert Ritschard, prof. de statistique, requérant principal, Eric Widmer, prof. de sociologie, co-requérant Alexis Gabadinho, démographie Nicolas S. Müller, sociologie, systèmes d information Matthias Studer, économie, sociologie 24/4/2011gr 5/25

Séquences en sciences sociales TraMineR a été conçu pour répondre à des questions de sciences sociales Les séquences (suite d états ou d événements) décrivent des trajectoires de vie Types de questions : Les parcours de vie obéissent-ils à une norme sociale? Quelles sont les types de trajectoires standards? Quels écarts observe-t-on par rapport à ces normes? Pourquoi certaines personnes suivent-elles des trajectoires plus chaotiques que d autres? Comment les trajectoires de vie sont-elles liées au sexe, à l origine sociale et à d autres facteurs 24/4/2011gr 6/25

Logiciels pour l analyse de séquences Etat des lieux au début du projet Optimize le logiciel d Abbott (Abbott, 1997) Calcul des distances d optimal matching Plus maintenu TDA (Rohwer and Pötter, 2002) logiciel statistique gratuit, calcul des distances d optimal matching SQ-ados, macros Stata, (Brzinsky-Fay et al., 2006) gratuit si on a une licence Stata distances optimal matching, visualisation CHESA logiciel gratuit de Elzinga (2007) Nombreuses métriques, dont plusieurs non fondées sur l alignement Turbulence MARCH (Berchtold and Berchtold, 2004) Modèles des transitions, chaînes de Markov cachées,... 24/4/2011gr 7/25

Objectifs initiaux Développer une plate-forme pour chercheurs en sciences sociales rassemblant les fonctionnalités offertes séparément par les programmes existants ; proposant de nouvelles méthodes pour l analyse de trajectoires de vie. Développer une plate-forme accessible au plus grand nombre gratuite ; documentée avec un manuel de l utilisateur détaillé. 24/4/2011gr 8/25

Ce que TraMineR permet de faire Prise en charge et conversion de différents types de données longitudinales Gestion des poids et des données manquantes Visualisation d un ensemble de séquences (index plot, séquences fréquentes, distributions transversales, et plus...) Caractéristiques longitudinales de séquences individuelles (complexité, durées de séjour dans chaque état, entropie longitudinale, turbulence, et plus...) Séquence de caractéristiques transversales (distribution des états, entropie transversale, état modal) Autres caractéristiques agrégées (taux de transition, durées moyennes de séjour dans chaque état) Dissimilarités entre paires de séquences (Optimal matching, Longest Common Subsequence, Hamming, Dynamic Hamming, Multichannel et plus...) Mesure de dispersion d un ensemble de séquences Séquences représentatives ANOVA et arbres de régression à partir de matrices de dissimilarités Extraction de séquences d événements fréquents Identification de séquences d événements discriminantes 24/4/2011gr 9/25

Outline 1 Introduction 2 Aperçu des possibilités de TraMineR 3 Documentation et communauté d utilisateurs 24/4/2011gr 10/25

Le jeu de données mvad Etude de McVicar and Anyadike-Danes (2002) sur la transition entre formation et emploi en Irlande du Nord. Jeu de données distribué avec la librairie TraMineR. Provient d une enquête auprès 712 jeunes irlandais. Les séquences représentent leur suivi pendant les 6 années suivant la fin de la scolarité obligatoire (16 ans) et sont constituées des 70 variables indiquant les états mensuels successifs de chaque individu entre septembre 1993 et juin 1999. Les états sont : EM en emploi FE formation secondaire HE formation supérieure JL au chômage SC école TR en stage ou apprentissage. 24/4/2011gr 11/25

Séquences d états - Jeu de données mvad Premières séquences du jeu de données (20 premiers mois) Sequence 1 EM-EM-EM-EM-TR-TR-EM-EM-EM-EM-EM-EM-EM-EM-EM-EM-EM-EM-EM-EM 2 FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE-FE 3 TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR 4 TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR-TR Représentation compacte (format SPS) Sequence [1] (EM,4)-(TR,2)-(EM,64) [2] (FE,36)-(HE,34) [3] (TR,24)-(FE,34)-(EM,10)-(JL,2) [4] (TR,47)-(EM,14)-(JL,9) 4 seq. (n=4) 4 3 2 1 Sep.93 Sep.94 Sep.95 Sep.96 Sep.97 Sep.98 24/4/2011gr 12/25

Présentations graphiques : Exemples 24/4/2011gr 13/25

Aperçu des possibilités de TraMineR Charger TraMineR et créer un objet séquences d états R> library(traminer) R> data(mvad) R> mvad.seq <- seqdef(mvad, 17:86, xtstep = 6) Calcul des dissimilarités OM entre paires de séquences avec un coût d indel de 1 et des coûts de substitutions déduits des taux de transitions R> mvad.om <- seqdist(mvad.seq, method = "OM", indel = 1, sm = "TRATE") Classification en 4 groupes par une procédure agglomérative avec critère de Ward R> library(cluster) R> clusterward <- agnes(mvad.om, diss = TRUE, method = "ward") R> mvad.cl4 <- cutree(clusterward, k = 4) R> cl4.lab <- factor(mvad.cl4, labels = paste("cluster", 1:4)) 24/4/2011gr 14/25

Aperçu des possibilités de TraMineR (suite 1) Visualisation des classes : distributions transversales des états R> seqdplot(mvad.seq, group = cl4.lab, border = NA) Cluster 1 Cluster 2 Freq. (n=265) 0.0 0.2 0.4 0.6 0.8 1.0 Freq. (n=153) 0.0 0.2 0.4 0.6 0.8 1.0 Sep.93 Mar.95 Sep.96 Mar.98 Sep.93 Mar.95 Sep.96 Mar.98 Cluster 3 Cluster 4 Freq. (n=194) 0.0 0.2 0.4 0.6 0.8 1.0 Freq. (n=100) 0.0 0.2 0.4 0.6 0.8 1.0 Sep.93 Mar.95 Sep.96 Mar.98 Sep.93 Mar.95 Sep.96 Mar.98 employment FE HE joblessness school training 24/4/2011gr 15/25

Aperçu des possibilités de TraMineR (suite 2) Temps moyen dans les états par classe R> seqmtplot(mvad.seq, group = cl4.lab) Cluster 1 Cluster 2 Mean time (n=265) 0 14 28 42 56 70 Mean time (n=153) 0 14 28 42 56 70 employment HE school employment HE school Cluster 3 Cluster 4 Mean time (n=194) 0 14 28 42 56 70 Mean time (n=100) 0 14 28 42 56 70 employment HE school employment HE school employment FE HE joblessness school training 24/4/2011gr 16/25

Arbre de régression (Studer et al., 2011, 2009) R> dt <- seqtree(mvad.seq ~ male + Grammar + funemp + + gcse5eq + fmpr + livboth, weighted = FALSE, data = mvad, + diss = mvad.om, R = 5000) R> seqtreedisplay(dt, filename = "fg_mvadseqtree.png", + type = "d", border = NA, showtree = FALSE) La visualisation de l arbre utilise Graphviz (http://www.graphviz.org/) qui doit être installé sur le système. 24/4/2011gr 17/25

Arbre de régression 24/4/2011gr 18/25

Outline 1 Introduction 2 Aperçu des possibilités de TraMineR 3 Documentation et communauté d utilisateurs 24/4/2011gr 19/25

Documentation Le succès de TraMineR est largement dû à sa documentation. Site internet http://mephisto.unige.ch/traminer dernières nouvelles aperçu des possibilités documentation : manuel de l utilisateur (env. 120 pages) tutoriels version en ligne (html) du manuel de référence publications de l équipe publications d utilisateurs de TraMineR information sur les formations à TraMiner 24/4/2011gr 20/25

24/4/2011gr 21/25

Site R-forge et communauté d utilisateurs Nous avons également créé une liste de discussion un site sur R-forge (https://r-forge.r-project.org/projects/traminer/) pour mettre à disposition la version de développement, permettre aux utilisateurs de reporter des bugs, et de proposer des fonctionnalités.... et prochainement : un blog 24/4/2011gr 22/25

Site R-forge et communauté d utilisateurs Nous avons également créé une liste de discussion un site sur R-forge (https://r-forge.r-project.org/projects/traminer/) pour mettre à disposition la version de développement, permettre aux utilisateurs de reporter des bugs, et de proposer des fonctionnalités.... et prochainement : un blog 24/4/2011gr 22/25

Merci! 24/4/2011gr 23/25

References I 24/4/2011gr 24/25 Abbott, A. (1997). Optimize. http://home.uchicago.edu/ aabbott/om.html. Abbott, A. (2001). Time Matters. On Theory and Methods. Chicago: Chicago Press. Berchtold, A. and A. Berchtold (2004). MARCH 2.02: Markovian model computation and analysis. User s guide. Brzinsky-Fay, C., U. Kohler, and M. Luniak (2006). Sequence analysis with Stata. The Stata Journal 6(4), 435 460. Elzinga, C. H. (2007). CHESA 2.1 User manual. User guide, Dept of Social Science Research Methods, Vrije Universiteit, Amsterdam. Gabadinho, A., G. Ritschard, N. S. Müller, and M. Studer (2011). Analyzing and visualizing state sequences in R with TraMineR. Journal of Statistical Software 40(4), 1 37. Gabadinho, A., G. Ritschard, M. Studer, and N. S. Müller (2009). Mining sequence data in R with the TraMineR package: A user s guide. Technical report, Department of Econometrics and Laboratory of Demography, University of Geneva, Geneva.

References II McVicar, D. and M. Anyadike-Danes (2002). Predicting successful and unsuccessful transitions from school to work using sequence methods. Journal of the Royal Statistical Society A 165(2), 317 334. Ritschard, G., A. Gabadinho, N. S. Müller, and M. Studer (2008). Mining event histories: A social science perspective. International Journal of Data Mining, Modelling and Management 1(1), 68 90. Rohwer, G. and U. Pötter (2002). TDA user s manual. Software, Ruhr-Universität Bochum, Fakultät für Sozialwissenschaften, Bochum. Studer, M., G. Ritschard, A. Gabadinho, et N. S. Müller (2009). Analyse de dissimilarités par arbre d induction. Revue des nouvelles technologies de l information RNTI E-15, 7 18. Studer, M., G. Ritschard, A. Gabadinho, et N. S. Müller (2011). Discrepancy analysis of state sequences. Sociological Methods and Research. In press. 24/4/2011gr 25/25