LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr



Documents pareils
VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Introduction au datamining

Agrégation des portefeuilles de contrats d assurance vie

Optimisation de la compression fractale D images basée sur les réseaux de neurones

La classification automatique de données quantitatives

EN LIGNE. EMPLOYEUR Pôle emploi

L'EMPLOI SALARIE au 31 décembre 2013 Nombre établissements

BTS MUC Management des Unités Commerciales MODALITES & AVANTAGES BUSINESS PROGRAMME / ALTERNANCE

Logiciel XLSTAT version rue Damrémont PARIS

L'insertion professionnelle des diplômés DNSEP 2003 trois ans après le diplôme

DOCUMENT SEMESTRIEL - LIBRE DE DIFFUSION SOUS RESERVE DE MENTION DE LA SOURCE «POLE EMPLOI PAYS DE LA LOIRE» Evolution Annuelle GRAPHIQUE

à Master professionnel Enquête sur le devenir au 1 er décembre 2013 des diplômés de Master professionnel promotion 2011

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

MINISTÈRE DU TRAVAIL, DES RELATIONS SOCIALES, DE LA FAMILLE, DE LA SOLIDARITÉ ET DE LA VILLE CONVENTIONS COLLECTIVES. Convention collective nationale

Effectifs et taux de réponse par discipline

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Synthèse Contrat. d Objectifs. Diagnostic Les services de l automobile En Midi-Pyrénées. Réalisation Observatoire régional emploi, formation, métiers

OUVRIR LES PORTES DE LA BANQUE AUX JEUNES ENTREPRENEURS

La mobilité professionnelle revêt

Surqualification et sentiment de déclassement : public-privé, des profils et des opinions proches

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

1 - PRESENTATION GENERALE...

Diplômes et insertion professionnelle

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Imputation du salaire d ego dans TeO

1. STRUCTURATION FEDERALE BI POLAIRE

Demandeurs d'emploi inscrits et offres collectées par Pôle emploi en Guyane en janvier 2015

Sorties définitives de l emploi. Quels liens avec la santé, le parcours professionnel et les conditions de travail? Nicolas de Riccardis

Coup de Projecteur sur les Réseaux de Neurones

Suggestion d ordre du jour de Janvier

1 - Le catalogue d états prêts à l emploi p.2

Introduction au Data-Mining

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

La comptabilité de gestion : Fiche pourquoi?

12ème. *Source : Centre d Analyse Stratégique «Les secteurs de la nouvelle croissance : une projection à l horizon 2030», Rapport n 48, janvier 2012

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Travail des métaux Mécanique générale

L emploi et la formation dans la métallurgie Région Ile-de-France

DOSSIER DE CANDIDATURE

Durée moyenne de recherche du 1er emploi (en mois)

Quelques mots sur la méthodologie utilisée pour le suivi des diplômés de Master

L apprentissage automatique

Licence professionnelle Management des relations commerciales

CALENDRIER DES STAGES 2014/2015

CAHIER DES CHARGES. Fédération Nationale des Offices publics de l habitat

Groupements d employeurs

Thématique : Insertion Professionnelle LES DIFFERENTS PARCOURS OFFERTS PAR L EDUCATION NATIONALE PROCURENT-ILS LES MEMES CHANCES D ACCEDER A L EMPLOI?

Mon métier, mon parcours

Outil : Grille d entretien annuel individuel d évaluation ENTRETIEN ANNUEL

ÉTUDE SUR L EMPLOI DANS LES SCÈNES ADHÉRENTES DE LA FSJ Données portant sur l année civile 2004

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Introduction au Data-Mining

I. Entrée en vigueur de l avenant salaires n 21 à compter du 1 er novembre 2013

Licence professionnelle Assistant juridique

Thématique : Insertion Professionnelle LES DIFFERENTS PARCOURS OFFERTS PAR L EDUCATION NATIONALE PROCURENT-ILS LES MEMES CHANCES D ACCEDER A L EMPLOI?

Licence professionnelle Développement d'applications Intranet/Internet

Chambre de métiers et de l artisanat de la Haute-Garonne LIVRET DU MAITRE D APPRENTISSAGE. Les clés pour réussir votre mission

DÉCLARATION SOCIALE NOMINATIVE

Licence professionnelle Systèmes informatiques et logiciels spécialité développement d'applications Internet/Intranet

Site(s) (lieux où la formation est dispensée, y compris pour les diplômes délocalisés) :

Enquête sur le devenir à 18 mois des diplômés de Master 2 ou DESS à l Université Michel de Montaigne Bordeaux III Promotion

1. Les augmentations du salaire de qualification

Le Bas-Rhin, locomotive de la région ALCA*?

Classification non supervisée

Compte rendu de la réunion du 12 mai 2015

C est étudier et s insérer en plus dans la vie professionnelle. Thérèse PAVIA - coach scolaire orientation/motivation - conseil en formation

Part des salaires dans la valeur ajoutée

NOTICE POUR LE CONTRAT D APPRENTISSAGE

Elaboration des Ad AP COTITA 27 janvier 2015

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Rapport de branche 2013 des entreprises artistiques et culturelles

OTT Observatoire du Travail Temporaire. L intérim dans le secteur du BTP

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Document d études. direction de l'animation de la recherche, des études et des statistiques

Origine sociale, offre de formation et niveau atteint dans le secondaire

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Master Droit pénal, sciences criminelles et criminologie appliquée

La qualité de l insertion professionnelle selon la continuité ou la rupture de filière entre le 2 ème et le 3 ème cycle universitaire

Consignes déclaratives DSN

Guide pour aider à l évaluation des actions de formation

Masters OBSER VATOIRE. Sciences / Technologies / Santé OBSERVATOIRE CARREFOUR DES ÉTUDIANTS. Université de Limoges

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Elaborer des Tableaux de Bord Ressources Humaines

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Notice pour le contrat de professionnalisation

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Saint-Vallier-de-Thiey Bar-sur-Loup. Grasse. Grasse-sud

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Direction des Ressources Humaines 14/10/04 CLASSIFICATION DU GROUPE CREDIT COOPERATIF

Le Lean Management appliqué aux services administratifs

Licence professionnelle Génie logiciel, développement d'applications pour plateformes mobiles

ANIMATION / Prévoyance

ALLOCATIONS CHOMAGE. Effet au 01/07/2014

Ouvrage conçu et coordonné par HERVÉ HUTIN TOUTE LA FINANCE. Éditions d Organisation, 1998, 2002, 2005 ISBN :

Bienvenue dans la Génération C

Licence Economie - Gestion Parcours Gestion des Entreprises

Guide de l apprenti. L apprentissage en CAP, BAC PRO, BTS, DCG, Mention Complémentaire en alternance avec l entreprise

Transcription:

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1

PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes de «Génération 92» pour aborder les notions de parcours, de trajectoire-type, les questions de représentation et d interprétation des classes. Deuxième partie : présentation d une variété d approches correspondant à une diversité - de codages de l information - de distances - de techniques d analyse. 2

Références http://www.cereq.fr/cereq/gene92/travail.htm «Des typologies de parcours. Méthodes et usages.», Yvette Grelet, note de travail Génération 92 n 20, Juillet 2002. http://mimosa.cereq.fr/rousset 3

Première partie Les parcours des 26500 jeunes de la «Génération 92» Parcours professionnels depuis la sortie du système éducatif en 1992 jusqu en avril 1997. On dispose d un calendrier mensuel des états occupés (emploi / chômage / inactivité / formation) On peut enrichir ce calendrier à partir de la description complète des emplois occupés (statut, profession, secteur, salaire, etc.) On a aussi des infos sur la scolarité, l origine sociale, les enfants et le conjoint, l opinion des jeunes interrogés. 4

Typologies de parcours : objectifs Explorerla diversité des trajectoires Identifier des groupes d individus «qui se ressemblent» Construire un résumé des parcours : une variable instrumentale qualitative non ordonnée (si on veut une variable de mesure : analyse factorielle). On peut modéliser après. 5

En préalable aux typologies de parcours Définir comment on décrit les parcours : La dimension, les états auxquels on s intéresse La mise en forme des trajectoires Indicateurs Calendrier mensuel Calendrier agrégé Définir la notion de ressemblance entre parcours Choisir un algorithme d agrégation. 6

UNE typologie de 26500 parcours centrée sur la précarité des statuts d emploi : 10 états CDI temps plein CDI temps partiel CDD temps plein CDD temps partiel Contrat alternance CES Service national Chômage Etudes, formation Inactivité 7

Méthode Calendrier mensuel d états, 56 mois CAH sur les 70 premiers facteurs de l ACM (distance du χ²) 31 classes retenues 8

2 représentations graphiques des classes Jaune = formation Noir = Service national Vert = Inactivité Bleu = Chômage Rouge = CES Turquoise = Alternance Rose-beige = CDD partiel Marron = CDD complet Fuschia = CDI partiel Violet = CDI complet Trajectoires individuelles rangées 9

Les 31 classes Elles sont ici regroupées selon la situation dominante. La plupart des états définissent des classes par leur concentration à un moment (jusqu à 100% des jeunes de la classe) Seuls CDD à temps plein et chômage sont plus diffus, et ne définissent chacun qu une classe. 10

Service national 11

12

13

CDI temps plein 14

CDI temps partiel 15

CDD temps plein 16

CDD temps partiel 17

18

19

Chômage 20

Inactivité 21

Aides à l interprétation Indicateurs moyens (% du temps passé en emploi, nbre de périodes de chômage, ) Représentations graphiques des classes Représentants des classes (parangons ou trajectoires types) Informations externes aux parcours (les individus) 22

Les représentants de la classe La trajectoire moyenne n a pas de sens : le barycentre de la classe n est pas une trajectoire. La trajectoire modale en est une (la suite des états modaux mois après mois). Le ou les individus les plus proches du barycentre peuvent être pris pour représentants. 23

Exemples de parangons Classe «CDI à temps partiel différé» : Jeune femme de 21 ans qui vit toujours chez ses parents (mère employée, père ouvrier), a abandonné après la 5ème. Après 13 mois de chômage elle est embauchée comme employée de maison à temps partiel chez des particuliers. Classe «CQ en prolongement des études» : Jeune homme qui a arrêté à 20 ans avec un bac pro comptabilité. Vit en couple, conjointe bachelière, employée. Après le lycée, signe pour 2 ans un contrat de qualification comme aide comptable dans un centre de gestion des retraites. A l issue de son CQ, devient responsable de service sur un CDI à temps plein (7500F / mois). 24

BILAN Quelques enseignements de la typologie 25

Part de l emploi 100 ˆ CDI plein direct CDI partiel puis plein SN après 1 an SN direct CQ direct CDI part direct CDI plein indirect 80 ˆ Altern ap 3a CDD plein CDD partiel différé CDI partiel différé ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ CDD partiel début ƒƒƒƒƒƒ CQ après1 anƒƒƒƒƒ SN après 2 ans ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ CES direct Altern fin SN après 3 ans IUFM 2 60 ˆ SN en fin CDD partiel en fin Formation après 1 an CES après 1a chômage Inactivité en début Chômage long, CES en fin CES après chômage long 40 ˆ Formation après débuts difficiles Sortie d activité 20 ˆ Reprise études 3è-4è années Chômage continu Inactivité continue 0 ˆ ˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒ 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000 Salaire médian 26

Le temps, inscrit dans les données, influe sur la distance 100% Formation Service national 80% Inactivité 60% Chômage CES Alternance CDD partiel CDD plein CDI partiel 40% CDI plein 20% 0% janv-9 2 juil-9 2 janv-9 3 juil-9 3 janv-9 4 juil-9 4 janv-9 5 juil-9 5 janv-9 6 juil-9 6 janv-9 7 27

Bilan sur les résultats Un épisode (SN, CQ, CES, ) n a pas le même sens selon le moment où il intervient dans le processus d insertion. Plus l emploi intervient tôt, meilleure est la trajectoire. Les épisodes de durée fixée, concentrés dans le temps (et parfois sur certaines populations) déterminent des classes (SN, études, CQ, CES) ; au contraire des états provisoires mais diffus (CDD, chômage). 28

Bilan sur la méthode Une typologie pour une question (choix des états, de la mise en forme des trajectoires). Indicateurs ou calendrier? Indicateurs dynamiques pour dégager des grands types, traiter plusieurs dimensions (+ Analyse Factorielle) Calendriers (agrégés ou non) pour la temporalité. Importance du choix de la nomenclature : finesse, homogénéité Ajuster la distance à la nature des états 29

Deuxième partie VARIATION DE CODAGES, METHODES ET DISTANCES 30

Les données Extraites de «Génération 92» (2422 parcours de jeunes femmes sorties au niveau du bac) Les variables du calendrier représentent des situations mensuelles de 57 mois de juillet 92 à avril 97. Codage de la situation mensuelle selon 8 modalités (8 états) 1- CDI 2- CDD 3- CES 4- Contrat de qualification ou d apprentissage 5- Recherche d emploi 6- Inactivité 7- Formation études 8- CDD stabilisé sur CDI 31

Remarques pour le choix d une distance - Du point de vue de l emploi, les modalités ne jouent pas un rôle équivalent (états + ou proches de l emploi). - Si deux modalités proviennent du découpage d une macromodalité, on veut que cette particularité commune se traduise par une proximité entre les états. - On veut éviter qu une division d un état en sous-états ne fasse disparaître des populations homogènes en les rendant trop petites (cas évité en général par la distance du χ²). 32

Le couple : codage et distance cas d une hiérarchie entre les modalités conjuguée avec la distance euclidienne Le codage : hiérarchisation suivant le coût en temps du passage par l état pour atteindre le CDI. Le coût : temps moyen à la sortie de l état pour atteindre un CDI. La distance euclidienne est adaptée à ce codage qui est équivalent à une mesure. Cette distance peut être perçue comme un cas particulier de pondération des états dans le calcul des distance. 1- CDI : 5 mois 2- CDD :6,91 mois 3- CES : 10,64 mois 4- CQ ou CA : 9,18 mois 5- Chômage : 7,67 6- Inactivité : 7,71 7- Formation études : 6,95 mois 8- CDD stabilisé sur CDI = CDI 33

Remarques - Le choix de la mesure est arbitraire et fait jouer un rôle particulier au CDI. - L évaluation du coût du passage au CDI doit être approfondie. - Les probabilités de passage au CDI peuvent être plus judicieuses. - La mesure du temps à partir de l entrée dans l état est aussi possible. 34

Représentation d un individu CES CQ ou CA Inactivité Chômage Formation étude CDD CDI 35

Choix d une distance qui privilégie une partie temporelle du parcours On peut vouloir privilégier une partie de l espace temps sur lequel les données sont renseignées : En supprimant certains mois (cas général). En mettant un poids sur les mois (cas de l exemple). On a décidé de sous pondérer les 12 premiers et les 12 derniers mois en choisissant pour distance : d 2 ( X, Y ) = α ( X i Y i ) i Ω où α vaut 1 pour les 12 premiers et 12 derniers mois et 2 pour les autres, Ω est l ensemble des mois considérés. 2 36

Choix de l algorithme de classification Les classiques : - La classification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné a priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. - L algorithme de Kohonen (SOM). nombre de classes fixé, données de grande taille, cartes de Kohonen, notion de voisinage entre les classes. 37

Le nombre de classes Il n y a pas de règle pour déterminer le nombre de classes. Les critères tels que les tests de Fisher ou Wilks peuvent être utilisés. Dans le cas de la classification hiérarchique avec la distance de Ward,on préfère le niveau à U classes à celui à U+1 si le saut d inertie entre ces deux regroupements est faible mais ce critère ne permet pas de choisir le meilleur niveau de classification. 38

L algorithme de Kohonen L algorithme de Kohonen (Kohonen 1982) est un processus d autoorganisation (sans superviseur) utilisé le plus souvent pour la classification. Il permet d analyser des données qui ont une structure non linéaire. Il prend pour support une carte constituée d un réseau où les unités sont ordonnées de sorte que chaque unité est entourée de ses voisines. Il fait correspondre à chaque élément de l espace d entrée une unité de la carte. Deux éléments voisins au sens de la distance sur l espace d entrée sont associés à la même unité ou des unités voisines sur la carte. SAMOS (université de Paris1, http://samos.univ-paris1.fr) 1 2 3 10 11 12 16 20 34 52 56 39 91 92 100

Point de vue de l utilisateur - Base de données - Distance d sur - Individu i R p R p Apprentis sage - U classes. - Notion de voisinage entre ces classes matérialisée par une organisation de U unités u. Propriété : Transmission de la propriété de voisinage : Deux individus associés à des unités voisines sur la carte sont voisins dans l espace des données. Classification : Deux individus associés à la même unité sont dans la même classe. Les représentants de classes obtenus par apprentissage coïncident avec les barycentres de classes. Ajustement : Les U représentants constituent un résumé de l espace des données et la carte une surface non linéaire d ajustement. 40

Les individus sont répartis dans leurs classes d affectation CQ ou CES ->CDI CES-Chômage DD ->CDI CDI immédiat Perte de CDI 41

Les représentants de classes sont tracés dans leur unité d affectation. Deux niveaux de classification. On effectue une classification hiérarchique de type Ward des représentants de classes pour obtenir des macro-classes qui permettent de visualiser la structure de la carte dans l espace des données. 42

Contenu des classes et homogénéité Ecart type par mois pour chaque classe Nombre de sauts par mois pour chaque classe 43

Deuxième distance 1ère distance 2ème distance 44

Deuxième distance CES 1ère distance 2ème distance CQ 45

Deuxième distance : Conclusions Grande stabilité : on retrouve à peu près la même carte. Les classes avec la deuxième distance sont légèrement plus typées (Contrats de qualification et CES). 46

Analyse résumée de la carte ces - recherche d'emploi instable qui n'aboutit jamais au cdd cdi perte de cdd ou cdi puis recherche d'emploi perte de cdd ou cdi puis ces ces ou contrat de qualif puis cdd ou cdi recherche d'emploi puis cdi instable vers cdd cdi perte de cdi cdd puis cdi cdi rapide cdi tout de suite cdi tardif Deuxième distance 47

Intégration de variables exogènes Croisement de la classification avec une variable qualitative 48

Les classes sont caractérisées par une variable qualitative exogène DI ou CDD tardif Inactivité Abandon de CDI 49

Les classes sont caractérisées par une variable qualitative exogène Nb d enfants 1->3+ : Cas 20% 0, 40% 1, 60% 2, 80% 3+ 50

Comparaison avec les autres classifications Pcal4 Plhir3 51

Conclusion + Rapprochements de comportements voisins avec des états différents (par exemple «CQ puis CDI» avec «CES puis CDI» puis avec «CES puis CDI»). Le rapprochement CDD-CDI ou CQ-CES, la visualisation des proximités et le nombre de classes favorisent cette propriété. Apparition de «mouvement» tel que «CDI tout de suite vers CDI tardif». Apparition de populations moins importantes mais homogènes (par exemple «perte de CDI», cohérence et rapprochement entre les diverses sortes de perte de CDI). Grande cohérence entre les deux distances (avec ou sans poids sur le temps). Une représentation et un ajustement par une surface non linéaire adaptée à la classification 52

Conclusion - La mesure de la durée moyenne d accession au CDI n est pas satisfaisante. Il faudrait peut-être prendre pour référence des données extérieures avec un historique plus grand ou donner une valeur à «n a pas atteint le CDI». Le CDD suivi de CDI doit être regroupé avec CDD. Doit-on créer une subdivision de CES : «CES suivi de CDI»? Etalonnage des modalités à partir de la probabilité d atteindre le CDI à partir de tel état est-il plus judicieux? Quel poids et quelle partie de trajectoire doivent être privilégiés? 53

L état des propriétés théoriques de L algorithme de Kohonen Il n y a pas de règle pour choisir les paramètres (taille de la grille, fonction d apprentissage). Les travaux théoriques en particulier sur la convergence de l algorithme sont partiels. Eventuels contrôles (par exemple à partir de techniques utilisant le bootstrap). Cf. les travaux du SAMOS (M. Cottrell, Faure, G. Pagès) (http://samos.univ-paris1.fr/accueil.html) 54

Conclusion Les «conclusions» ne doivent pas stopper l investigation de nouvelles directions. Chaque distance correspond à une approche. Chaque approche impose sa distance. 55

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 56