LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1
PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes de «Génération 92» pour aborder les notions de parcours, de trajectoire-type, les questions de représentation et d interprétation des classes. Deuxième partie : présentation d une variété d approches correspondant à une diversité - de codages de l information - de distances - de techniques d analyse. 2
Références http://www.cereq.fr/cereq/gene92/travail.htm «Des typologies de parcours. Méthodes et usages.», Yvette Grelet, note de travail Génération 92 n 20, Juillet 2002. http://mimosa.cereq.fr/rousset 3
Première partie Les parcours des 26500 jeunes de la «Génération 92» Parcours professionnels depuis la sortie du système éducatif en 1992 jusqu en avril 1997. On dispose d un calendrier mensuel des états occupés (emploi / chômage / inactivité / formation) On peut enrichir ce calendrier à partir de la description complète des emplois occupés (statut, profession, secteur, salaire, etc.) On a aussi des infos sur la scolarité, l origine sociale, les enfants et le conjoint, l opinion des jeunes interrogés. 4
Typologies de parcours : objectifs Explorerla diversité des trajectoires Identifier des groupes d individus «qui se ressemblent» Construire un résumé des parcours : une variable instrumentale qualitative non ordonnée (si on veut une variable de mesure : analyse factorielle). On peut modéliser après. 5
En préalable aux typologies de parcours Définir comment on décrit les parcours : La dimension, les états auxquels on s intéresse La mise en forme des trajectoires Indicateurs Calendrier mensuel Calendrier agrégé Définir la notion de ressemblance entre parcours Choisir un algorithme d agrégation. 6
UNE typologie de 26500 parcours centrée sur la précarité des statuts d emploi : 10 états CDI temps plein CDI temps partiel CDD temps plein CDD temps partiel Contrat alternance CES Service national Chômage Etudes, formation Inactivité 7
Méthode Calendrier mensuel d états, 56 mois CAH sur les 70 premiers facteurs de l ACM (distance du χ²) 31 classes retenues 8
2 représentations graphiques des classes Jaune = formation Noir = Service national Vert = Inactivité Bleu = Chômage Rouge = CES Turquoise = Alternance Rose-beige = CDD partiel Marron = CDD complet Fuschia = CDI partiel Violet = CDI complet Trajectoires individuelles rangées 9
Les 31 classes Elles sont ici regroupées selon la situation dominante. La plupart des états définissent des classes par leur concentration à un moment (jusqu à 100% des jeunes de la classe) Seuls CDD à temps plein et chômage sont plus diffus, et ne définissent chacun qu une classe. 10
Service national 11
12
13
CDI temps plein 14
CDI temps partiel 15
CDD temps plein 16
CDD temps partiel 17
18
19
Chômage 20
Inactivité 21
Aides à l interprétation Indicateurs moyens (% du temps passé en emploi, nbre de périodes de chômage, ) Représentations graphiques des classes Représentants des classes (parangons ou trajectoires types) Informations externes aux parcours (les individus) 22
Les représentants de la classe La trajectoire moyenne n a pas de sens : le barycentre de la classe n est pas une trajectoire. La trajectoire modale en est une (la suite des états modaux mois après mois). Le ou les individus les plus proches du barycentre peuvent être pris pour représentants. 23
Exemples de parangons Classe «CDI à temps partiel différé» : Jeune femme de 21 ans qui vit toujours chez ses parents (mère employée, père ouvrier), a abandonné après la 5ème. Après 13 mois de chômage elle est embauchée comme employée de maison à temps partiel chez des particuliers. Classe «CQ en prolongement des études» : Jeune homme qui a arrêté à 20 ans avec un bac pro comptabilité. Vit en couple, conjointe bachelière, employée. Après le lycée, signe pour 2 ans un contrat de qualification comme aide comptable dans un centre de gestion des retraites. A l issue de son CQ, devient responsable de service sur un CDI à temps plein (7500F / mois). 24
BILAN Quelques enseignements de la typologie 25
Part de l emploi 100 ˆ CDI plein direct CDI partiel puis plein SN après 1 an SN direct CQ direct CDI part direct CDI plein indirect 80 ˆ Altern ap 3a CDD plein CDD partiel différé CDI partiel différé ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ CDD partiel début ƒƒƒƒƒƒ CQ après1 anƒƒƒƒƒ SN après 2 ans ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ CES direct Altern fin SN après 3 ans IUFM 2 60 ˆ SN en fin CDD partiel en fin Formation après 1 an CES après 1a chômage Inactivité en début Chômage long, CES en fin CES après chômage long 40 ˆ Formation après débuts difficiles Sortie d activité 20 ˆ Reprise études 3è-4è années Chômage continu Inactivité continue 0 ˆ ˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒ 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000 Salaire médian 26
Le temps, inscrit dans les données, influe sur la distance 100% Formation Service national 80% Inactivité 60% Chômage CES Alternance CDD partiel CDD plein CDI partiel 40% CDI plein 20% 0% janv-9 2 juil-9 2 janv-9 3 juil-9 3 janv-9 4 juil-9 4 janv-9 5 juil-9 5 janv-9 6 juil-9 6 janv-9 7 27
Bilan sur les résultats Un épisode (SN, CQ, CES, ) n a pas le même sens selon le moment où il intervient dans le processus d insertion. Plus l emploi intervient tôt, meilleure est la trajectoire. Les épisodes de durée fixée, concentrés dans le temps (et parfois sur certaines populations) déterminent des classes (SN, études, CQ, CES) ; au contraire des états provisoires mais diffus (CDD, chômage). 28
Bilan sur la méthode Une typologie pour une question (choix des états, de la mise en forme des trajectoires). Indicateurs ou calendrier? Indicateurs dynamiques pour dégager des grands types, traiter plusieurs dimensions (+ Analyse Factorielle) Calendriers (agrégés ou non) pour la temporalité. Importance du choix de la nomenclature : finesse, homogénéité Ajuster la distance à la nature des états 29
Deuxième partie VARIATION DE CODAGES, METHODES ET DISTANCES 30
Les données Extraites de «Génération 92» (2422 parcours de jeunes femmes sorties au niveau du bac) Les variables du calendrier représentent des situations mensuelles de 57 mois de juillet 92 à avril 97. Codage de la situation mensuelle selon 8 modalités (8 états) 1- CDI 2- CDD 3- CES 4- Contrat de qualification ou d apprentissage 5- Recherche d emploi 6- Inactivité 7- Formation études 8- CDD stabilisé sur CDI 31
Remarques pour le choix d une distance - Du point de vue de l emploi, les modalités ne jouent pas un rôle équivalent (états + ou proches de l emploi). - Si deux modalités proviennent du découpage d une macromodalité, on veut que cette particularité commune se traduise par une proximité entre les états. - On veut éviter qu une division d un état en sous-états ne fasse disparaître des populations homogènes en les rendant trop petites (cas évité en général par la distance du χ²). 32
Le couple : codage et distance cas d une hiérarchie entre les modalités conjuguée avec la distance euclidienne Le codage : hiérarchisation suivant le coût en temps du passage par l état pour atteindre le CDI. Le coût : temps moyen à la sortie de l état pour atteindre un CDI. La distance euclidienne est adaptée à ce codage qui est équivalent à une mesure. Cette distance peut être perçue comme un cas particulier de pondération des états dans le calcul des distance. 1- CDI : 5 mois 2- CDD :6,91 mois 3- CES : 10,64 mois 4- CQ ou CA : 9,18 mois 5- Chômage : 7,67 6- Inactivité : 7,71 7- Formation études : 6,95 mois 8- CDD stabilisé sur CDI = CDI 33
Remarques - Le choix de la mesure est arbitraire et fait jouer un rôle particulier au CDI. - L évaluation du coût du passage au CDI doit être approfondie. - Les probabilités de passage au CDI peuvent être plus judicieuses. - La mesure du temps à partir de l entrée dans l état est aussi possible. 34
Représentation d un individu CES CQ ou CA Inactivité Chômage Formation étude CDD CDI 35
Choix d une distance qui privilégie une partie temporelle du parcours On peut vouloir privilégier une partie de l espace temps sur lequel les données sont renseignées : En supprimant certains mois (cas général). En mettant un poids sur les mois (cas de l exemple). On a décidé de sous pondérer les 12 premiers et les 12 derniers mois en choisissant pour distance : d 2 ( X, Y ) = α ( X i Y i ) i Ω où α vaut 1 pour les 12 premiers et 12 derniers mois et 2 pour les autres, Ω est l ensemble des mois considérés. 2 36
Choix de l algorithme de classification Les classiques : - La classification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné a priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. - L algorithme de Kohonen (SOM). nombre de classes fixé, données de grande taille, cartes de Kohonen, notion de voisinage entre les classes. 37
Le nombre de classes Il n y a pas de règle pour déterminer le nombre de classes. Les critères tels que les tests de Fisher ou Wilks peuvent être utilisés. Dans le cas de la classification hiérarchique avec la distance de Ward,on préfère le niveau à U classes à celui à U+1 si le saut d inertie entre ces deux regroupements est faible mais ce critère ne permet pas de choisir le meilleur niveau de classification. 38
L algorithme de Kohonen L algorithme de Kohonen (Kohonen 1982) est un processus d autoorganisation (sans superviseur) utilisé le plus souvent pour la classification. Il permet d analyser des données qui ont une structure non linéaire. Il prend pour support une carte constituée d un réseau où les unités sont ordonnées de sorte que chaque unité est entourée de ses voisines. Il fait correspondre à chaque élément de l espace d entrée une unité de la carte. Deux éléments voisins au sens de la distance sur l espace d entrée sont associés à la même unité ou des unités voisines sur la carte. SAMOS (université de Paris1, http://samos.univ-paris1.fr) 1 2 3 10 11 12 16 20 34 52 56 39 91 92 100
Point de vue de l utilisateur - Base de données - Distance d sur - Individu i R p R p Apprentis sage - U classes. - Notion de voisinage entre ces classes matérialisée par une organisation de U unités u. Propriété : Transmission de la propriété de voisinage : Deux individus associés à des unités voisines sur la carte sont voisins dans l espace des données. Classification : Deux individus associés à la même unité sont dans la même classe. Les représentants de classes obtenus par apprentissage coïncident avec les barycentres de classes. Ajustement : Les U représentants constituent un résumé de l espace des données et la carte une surface non linéaire d ajustement. 40
Les individus sont répartis dans leurs classes d affectation CQ ou CES ->CDI CES-Chômage DD ->CDI CDI immédiat Perte de CDI 41
Les représentants de classes sont tracés dans leur unité d affectation. Deux niveaux de classification. On effectue une classification hiérarchique de type Ward des représentants de classes pour obtenir des macro-classes qui permettent de visualiser la structure de la carte dans l espace des données. 42
Contenu des classes et homogénéité Ecart type par mois pour chaque classe Nombre de sauts par mois pour chaque classe 43
Deuxième distance 1ère distance 2ème distance 44
Deuxième distance CES 1ère distance 2ème distance CQ 45
Deuxième distance : Conclusions Grande stabilité : on retrouve à peu près la même carte. Les classes avec la deuxième distance sont légèrement plus typées (Contrats de qualification et CES). 46
Analyse résumée de la carte ces - recherche d'emploi instable qui n'aboutit jamais au cdd cdi perte de cdd ou cdi puis recherche d'emploi perte de cdd ou cdi puis ces ces ou contrat de qualif puis cdd ou cdi recherche d'emploi puis cdi instable vers cdd cdi perte de cdi cdd puis cdi cdi rapide cdi tout de suite cdi tardif Deuxième distance 47
Intégration de variables exogènes Croisement de la classification avec une variable qualitative 48
Les classes sont caractérisées par une variable qualitative exogène DI ou CDD tardif Inactivité Abandon de CDI 49
Les classes sont caractérisées par une variable qualitative exogène Nb d enfants 1->3+ : Cas 20% 0, 40% 1, 60% 2, 80% 3+ 50
Comparaison avec les autres classifications Pcal4 Plhir3 51
Conclusion + Rapprochements de comportements voisins avec des états différents (par exemple «CQ puis CDI» avec «CES puis CDI» puis avec «CES puis CDI»). Le rapprochement CDD-CDI ou CQ-CES, la visualisation des proximités et le nombre de classes favorisent cette propriété. Apparition de «mouvement» tel que «CDI tout de suite vers CDI tardif». Apparition de populations moins importantes mais homogènes (par exemple «perte de CDI», cohérence et rapprochement entre les diverses sortes de perte de CDI). Grande cohérence entre les deux distances (avec ou sans poids sur le temps). Une représentation et un ajustement par une surface non linéaire adaptée à la classification 52
Conclusion - La mesure de la durée moyenne d accession au CDI n est pas satisfaisante. Il faudrait peut-être prendre pour référence des données extérieures avec un historique plus grand ou donner une valeur à «n a pas atteint le CDI». Le CDD suivi de CDI doit être regroupé avec CDD. Doit-on créer une subdivision de CES : «CES suivi de CDI»? Etalonnage des modalités à partir de la probabilité d atteindre le CDI à partir de tel état est-il plus judicieux? Quel poids et quelle partie de trajectoire doivent être privilégiés? 53
L état des propriétés théoriques de L algorithme de Kohonen Il n y a pas de règle pour choisir les paramètres (taille de la grille, fonction d apprentissage). Les travaux théoriques en particulier sur la convergence de l algorithme sont partiels. Eventuels contrôles (par exemple à partir de techniques utilisant le bootstrap). Cf. les travaux du SAMOS (M. Cottrell, Faure, G. Pagès) (http://samos.univ-paris1.fr/accueil.html) 54
Conclusion Les «conclusions» ne doivent pas stopper l investigation de nouvelles directions. Chaque distance correspond à une approche. Chaque approche impose sa distance. 55
LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 56