Méthode d analse régonale sur données ndvduelles : Introducton aux modèles mult-nveaux Magale Dnaucourt, INSEE, Drecton Régonale du Languedoc-Roussllon 74 Allée Henr II de Montmorenc - 34064 Monteller Cedex Résumé L obectf de ces travaux est d exlorer des méthodes d analses statstques our mesurer et comarer l nfluence du contexte local sur un hénomène. Par exemle, résder dans une régon eut consttuer un handca ou au contrare un avantage our l nserton des ndvdus sur le marché du traval en rason du contexte économque et socal de la régon. Pluseurs méthodes ont été résentées dans la lttérature our mesurer des effets régonaux : méthode ar régresson lnéare, méthode shft and share, résentées ar H. JAYET (993) ou encore étude de la corrélaton des résdus. La luart de ces méthodes utlsent des données agrégées au nveau géograhque étudé et ermettent d arécer les écarts régonaux en solant les effets structurels. Ces modèles n autorsent ceendant as à conclure sur les ndvdus, c est ce que D. COURGEAU (997) aelle l erreur écologque. Il est donc nécessare de travaller sur des modèles au nveau ndvduel renant en comte l envronnement dans lequel l ndvdu vt. Les méthodes classques our rendre en comte la dmenson géograhque consstent sot à réalser des modèles régonaux, sot à ntégrer dans le modèle ndvduel une varable d aartenance à la régon. Cette dernère méthode suose toutefos un certan nombre d hothèses, ar exemle que l nfluence sot la même our tous les ndvdus. D autres varables agrégées au nveau géograhque comme le taux de chômage euvent également être ntégrées dans le modèle (modèle contextuel). Sécfer dans un modèle logstque sur données ndvduelles des ndcateurs agrégés au nveau satal étudé, ermet d obtenr des effets contextuels. Les modèles mult-nveaux, ntalement déveloés en scences socales et lus artculèrement dans l éducaton ont été résentés our rendre en comte une dmenson contextuelle dans l analse ndvduelle, ar exemle l aartenance à une classe ou une école dans l analse des nveaux scolares. Ils mesurent ans des «effets de graes». Ces modèles sont adatés our rendre en comte une dmenson géograhque dans un modèle estmé au nveau ndvduel, ce qu ermet de reérer des effets régonaux. Summar The am of ths work s to exlore methods of statstcal analses to measure and comare the nfluence of the context on an event. For examle, to resde n an area can consttute an handca or on the contrar an advantage for the nserton on the labour market because of the economc and socal context of ths area. Several methods have been exlaned n the lterature to measure regonal effects, namel method b lnear regresson, method shft and share, resented b H. JAYET (993) or analse of the correlaton of the resduals. Most of methods use aggregate data at the geograhcal level studed and make t ossble to arecate the regonal varatons b solatng the structural effects. Anwa, t s mossble to conclude about the ndvduals wth these models, t s what D.COURGEAU (997) names the ecologcal error. It s necessar to work on models at the ndvdual level takng nto account ndvdual s own envronment. The tradtonal methods to take nto account geograhcal dmenson consst n ether carrng out regonal models, or ntegrate n the ndvdual model a varable of membersh nto the area. However, ths method suoses a certan number of assumtons, for examle that the nfluence s the same for everone. Other varables ncororated at the geograhcal level lke the unemloment rate can be also ntegrated n the model (contextual model). To secf n a logstc model on ndvdual data of the ndcators ncororated at the studed sace level, make t ossble contextual effects obtenton. The multlevel models, ntall develoed n socal scences and more artcularl n educaton were resented to take nto account a contextual dmenson n the ndvdual analss, for examle membersh of a class or a school n the analss of the school levels. The have been develoed to take herarchcal structure nto account. These models are adated to take nto account a geograhcal dmenson n a model estmated at the ndvdual level, whch makes t ossble to locate regonal effects.
Comment rendre en comte la dmenson satale des hénomènes étudés? L obectf de cette étude est de comarer les méthodes statstques exstantes our rendre en comte l nfluence de l envronnement sur l ndvdu. L mortance de tenr comte smultanément de caractérstques ndvduelles et agrégées dans l exlcaton de hénomènes a été exrmée ar de nombreux auteurs ces vngt dernères années, ntalement dans le domane des scences de l éducaton (mse en évdence d effets «classes») us en démograhe. En effet, l exstence de corrélaton entre des données agrégées ne ermet as de conclure sur les ndvdus, c est ce que D.COURGEAU (997) aelle l erreur écologque. Toutefos, travaller sur des données ndvduelles sans rendre en comte l effet de l envronnement sur l ndvdu (corrélaton entre ndvdus d une même grae, classe ou régon ) condut à l erreur atomste et ans à la non-valdté des hothèses du modèle à un seul nveau. Le but de cette étude est de montrer l aort des modèles mult-nveaux dans le cadre de cette roblématque. Nous nous ntéressons à la mesure d un effet géograhque à artr de données ndvduelles. Le nveau d agrégaton chose est la régon. Pour mesurer des effets régonaux, nous comarerons les méthodes classques exstantes us ntrodurons les modèles mult-nveaux. Dans le cadre de l étude, la robablté de erdre son emlo selon un certan nombre de crtères, ndvduels ou collectfs est examnée. Les données sont ssues des enquêtes «Emlo» de l INSEE de 996 à 000 et ortent sur les ersonnes en actvté une année n et au chômage l année n+. Le modèle de base est donc le modèle logt suvant : Log ( ) = α + X β où est la robté de erdre son emlo. X, le vecteur des caractérstques ndvduelles (sexe, dlôme, moblté géograhque, te de contrat, condton d emlo, catégore socorofessonnelle, secteur d actvté, ancenneté dans l entrerse). A artr de ce modèle global, l est légtme de se demander s quelle que sot la régon de résdence, les robabltés sont dentques et s l exste des facteurs lus ou mons à rsque selon les régons. - Modèles régonaux Une remère méthode our réondre à cette nterrogaton est de réalser un modèle ar zone géograhque. Cette analse ermet de mesurer l effet de chaque dmenson exlcatve our chacune des régons. Pour la régon le modèle suvant est alqué : Log( ) = α + X β La comarason des coeffcents (α +β ) ermet de trer des conclusons quant-à des dfférences régonales des effets sur chaque dmenson exlcatve. La réalsaton de cette méthode sur les données de l enquête Emlo ne ermet ceendant as de conclure sur des effets régonaux. En effet, le fable nombre d observatons dans les régons condut à de forts écarts-tes des coeffcents n autorsant as la concluson de sgnfcatvté des écarts entre coeffcents. Toutefos, l Alsace se dstngue de la maorté des régons ar un mondre rsque de chômage our un grand nombre de caractérstques alors que les régons Provence-Ales-Côte d Azur-Corse, Ile-de-France et Languedoc-Roussllon, résentent des rsques lus mortants our l ndvdu de référence. Les femmes sont lus à rsque dans des régons Pcarde, et mons en Potou- Charentes. En ratque cette méthode est eu utlsable our luseurs rasons. D une art, l est nécessare d avor à dsoston un grand nombre de données our chaque zone géograhque our tester l hothèse d égalté des coeffcents régonaux. Plus le nombre d observatons est fable, lus les écarts-tes des coeffcents sont forts, ce qu rend les comarasons mossbles. D autre art, elle suose que chaque zone géograhque sot rerésentée dans les données. Enfn, elle se révèle fastdeuse s le nombre de zones à étuder est mortant. - Modèle avec ndcatrces de régons Pour évter les roblèmes que ose le fable nombre d observatons dsonbles our chaque régon, l est ossble de artr d un modèle natonal et de le comléter en ntégrant des varables géograhques, comme des ndcatrces de régons. Utlsée dans un grand nombre d études, cette méthode ermet de mesurer des dfférences nter-régonales ar le bas d ndcatrces de régons, varables résumant des effets locaux nobservables.
Le modèle s écrt alors ans : Log ( ) = + X β + α Où δr est le aramètre régonal et R l ndcatrce régonale. Toutes choses égales ar alleurs, un ndvdu de la régon k a δ k δ fos lus de rsques que l événement se roduse qu un ndvdu de la régon. Ans, dans le cadre de notre exemle, seule l Alsace se dstngue avec un rsque lus fable que dans la maorté des régons. Dans le Nord-Pas de Calas, les régons médterranéennes, l Ile-de-France, le rsque de erdre son emlo est lus mortant que dans les régons Bourgogne, Franche-Comté, Pas-de-la-Lore, Bretagne, Potou-Charentes et Alsace. Cette méthode résente l avantage d être smle d utlsaton. Les données dsonbles au nveau ndvduel sont souvent ssues d enquêtes natonales, ce qu consttue eu d ndvdus au nveau régonal our ouvor analser des sous-groues dentques. Elle ermet de comarer des effets régonaux globaux. Toutefos, elle suose l hothèse suvante : l effet régonal ans mesuré est dentque toute chose égale ar alleurs, c est-à-dre qu l est le même our tous les ndvdus. Cette hothèse d addtvté du modèle est très forte, usque ar exemle, dans le cas de notre étude, cela revent à dre que le sur-rsque de erte d emlo en Languedoc-Roussllon est dentque chez les salarés en CDI et chez les ttulares de la foncton ublque. Une façon de détourner l addtvté du modèle conssterat à croser les varables géograhques et le statut de l emlo ar exemle s on suose que l effet régonal n est as le même selon les statuts. Toutefos, cec accroît consdérablement le nombre de varables du modèle et les résultats sont rarement sgnfcatfs. 3 - Modèles contextuels Dans les modèles contextuels classques, l nfluence du contexte sur l ndvdu est arochée ar une varable commune au nveau agrégé, ar exemle, le taux de chômage des régons, le PIB régonal Le modèle logt s écrt alors : Log( ) = α + X β + A δ R R où AR est l ensemble des varables au nveau agrégé. Dans notre étude, la art des ndvdus en emlo à durée lmtée dans la oulaton actve occuée a été ntégrée au modèle de base. Cette art est calculée ar régon et estmée à artr du Recensement de la Poulaton de 999. Les aramètres estmés sont les mêmes que our le modèle logt smle France entère, exceté our la constante. L estmaton du aramètre our le taux d emlos dts «récares» est sgnfcatvement dfférente de 0 au seul de 0% et est égale à 0.047. La ostvté du aramètre témogne du fat que dans une régon, lus le taux d emlos récares est mortant, lus les ndvdus, quel que sot l emlo occué, ont de rsques de erdre leurs emlos. Il a donc un hénomène de contagon, usque même les ndvdus en emlo stable, s ls sont dans une régon à fort taux d emlos récares ont lus de rsques de erdre leurs emlos. Ans, dans les régons où le marché du traval est fragle, c est-à-dre où la art d emlos à durée lmtée est lus mortante, cette fraglté se constatera sur l ensemble des actfs occués. Cet effet est un effet contextuel usqu l agt sur l ensemble des ndvdus. L envronnement oue donc un rôle sur le hénomène ndvduel étudé. Le modèle classque dans lequel sont ntégrées les ndcatrces de régon eut être désgné comme un modèle contextuel dans la mesure où rendre en comte la régon de résdence de l ndvdu est consdérer comme une ntégraton de l envronnement dans lequel l ndvdu vt dans le modèle à travers une varable communautare. 4 - Modèles Mult-nveaux. Les méthodes d analse mult-nveaux ont été déveloées, en artculer, ar H. Goldsten (Londres) et J.J. Hox (Amsterdam) dans les scences de l éducaton et alquées lus généralement ar la sute, notamment en démograhe et dans le domane santare. Elles sont en artculer utlsées our rechercher des corrélatons entre, d une art, des ndcateurs ndvduels et, d autre art, des varables soco-économques rses en comte smultanément à luseurs nveaux : ndvdu, régon, etc. Elles ermettent ans d étuder de quelle manère l envronnement soco-économque des ndvdus nflue sur les assocatons statstques observées au nveau ndvduel. Pour comrendre ces modèles, l est mortant de comrendre ourquo ls ont été déveloés. Dans les années soxante-dx, une étude réalsée aurès d élèves avança que des élèves arenant la R δ r
lecture selon une méthode dte «formelle» rogressaent lus vte que les autres. Cette étude utlsat les méthodes d analses de régresson multle classque, travallant unquement sur le nveau ndvduel et gnorant l aartenance à une classe. Les résultats furent statstquement sgnfcatfs. Ceendant en 98, Atkn démontra que s la même étude est réalsée en tenant comte des groues auxquels aartennent les élèves (classes, même rofesseur), les dfférences usqu alors sgnfcatves dsarassent et les élèves aant ensegné selon la méthode «formelle» ne se montrent as dfférents des autres ar raort à leur rogrès scolare. Cette étude est le remer exemle le lus mortant d analse mult-nveaux. Elle a démontré l exstence d un effet «Classe». Sute à ces travaux et à leurs conclusons, les roblèmes lés à la non-rse en comte de la structure hérarchque des données ont ben été reconnus. Ceendant faute d outls ussants, ls demeuraent dffcles à résoudre. Auourd hu, l exste des outls adatés our réondre à ce te de roblème (SAS, MLWIN ). A - Le Modèle Sot mesurant le fat de erdre son emlo our un ndvdu noté résdant dans une régon notée. rend la valeur avec la robablté et 0 avec la robablté (- ). Sot J le nombre total de régons. Dans le cas du modèle logt, La robablté s écrt : P( our que la caractérstque à estmer = / x ) = + e Avec x l ensemble des varables. S on se lmte au nveau ndvduel, le modèle natonal dt à un seul nveau est de la forme : log( ) = Π = X β = a x 0 β + a x + e sot égale à Le modèle à un nveau ostule que les observatons soent ndéendantes. Ans, les termes d'erreur sont eux-mêmes ndéendants avec une moenne nulle et une varance σ constante. Le ostulat de la varance constante mlque l'hothèse que la relaton sot la même à l'ntéreur de chaque régon, usque les e sont ndéendants. Ce deuxème ostulat est rems en cause ar le modèle multnveaux, usqu l suose une corrélaton entre les ndvdus d un même nveau agrégé. S un modèle ar régon état réalsé, nous aurons J modèles de la forme suvante : Pour la régon : où log( ) = Π = X β = a + a a et a sont les aramètres de la ème régon, u étant le résdu aléatore de moenne nulle et de varance σ e. On ourrat estmer autant de aramètre a et x + u a qu l a de régons mas la fablesse du nombre de données rend dffcle la comarason entre régons des aramètres s les écarts-tes sont tro élevés. Il en est de même s les observatons ne rerésentent as toutes les enttés agrégées. Une autre façon d ntrodure les régons dans l équaton est de suoser que les aramètres a et a sont aléatores et vont varer d une régon à une autre. C est un modèle mult-nveaux artculer, où l on suose que l effet aléatore agrégé (régon) oue sur la constante du modèle et sur le aramètre de l exlcatve bnare X. Ans on ose : a a = a = a + u + u a et a sont les aramètres moens austés sur toutes les régons, aléatores de moenne nulle dont on va estmer les varances et covarance. J = u 0, u 0 = J = = u et u sont des varables
Le modèle devent : Log ( ) = Π = a + u + + a x ( a + u ) x + e = a + a * x + ( u + u x e ) a u u x + e Une arte est ndéendante de la régon ( + ), et une arte est aléatore qu déend à la fos de la régon et de l ndvdu ( + ). La arte aléatore n est donc lus normalement dstrbuée. Les varances au nveau agrégé et au nveau ndvdu sont suosées constantes et ermettent de résumer les termes e 0, u 0 et u. var( e var( u var( u cov( u, u u u = u La varance au nveau ndvduel est égale à, et l on travallera sur les varances et covarances au nveau agrégé. La foncton logt de la robablté que sot égale à dans la régon our les ndvdus n aant as la caractérstque x s écrt : Π, sa varance entre régons est égale à = a + u La foncton logt de la robablté que caractérstque x s écrt : Π = a + a + u + u σ u sot égale à dans la régon our les ndvdus aant la, sa varance entre régons est égale à σ + σ + σ u u u L étude de ces varances, covarances et des corrélatons ermet de défnr l effet régonal. Ans, dans un modèle mult-nveaux aléatore, tros aramètres de lus que dans une régresson logstque smle sont à estmer: σ, u σ, u σ u. L'nterrétaton des coeffcents fxes est dentque à celle d'une régresson logstque smle. Les aramètres non aléatores estmés avec un modèle mult-nveaux sont en général roches de ceux que l on obtent avec un modèle logt smle. Quand l effet des aléas lés à la caractérstque est non nul au nveau régonal, on observe une forte augmentaton de la dserson de ces aramètres : Doublement de l écart-te. Dans le cas de notre exemle, lorsqu un modèle mult-nveaux sur la constante et la varable exlcatve «emlo à durée lmtée» est alqué, la varance du coeffcent de la varable exlcatve (0.06) a doublé ar raort à la varance de ce aramètre dans le modèle logt smle (0.034), ce qu lasse suoser qu l exste ben des effets régonaux. B - Résultats de l étude L analse mult-nveaux a été alquée aux varables exlcatves de l étude, (sexe, dlôme, moblté géograhque, te de contrat, condton d emlo, catégore socorofessonnelle, secteur d actvté, ancenneté dans l entrerse). Des effets régonaux sur la erte d emlo lus ou mons mortants ont u être ms en évdence : Il exste un effet régonal global, certanes régons telles que le Languedoc-Roussllon, la Provence- Ales Côte d Azur et le Nord résentant des sur-rsques our leurs habtants de erdre leurs emlos, alors que d autres régons résentent de rsques mondres : Alsace, Franche-Comté, Potou- Charentes,Bretagne. Pour les emlos dts «stables», l exste de fortes dsartés régonales, qu s atténuent our les emlos à durée lmtée. Dans les régons où le rsque est lus fort qu alleurs, l nfluence de la caractérstque «Emlo à durée lmtée» est lus fable, en revanche our les régons ou le rsque est fable, l nfluence de cette caractérstque est lus forte. Le Nord-Pas-de-Calas et la Pcarde font exceton : les rsques de chômage sont encore lus mortants qu alleurs our les ndvdus en emlo à durée lmtée. Pour les ttulares de la foncton ublque, le rsque de erte d emlo est très fable quelle que sot la régon. Toutes les régons ont un rsque de même ordre. L effet régonal est donc nul our cette sousoulaton. Le modèle vérfe notre hothèse d négalté des effets régonaux selon le statut.
Pour les femmes, les dsartés régonales même s elles exstent sont atténuées comaratvement aux dsartés régonales sur le marché du traval masculn. Ce résultat eut s exlquer ar une mondre hétérogénété du marché du traval fémnn comaratvement à celu des hommes. Des effets de structure non rs en comte dans le modèle seraent une cause des dsersons régonales lus mortantes des hommes. Dans les régons où la robablté de erdre son emlo fgure arm les lus fables, la robablté des femmes est suéreure à celles des hommes. En revanche, dans les régons où la robablté de erdre son emlo fgure arm les lus fortes, comme le Languedoc-Roussllon, la Provence-Ales- Côte d Azur-Corse, les femmes sont mons ou autant énalsées que les hommes. S our toutes les régons, changer de régon de résdence our une femme est très énalsant, our certanes régons cela l est encore lus, comme l Aqutane, la Basse-Normande, Potou-Charentes et le Lmousn. En revanche our d autres, l effet régonal atténue le rsque, sans le rendre nul, comme l Alsace, la Chamagne-Ardenne, la Pcarde et la Haute-Normande. En Ile-de-France, le rsque est lus fable qu alleurs. Les résultats de cette étude ermettent de conclure sur l exstence d effets régonaux, mas surtout ermet d établr que les effets régonaux ne sont as dentques sur toutes les sous-oulatons, remettant en cause l hothèse du modèle avec ndcatrce de régon. C - Concluson Les analses mult-nveaux ermettent de rendre en comte des effets de classes (ou de graes). Toutefos, D.Courgeau a montré que les rsques d nférence erronée semblent lus mortants dans les modèles mult-nveaux, même lorsque la caractérstque omse est ndéendante de celles ntrodutes dans le modèle ntal. Une bonne récauton est de fare ntervenr dans le modèle le lus grand nombre de caractérstques aant un effet sur le hénomène afn d évter au maxmum le rsque de conclure à un effet d agrégaton alors qu l n exste as. En sécfant au maxmum notre modèle (détaller les statuts, les CS ), les effets régonaux auraent eut-être u être exlqués ar des effets de structure. S l effet rore du nveau agrégé n est as sgnfcatf (as de corrélaton entre ndvdus d un même nveau agrégé), le modèle devent un modèle contextuel classque, à savor sans hérarchsaton. Autrement, s cet effet est sgnfcatf, (ar exemle s aartenr à une régon a une nfluence sur le hénomène observé, même arès avor élmné les effets de contextes), les estmatons du modèle contextuel classque sont basées, usque l hothèse ndsensable aux méthodes classques d analse à un nveau d ndéendance des observatons (.e. des termes d erreurs résduels des équatons de régresson) n est lus valde. L aroche à un nveau volant cette dernère condut à une sous-estmaton des écarts-tes et à des nterrétatons basées (cf. Goldsten). Les modèles multnveaux sont des outls à utlser avec récauton. Bblograhe H.Jaet (993), Analse satale quanttatve. Une ntroducton, Economca. D.Puman, Th Sant-Julen, A.Coln (997), L analse satale, Cursus Géograhe. M.Marsat et A.Trognon (99), Présentaton générale du modèle Logt, Actes des ournées de méthodologe statstque, INSEE Méthodes N 46-47-48. FUJITA Masahsa, THISSE Jean-Franços, Econome géograhque, Problèmes ancens et nouvelles ersectves, Annales d économe et de statstque n 45, 37-87. Harve Goldsten, (995), Kendall s lbrar of statstcs 3, Multlevel statstcal models. Danel Courgeau, Brgtte Baccaïn (997), Analse mult-nveaux en scences socales, Poulaton 4 Danel Courgeau (000), Vers une analse bograhque mult-nveaux, VIIèmes Journées de méthodologe Statstque, Pars. M.Atkn and N.Longford (98), Statstcal modellng of data on teachng stles, Journal of the Roal Statstcal socet. Laurence BLOCH, Marc-Antone ESTRADE,998-999, Les formes artculères d emlo en France : un marcheed vers les emlos stables?, Portrat socal, France. Yannck L Hort (999), L emlo récare en France, regards sur l actualté N 49. INSEE (00), De lus en lus de assage vers un emlo stable», Insee Premère N 769. Claude Mchel (999), Un rsque de erte d emlo lus élevé en Languedoc-Roussllon, Reères Snthèse N 5. Yvette Grelet, Bernard Hllau, Danel Martnell (994), Portrats régonaux de l emlo et de l nserton des eunes, Sére observatore, CEREQ, Document N 95.