Statistiques Appliquées Rôle des femmes dans la société Denis Schelling Semestre d automne 2012 Résumé A partir de données concernant le rôle des femmes dans la société, nous avons effectué une analyse afin de déterminer quelles étaient les facteurs influançant la réponse des individus à l affirmation : «Les femmes devraient se concentrer sur les tâches ménagères et laisser les hommes travailler.» Après une analyse exploratoire ainsi que l ajustement de différents modèles de régression logistique et leurs comparaisons, nous avons obtenu le modèle le plus adéquat pour nos données. De ce modèle, nous déduisons que le nombre d années d éducation des individus ainsi que le sexe ont tous les deux une influence dans la réponse données par l individu. 1 Introduction A partir de la fin du 18 e siècle et au cours du siècle précédent, le rôle des femmes au sein de la société occidentale s est considérablement amélioré. Les femmes ont ainsi obtenu davantage de droits les ammenant progressivement à égalité avec les hommes. Ces changements ont néanmoins nécessité du temps si bien que les mentalités sur le rôle des femmes différaient souvent d un individu à l autre qu il soit masculin ou féminin et ce encore jusqu au début des années 90. Les données que nous allons analyser sont issues d une enquête effectuée dans les années 70 où il existait encore des pays, comme la Suisse, où certaines régions n accordaient toujours pas le droit de vote aux femmes par exemple. A cette époque, les femmes subissaient davantage d inégalités dans le monde du travail qu aujourd hui, les incitant à rester au foyer s occuper des tâches ménagères. Mais surtout le rôle de la femme au sein de la société du travail particulièrement était encore en pleine évolution. Nos données vont nous permettre d analyser l opinion public sur le rôle de la femme dans la société à cette époque là. denis.schelling@epfl.ch 1
2 Données Les données sont issues d une enquête menée par le National Opinion Research Center de l université de Chicago aux Etats-Unis entre 1974 et 1975. Les individus se voyaient poser l affirmation suivante : «Les femmes devraient se concentrer sur les tâches ménagères et laisser les hommes travailler et diriger le pays.» Les individus avaient la posibilité de répondre qu ils étaient d accord ou non avec l affirmation. Chaque individu s est vu également demander le nombre d années d éducation qu il avait effectuées. Ces données sont visibles sur la table 1 pour les 2871 individus. Nombre d années d éducation D accord Pas d accord D accord Pas d accord 0 4 2 4 2 1 2 0 1 0 2 4 0 0 0 3 6 3 6 1 4 5 5 10 0 5 13 7 14 7 6 25 9 17 5 7 27 15 26 16 8 75 49 91 36 9 29 29 30 35 10 32 45 55 67 11 36 59 50 62 12 115 245 190 403 13 31 70 17 92 14 28 79 18 81 15 9 23 7 34 16 15 110 13 115 17 3 29 3 28 18 1 28 0 21 19 2 13 1 2 20 3 20 2 4 Table 1: Tableau des données. Il y a au total 1305 hommes et 1566 femmes. La figure 1 indique le nombre de participants en fonction du nombre d années d éducation. 2
Nombre de participants 0 50 100 150 200 250 300 350 Nombre de participants 0 100 200 300 400 500 0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 Figure 1: Nombre de participants en fonction du nombre d années d éducation pour les hommes et les femmes. Sur la figure 1, on remarque qu une grande proportion des personnes intérrogées se situe aux alentours de 12 années d éducations et ce indépendamment du sexe. A la vu de ces données, il est légitime de se poser la question suivante : Le sexe et/ou l éducation ont-ils une influence sur la réponse donnée par un individu à l affirmation? Nous allons tout d abord tenter de répondre à cette question en analysant les données de façon exploratoire dans la section suivante puis nous allons ajuster des modèles adéquats à nos données afin de pouvoir tirer des conclusions plus certaines. 3 Analyse exploratoire des données Un premier essai pour identifier l influence du nombre d années d éducation est de considérer les probabilités empiriques d être d accord avec l affirmation en fonction du nombre d années d éducation et ce pour les hommes et les femmes confondus. Pour un nombre d années d éducation j donné, on définit la probabilité empirique p j d être d accord avec l affirmation comme étant le nombre de personnes étant d accord et ayant reçu j années d éducation divisé par le nombre de personnes interrogées ayant j années d éducation. Les résultats obtenus sont indiqués sur le graphe de gauche de la figure 2. 3
Tous les individus confondus et séparés Probabilité empirique d'être d'accord 0.0 0.2 0.4 0.6 0.8 1.0 Tous les individus Probabilité empirique d'être d'accord 0.0 0.2 0.4 0.6 0.8 1.0 Figure 2: Probabilités empiriques d être d accord en fonction du nombre d années d éducation à gauche sans distinction du sexe, à droite avec la distinction. On remarque sur le graphe de gauche que les probabilités empiriques d être d accord ont tendance à baisser si le nombre d années d éducation augmente passant en dessous de 0.5 à partir de 9 années d éducations. Ainsi le graphe de gauche sur la figure 2 nous montre que le nombre d années d éducation semble avoir une véritable influence sur la réponse donnée par l individu et ce indépendamment du sexe. Les individus ayant reçu davantage d éducation serait ainsi plus enclins à ne pas être d accord avec l affirmation. Afin de maintenant essayer d identifier une eventuelle influence du sexe sur la réponse, nous allons considérer les probabilités empiriques p j,h, p j,f d être d accord avec l affirmation pour les hommes et les femmes respectivement ayant reçu j années d éducation. Ces probabilités empiriques sont visibles sur le graphe de droite de la figure 2. Bien que les valeurs obtenues pour les hommes et les femmes soient parfois différentes, nous ne pouvons clairement pas décider si le sexe a une incidence sur ces probabilités empiriques. Pour essayer tout de même d identifier l influence du sexe nous allons encore considérer les réponses moyennes obtenues µ H, µ F auprès des hommes et des femmes respectivement. Ces réponses moyennes sont obtenues en considérant le nombre d hommes (ou de femmes) ayant été d accord avec l affirmation divisé par le nombre total d hommes (ou de femmes) interrogés. On note encore σ 2 H et σ2 F les variances empiriques calculées pour µ H et µ F. Les résultats obtenus sont donnés sur la table 2. Homme Femme µ 0.36 0.35 σ 2 0.23 0.23 Table 2: Réponses moyennes d être d accord pour les hommes et les femmes. Le tableau 2 nous indique que les moyennes µ H et µ F sont proches. Néanmoins, les variances pour chacune de ces moyennes étant spécialement élevées, nous nous avisons de conclure quoi que ce soit sur l influence du sexe sur la réponse obtenue. Nous déduisons de notre analyse exploratoire que le nombre d années d éducation semble 4
jouer un rôle important dans la réponse donnée à la question alors que le rôle du sexe demeure plus difficle à cerner. Toutefois ces deux éléments doivent être appronfondis plus en détails afin de donner une réponse adéquate et précise. 4 Méthodes En vue d apporter des réponses plus exactes à notre question posée en fin de section 2, nous allons construire un modèle adéquat pour nos données. Tout d abord, nous considérons que chaque individu répond par "Oui" ou "Non" à l affirmation s il est respectivement d accord ou non avec celle-ci. Nous appelons y i la variable réponse de l individu i pour i = 1,..., n, où n = 2871 est le nombre total d individus. La variable y i est codée comme suit, { 1 si "Oui" y i =, pour i = 1,..., n. 0 si "Non" Ainsi les données dont nous disposons pour chaque individu sont sa réponse de type binaire ainsi que deux variables explicatives, son nombre d années d éducation education ainsi que son sexe, de type binaire également, codé de la forme 1 Homme, où 1 Homme,i = { 1 si l individu i est un homme 0 si l individu i est une femme, pour i = 1,..., n. Nous pouvons désormais attribuer à un individu i, pour i = 1,..., n une probabilité de succès p i de répondre "Oui", c est à dire la probabilité que y i = 1. Ceci nous conduit à supposer que la réponse de l individu i peut être vu comme une variable de Bernoulli avec probabilité de succès égale à p i. De plus, nous considérons que chaque individu répond indépendamment des iid autres ce qui nous conduit finalement à supposer que y i B(1, p i ) pour i = 1,..., n. Nous savons de Collett (1991) qu un modèle adéquat pour modéliser les données de type binomiale est la régression logistique linéaire qui dans le cas de k variables explicatives s exprime de la façon suivante : ( ) pi logit(p i ) = log = β 0 + β 1 x 1i + + β k x ki, pour i = 1,..., n, (4.1) 1 p i où x 1i,..., x ki sont les valeurs des k variables explicatives et β 0,..., β k sont les paramètres pour ces variables explicatives. Remarquons que de l équation (4.1) nous pouvons obtenir l expression suivante, p i = exp(β 0 + β 1 x 1i + + β k x ki ), pour i = 1,..., n. (4.2) 1 + exp(β 0 + β 1 x 1i + + β k x ki ) Une manière de vérifier si le modèle (4.1) est adéquat pour nos données est de considérer la figure 3 et de vérifier s il peut y avoir des relations linéaires entre les logit des probabilités empiriques, p j,h pour les hommes, p j,f pour les femmes, définies dans la section précédente, et le nombre d années d éducation. 5
Logit des probabilités empiriques -4-3 -2-1 0 1 2 3 Figure 3: Logit des probabilités empiriques en fonction du nombre d années d éducation. La figure 3 nous permet de voir qu il semble y avoir une certaine linéarité entre le logit des probabilités empiriques et le nombre d années d éducation. Il est donc raisonnable de considérer le modèle (4.1) que nous allons ajuster aux données. L ajustement du modèle s effectue en maximisant la vraisemblance par rapport au paramètre β = (β 0,..., β k ) T. Pour nos données, la vraisemblance s exprime comme L(β) = n i=1 p y i i (1 p i) 1 y i, (4.3) où p i = p i (β) par l expression (4.2). Ainsi notre fonction objectif à maximiser sera 5 Analyse n l(β) = log {L(β)} = {log(p i ) y i + log(1 p i ) (1 y i )}. (4.4) i=1 Nous allons effectuer différentes régressions logistiques sur nos données et essayer de trouver le modèle le plus adéquat pour celles-ci. Modèle A : Education et sexe comme variables explicatives Le premier modèle que nous allons ajuster et que nous appelerons le modèle A, s ajuste sur l ensembles des individus et prend comme variables explicatives le nombre d années d éducation ainsi que le sexe. Son expression s écrit comme logit(p i ) = β 0 + β 1 education i + β 2 1 Homme,i, pour i = 1,..., n. En ajustant le modèle, on obtient les résultats indiqués sur la table 3. 6
Paramètre Estimation Ecart-type Pr(> z ) β 0 (intercepte) 2.499 0.183 <2e-16 β 1 (éducation) -0.271 0.015 <2e-16 β 2 (sexe) 0.011 0.084 0.892 Table 3: Résultats des estimations pour le modèle A Nous remarquons que la variables de l éducation est très significative. En revanche il semblerait que la variable indicatrice du sexe masculin ne soit pas si significative. Cela nous conduit à considérer un modèle sans la variable indicatrice du sexe masculin. Modèle B : Education comme variable explicative Le deuxième modèle que nous pouvons ainsi considérer est celui ne prenant pas en compte le sexe, c est-à-dire le modèle ne contenant que le nombre d années d éducation comme variable explicative, logit(p i ) = β 0 + β 1 education i, pour i = 1,..., n. On obtient ainsi les estimations suivantes, indiquées sur la table 4. Paramètre Estimation Ecart-type Pr(> z ) β 0 (intercepte) 2.503 0.178 <2e-16 β 1 (éducation) -0.271 0.015 <2e-16 Table 4: Résultats des estimations pour le modèle B Ce modèle n a que des variables significatives contrairement au modèle A. On remarque encore que le modèle B est imbriqué dans le modèle A. Ainsi, nous pouvons effectuer un test de rapport de vraisemblance afin de déterminer si la variable additionnelle du modèle A concernant le sexe est significative ou non. Nous calculons alors la statistique du test W AB = 2 ( l A l B ), où l A, l B sont les log-vraisemblances maximisées pour les modèles A et B respectivement. Sous l hypothèse nulle H 0 : β 2 = 0, on a W AB χ 2 q, où q est la différence des dimensions entre les paramètres du modèle le plus grand et le plus petit. On a q = 1 dans notre cas. Par le calcul, on obtient W AB et la p-valeur du test qui est p = P r(χ 2 1 > W AB). Ceux-ci sont donnés sur la table 5. W AB p-valeur 0.018 0.892 Table 5: Résultat du test H 0 : β 2 = 0. Avec cette p-valeur il est clair que nous ne rejettons pas H 0 et donc nous ne pouvons pas tirer de conclusions concernant l influence du sexe. La figure 4 nous permet de visualiser les valeurs de la probabilité de répondre "Oui" en fonction du nombre d années d éducation pour notre modèle. Ces valeurs sont obtenues avec les paramètres ajustés du modèle à l aide de l équation (4.2). Les intervalles de confiance pour les probabilités ont été obtenus à l aide de la méthode delta. Les probabilités empiriques pour les hommes et les femmes ont également été incluses. 7
Probabilité d'être d'accord 0.0 0.2 0.4 0.6 0.8 1.0 Tous individus Figure 4: Probabilité de répondre "Oui" obtenue à l aide des paramètres ajustés du modèle B avec les intervalles de confiances en traitillés. On peut dire de la figure 4 que ce modèle semble relativement bien convenir aux groupes des hommes et de femmes. Cependant, nous voulons vérifier s il y a une influence du sexe dans la réponse des individus mais ce modèle ne nous permet pas de répondre à cette question. Modèle C : Interaction entre le sexe et l éducation Le défaut de nos modèles précédents est que si l on considère la figure 3 alors considérer nos modèles A et B revient à assigner la même pente de droite de la régression logistique pour les hommes ainsi que pour les femmes. Ainsi nos modèles précédents ne prennent pas en compte un éventuel changement de pente entre ces deux groupes. Ce changement de pente s exprime comme l interaction entre les variables explicatives education et 1 Homme. Nous allons donc palier ce défaut en considérant désormais cette interaction. Notre nouveau modèle s exprime de la forme, logit(p i ) = β 0 + β 1 education i + β 2 1 Homme,i + β 3 1 Homme,i education i, pour i = 1,..., n. En ajustant ce modèle on obtient les resultats de la table 6. Paramètre Estimation Ecart-type Pr(> z ) β 0 (intercepte) 3.003 0.272 <2e-16 β 1 (éducation) -0.315 0.024 <2e-16 β 2 (sexe) -0.905 0.360 0.012 β 3 (sexe éducation) 0.081 0.031 0.001 Table 6: Résultats des estimations pour le modèle C On remarque sur la table 6 que toutes les variables du modèle C semblent être significatives. Etant donné que ce modèle C inclut le modèle A comme sous-modèle, nous pouvons encore effectuer un test de rapport de vraisemblance pour voir s il est juste d exclure l interaction entre 8
le sexe et l éducation qui se résume dans l hypothèse nulle H 0 : β 3 = 0. Si l on nomme l C la logvraisemblance maximisée pour le modèle C, alors nous avons que sous H 0, W AC = 2 ( l C l A ) est distribué selon une loi χ 2 q où q = 1. La valeur de W AC et la p-valeure sont données sur la table 7. W AC p-valeur 6.904 0.009 Table 7: Résultat du test H 0 : β 3 = 0. Ainsi, avec la p-valeur obtenue nous rejettons l hypothèse nulle est nous en déduisons que l interaction entre le sexe et l éducation est d une importance significative. Ainsi l influence de la variable du sexe intervient à ce niveau là puisque la différence de pentes des droites de régression logistique est significative. A l aide de notre estimation β de β nous pouvons exprimer les formules des droites de régression logistique pour les hommes ainsi que pour les femmes. Ces droites ont pour équations, et sont données sur la figure 5. : logit(p) = 0.234 education + 2.098, (5.1) : logit(p) = 0.315 education + 3.003, (5.2) Logit des probabilités empiriques -4-3 -2-1 0 1 2 3 Figure 5: Droites de régression logistique pour les hommes ainsi que pour les femmes. Remarquons que le modèle C revient à attribuer à chaque groupe une droite de régression logistique différente. Une manière différente d obtenir également deux droites différentes est de considérer deux modèles indépendants, l un pour les hommes et l autre pour les femme. Ainsi, nos régressions logistiques ne s effectueraient que sur un seul groupe parmis les individus. Si l on suppose que les indices i sont ordonnées de telles sorte que pour i = 1,..., N H, l individu i est un homme et N H est le nombre total d homme, et pour i = N H + 1,..., n, l individu i soit une femme, avec N F = n N H le nombre total de femmes, alors les modèles s expriment dans ce cas 9
de la façon suivante, : logit(p i ) = β 0,H +β 1,H education i, pour i = 1,..., N H, (5.3) : logit(p i ) = β 0,F +β 1,F education i, pour i = N H + 1,..., n. (5.4) En ajustant chacune de ces régressions logistiques individuellement, nous obtenons les estimations indiquées sur la table 8. Paramètre Estimation Ecart-type Estimation Ecart-type β 0 2.098 0.235 3.003 0.272 β 1-0.234 0.020-0.315 0.024 Table 8: Estimations pour les modèles individuels. On remarque que si l on considère les droites de régressions logistiques issues de ces deux modèles alors nous obtenons des droites pratiquement identiques à celle obtenues avec le modèle C, données par les équations (5.3) et (5.4). Une façon d interpréter ces résultats est de se dire que le modèle C tente d ajuster une droite de régressions logistiques pour chacun des groupes. Cependant, lorsque notre échantillon est de grande taille, cela revient approximativement à effectuer une régression logistique sur chaque groupe indépendamment. Finalement, la figure 6 nous indique les valeurs des probabilités d être d accord avec l affirmation obtenues à l aide des coefficients estimés du modèle C pour les hommes et le femmes ainsi que les valeurs empiriques de ces probabilités en fonction du nombre d années d éducation. Probabilité d'être d'accord 0.0 0.2 0.4 0.6 0.8 1.0 Figure 6: Probabilité de répondre "Oui" obtenue à l aide des paramètres ajustés du modèle C avec les intervalles de confiances en traitillés. La figure nous indique que ce modèle semble plus adéquat pour expliquer les valeurs obtenues pour les hommes et le femmes séparément. En effet, pour les valeurs obtenues pour les hommes et 10
les femmes sont sensiblement différentes surtout pour un nombre d années d éducation inférieur à 5 ans ou supérieur à 15 ans. On peut donc tirer des conclusions de notre analyse qui seront présentées dans la section suivante. 6 Conclusion En conclusion, afin d évaluer les potentielles influences du sexe ou du nombre d années d éducation dans les réponses données par les individus, nous avons tout d abord effectué une analyse exploratoire. A la fin de cette dernière il nous semblait juste de penser que le nombre d années d éducation avait très certainement une influence dans les réponses obtenues. L ajustement des différents modèles de régressions logistiques et leurs comparaison à l aide de test de rapport de vraisemblance nous a conduit au modèle C qui est le plus plausible pour l ensemble de toutes nos données. Ce modèle prenait en compte le nombre d année d éducation, le sexe mais également l interaction entre le sexe et le nombre d années d éducation. Les paramètres de ce modèle étant tous significatifs, nous pouvons déduire que la variable du sexe, par son action seule et son interaction avec le nombre d années d éducation a une importance pour l explication des données. Ainsi, nous concluons de notre analyse que non seulement l éducation mais également le sexe ont une importance pour la réponse obtenue à l affirmation. Références Collett, D. (1991) Modelling binary data. London : Chapman & Hall. 11