Questions pratiques 2: l inférence causale

Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modifications du Code du travail par la loi N du 4 août 2014

AUNEGE Campus Numérique en Economie Gestion Licence 2 Comptabilité analytique Leçon 3. Leçon n 3 : la détermination et l enchaînement des coûts

Item 169 : Évaluation thérapeutique et niveau de preuve

Qui fait quoi sur internet?

Migration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas

A - Nomenclature des préjudices de la victime directe

Le Parlement jeunesse du Québec PARLEMENT JEUNESSE DU QUÉBEC 64 E LÉGISLATURE. Projet de loi n 1

TABLE DE MATIERES. Pourquoi les Organisations doivent-elles être accréditées?...

OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Votre Réseau est-il prêt?

Mémoire relatif au Règlement sur le dépannage et le remorquage des véhicules sur le territoire de la Communauté urbaine de Montréal

Chapitre 2 LE CAS PRATIQUE

Qu est-ce que l adaptation au changement climatique?

Déductibilité des cotisations «Madelin» pour les agents généraux d assurance aux traitements et salaires

LE BUDGET DES VENTES

ENREGISTREMENT COMPTABLE DES FLUX ECONOMIQUES

TPE/PME : comment me situer et justifier de mon statut?

DECLARATION D ACCIDENT

L ACTIVITÉ RÉDUITE. La croissance continue de l activité réduite recouvre des réalités et des publics différents. Une étude de l Unédic - Octobre 2013

I. Une nouvelle loi anti-discrimination

REFERENTIEL DU CQPM. TITRE DU CQPM : Electricien maintenancier process 1 OBJECTIF PROFESSIONNEL DU CQPM

Le WACC est-il le coût du capital?

Info-assurance Séance d information de l IASB du 19 mars 2015

SCIENCES DE L ÉDUCATION

Formation PME Comptabilité analytique (ou comptabilité d exploitation)

Allocution de Mme Françoise Bertrand Présidente directrice générale Fédération des chambres de commerce du Québec

La qualité de l emploi dans l économie sociale et solidaire: analyse et enjeux. une enquête en Alsace et en Lorraine

POUVOIR D ACHAT : la condition de vie des travailleurs

Responsabilité civile des administrateurs et des réviseurs d une société anonyme : questions choisies

Solutions aux risques juridiques et catalogue des meilleures pratiques contractuelles

NOTORIETE DE L ECONOMIE SOCIALE SOLIDAIRE ET ATTENTES DE LA JEUNESSE

Rémunération des Professionnels du Capital Investissement Lignes Directrices

MAPPP/ /10/2012. Modalités de mise en œuvre du cofinancement public d un CP

UNE MUTUELLE POUR TOUS

Plan d Action sur la Gouvernance d Entreprise

L allocataire dans un couple : l homme ou la femme?

Gender Directive Impacts opérationnels pour les assureurs

Cabinet d avocat Leduc-Novi. Indemnisation du préjudice corporel des. personnes victimes d un accident de la route

Format de l avis d efficience

Contributions françaises à la problématique internationale de la protection sociale des travailleurs informels et de leurs familles.

Inégalités de salaires et de revenus, la stabilité dans l hétérogénéité

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

RÉPUBLIQUE ET CANTON DE GENÈVE Echelle des traitements 2015 Valable dès le Office du personnel de l'etat Indexation de 0.

AUTOMOBILE ET SPORTIVE D.A.S. COVEA RISKS, COVEA FLEET M.M.A IARD SA, M.M.A. VIE SA

POINTS DE REPÈRE SUR LA FÉVRIER 2015 PRODUCTIVITÉ EN FRANCE

Avis n sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES

Norme internationale d information financière 1 Première application des Normes internationales d information financière

Voici la plus récente édition de notre bulletin fiscal. Nous vous proposerons des idées de planification et un suivi de l actualité fiscale.

Révision salariale - Manager

7. ECONOMIE 7.3. COMMERCE GESTIONNAIRE DE TRES PETITES ENTREPRISES

ETUDE SUR LES STAGIAIRES AYANT SUIVI UNE FORMATION DIPLOMANTE DANS LA BRANCHE DES ACTEURS DU LIEN SOCIAL ET FAMILIAL

CERTIFICATION DES INSTITUTIONS APPLIQUANT LE CASE MANAGEMENT CRITÈRES DE QUALITÉ ET INDICATEURS DE CONTRÔLE

BIG Expert. Simulateur. Epargne professionnelle

ANNEXE A LA CIRCULAIRE SUR LE CONTROLE INTERNE ET L AUDIT INTERNE TABLE DES MATIERES

Notice UTILISATION DE SOURCES RADIOACTIVES (domaine non médical)

Relation entre deux variables : estimation de la corrélation linéaire

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

QUESTIONNAIRE DE PRE-AUDIT. Rubrique n 1 : Présentation de l entreprise

UML (Diagramme de classes) Unified Modeling Language

POLITIQUE D ÉGALITÉ ENTRE LES FEMMES ET LES HOMMES

Charte du tourisme durable

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

S informer sur. Les OPCVM de capital investissement (FCPR, FCPI, FIP)

LA GESTION DES RESSOURCES HUMAINES Anne DIETRICH Frédérique PIGEYRE 2005, repères, La découverte

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

CHAPITRE VI ALEAS. 6.1.Généralités.

Rédiger et administrer un questionnaire

Appendice 2. (normative) Structure de niveau supérieur, texte de base identique, termes et définitions de base communs

5 e Baromètre ALMA CG sur l Absentéisme*

Cession de la clientèle des cabinets libéraux : les facteurs clés d une transmission réussie

Chapitre 6 : Consolidation par paliers et consolidation directe

Décret n XXX du XX relatif aux effacements de consommation d électricité

RESPONSABLE D UNE UNITE DE TRANSPORT ET LOGISTIQUE (Enseignement week-end) (ACMS23)

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Expert(e) International(e) en santé publique Délégué(e) à la co-gestion de la composante «Appui à la demande de soins» Sénégal

INTERVENIR SUR LE TRAVAIL D ENCADREMENT ET L ORGANISATION

Avertissement : ceci est un corrigé indicatif qui n engage que son auteur

Politique de capitalisation du Fonds d assurance automobile du Québec DATE DE MISE À JOUR

Écarts de rémunérations entre les femmes et les hommes dans la fonction publique : sous le prisme des inégalités de genre

PREVISION DU BESOIN EN FONDS DE ROULEMENT - PRINCIPES

Baccalauréat professionnel. Maintenance des Équipements Industriels

Les Conditions aux limites

Demande R RÉGIME DE RETRAITE. Original : HQT-7, Document 2.1 Page 1 de 7

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

SYNTHESE DE LA REFORME RETRAITE SUPPLEMENTAIRE, PREVOYANCE ET MUTUELLE

Nom de l agent : Fonctions : FORMULAIRE DE DEMANDE D AIDE SOCIALE

Programme d assurance-invalidité de courte durée

DESCRIPTIF DU DOCUMENT. Déploiement Nouveau système de rémunération au ème salaire

PLUS-VALUES DE CESSION DE TITRES REALISEES EN 2013 :

Objet: Traitement fiscal des sociétés exerçant des transactions de financement intra-groupe

INDICATIONS COMPLÉMENTAIRES

à Master professionnel Enquête sur le devenir au 1 er décembre 2013 des diplômés de Master professionnel promotion 2011

Développement rural Document d orientation

Transcription:

Questions pratiques 2: l inférence causale 1

I. Possibilités et limites des modèles statistiques Nous avons précédemment défini et décrit la régression comme une méthode statistique visant à décrire la relation ou ensemble de relations entre une variable dépendante particulière et une ou plusieurs variable(s) indépendante(s) 2

Nous avons également souligné que le critère essentiel du modèle de régression est qu il doit être une description adéquate (ou conforme) des relations observées entre la variable dépendante et la ou les variable(s) indépendante(s) dans les données à disposition 3

Cette description (et sa qualité) est parfois tout ce qui est recherché Mais le plus souvent deux autres objectifs sont visés a) La prédiction b) L inférence causale 4

a) La prédiction L objectif est de développer une formule (une équation) afin d être en mesure de faire des prédictions sur la variable dépendante, à partir des valeurs des variables indépendantes, que ces valeurs soient observées ou potentielles (dans le cas, par exemple, de projections) 5

La validité des prédictions dépend pour l essentiel du critère d adéquation du modèle au phénomène empirique Si le modèle est élaboré sur la base d un échantillon d une population et que les prédictions portent sur cette population, leur validité est également dépendant des caractéristiques de l échantillon 6

b) L inférence causale Les variables indépendantes sont ici conçues comme des causes potentielles de la variable dépendante Dans une telle approche, le coefficient de régression est interprété comme «l effet» d une variable indépendante sur la variable dépendante 7

Pour chaque variable indépendante, l objectif est dès lors de déterminer si elle exerce effectivement un effet sur la variable dépendante et d estimer la direction et la grandeur de cet effet Globalement, au travers de l analyse de régression, on vise à examiner le système de causes, ou un sous-ensemble de ce système, qui détermine la variable dépendante 8

Dans un tel objectif, l adéquation du modèle aux données (sa pertinence descriptive) est toujours nécessaire, mais cela ne constitue pas le seul élément de sa validité Il faut en plus porter attention à i. La structure des relations entre les variables indépendantes ii. L existence potentielle de facteurs «confondants» 9

Soit une association statistique entre une variable indépendante x et la variable dépendante y Cette association est non causale (spurious) selon le degré auquel elle est la conséquence de la dépendance mutuelle de ces deux variables x et y vis-à-vis d une variable tierce (z) cette variable tierce z est qualifiée de facteur confondant 10

Trois critères pour qu une relation entre variables puisse être considérée comme causale i. Une association statistique entre les variables ii. Un ordre temporel approprié iii. L élimination des explications alternatives 11

Ne pas réifier les modèles statistiques Le recours à la notion de cause dans l analyse statistique est matière à débat A fortiori quand elle est appliquée à des données d observation Son utilisation peut être tenue pour légitime, mais il faut en préciser la signification et la portée 12

«Les hommes ont des revenus du travail plus élevés que les femmes parce que ces dernières (selon une explication) se concentrent dans des emplois mal rémunérés, travaillent moins d heures, ont un niveau d éducation moins élevé, ont des carrières professionnelles plus discontinues, sont victimes de discriminations, etc» 13

Toutes ces explications sont parfaitement raisonnables, et certaines d entre elles au moins sont susceptibles d un examen statistique On peut donc chercher à en appréhender la manifestation dans les données observées 14

De plus, ces explications, ou d autres encore, peuvent se combiner, chacune étant susceptible de rendre compte partiellement de l écart systématique de revenus entre hommes et femmes Etudier conjointement ces explications potentielles est précisément ce que permet la régression multiple ou d autres techniques appartenant à la même famille 15

Il y a donc une justification à parler de cause ou d analyse causale dans un tel cadre Mais par ailleurs, il faut avoir conscience que les modèles statistiques (de régression par exemple) sont des résumés descriptifs non pas des processus sociaux eux-mêmes, dans toute leur complexité, mais de ce qui résultent des processus sociaux, de ce qui en est le produit 16

Ce que donnent à voir par exemple les modèles statistiques, ce sont les écarts systématiques de revenus entre hommes et femmes, et c est dans ce cadre qu est posée l assertion que le genre est un facteur causal du revenu Mais un modèle statistique ne rend pas compte du processus social complexe par lequel le revenu des hommes et des femmes est déterminé 17

Il y a ainsi un sens valide à dire que le niveau d éducation a un effet sur le revenu, dans la mesure où le processus réel complexe par lequel le revenu des individus est déterminé est en partie conditionné par leur degré d éducation 18

Mais reconnaître ce fait et examiner son reflet dans un résumé statistique est quelque chose de différent que celle d affirmer qu un titre universitaire littéralement parlant accroît le revenu des individus 19

Dans l analyse statistique, la statistique n est pas tout Dans le cadre de l analyse statistique d un phénomène, par exemple les inégalités de revenus entre genres, on peut être amené à poser certaines assertions de nature causale visant à expliquer ces inégalités sans que ces assertions puissent faire l objet d un examen statistique (par exemple parce que les données à disposition ne le permettent pas) 20

De telles assertions constituent des inobservables Elles doivent néanmoins aussi pouvoir être considérées comme valides Pour cela, elles doivent pouvoir s appuyer sur des arguments convaincants ou plausibles Dans l analyse statistique, la validité des assertions est statistique («interne»), mais aussi «externe» et argumentative 21

II. Variables médiatrices Une variable indépendante est qualifiée de médiatrice lorsqu elle intervient comme intermédiaire dans la relation causale entre une variable indépendante et la variable dépendante 22

Supposons que notre attention porte sur la relation entre genre (x 1 ) et revenu (y) L objectif peut dès lors être celui de comprendre les mécanismes qui peuvent expliquer les écarts systématiques de revenu entre hommes et femmes 23

Par exemple, il est possible que ces écarts soient entièrement ou partiellement dus au fait que les hommes ont un niveau d éducation (x 2 ) plus élevé que les femmes Dans ce cas, il existe des différences de revenu entre genres parce que (entre autres) hommes et femmes ont des niveaux d éducation inégaux Cf. schéma causal suivant 24

Exemple de schéma causal, avec éducation comme variable médiatrice Genre (x 1 ) Revenu (y) Education (x 2 ) 25

L éducation est ici une variable médiatrice (ou intermédiaire) de la relation causale entre genre et revenu Autrement dit, tout ou partie de l effet du genre sur le revenu s explique par le fait qu hommes et femmes se différencient du point de vue de l éducation et que l éducation exerce un effet sur le revenu 26

a) On parle d effet direct pour désigner la part de la relation causale d une variable indépendante sur une variable dépendante qui n est pas expliquée par la ou les variables médiatrices présentes dans le modèle dans notre exemple, la part de l effet causal du genre sur le revenu qui ne «transite» pas par l éducation; représentée sur le schéma par la flèche allant directement du genre au revenu 27

b) d effet indirect pour désigner la part de la relation causale d une variable indépendante sur une variable dépendante qui est expliquée par la présence d une ou plusieurs variables médiatrices présentes dans le modèle dans notre exemple, la part de l effet causal du genre sur le revenu qui transite par l éducation; représentée sur le schéma par la flèche allant de genre à éducation, puis celle allant de éducation à revenu 28

c) d effet total pour désigner l addition de l effet direct et de l effet indirect d une variable indépendante sur la variable dépendante 29

Par définition donc: Effet total = Effet direct + Effet indirect Dans notre exemple, l effet causal total du genre sur le revenu, c est la part de la variabilité du revenu du travail qui est due au genre ou, autrement dit, qui dépend du genre de la personne, quelque soit le ou les facteur(s) qui expliquent ce lien de dépendance; l éducation en étant potentiellement un, pas forcément le seul 30

Un modèle de régression estime toujours uniquement l effet direct d une variable indépendante, en contrôlant par toutes les autres variables indépendantes incluses dans le modèle 31

Autrement dit, le coefficient de régression mesure la part de l effet d une variable indépendante sur la variable dépendante qui ne dépend pas des associations (corrélations) que la variable indépendante en question est susceptible d avoir avec les autres variables indépendantes incluses dans le modèle 32

Reprenons notre exemple: Soit un premier modèle de régression (1) ayant la forme revenu = α + β 11 (genre) le coefficient β 11 mesure l effet direct du genre sur le revenu cet effet direct est aussi l effet total (pas d effet indirect) 33

Incluons dans un second modèle (2) également l éducation revenu = α + β 12 (genre) + β 22 (éducation) le coefficient β 12 mesure l effet direct du genre, i.e. la part de l effet qui ne dépend pas de la relation entre genre et éducation 34

Autrement dit, le coefficient β 12 exprime la part de l effet causal du genre sur le revenu qui ne s explique pas par l éducation (qui ne s explique pas par le fait qu en moyenne les hommes et les femmes ont des niveaux d éducation différents) 35

De même, le coefficient β 22 mesure l effet direct de l éducation sur le revenu, i.e. la part de l effet causal de l éducation sur le revenu qui est indépendant de l existence d une association entre genre et éducation 36

L effet indirect du genre sur le revenu (i.e. l effet du genre qui «transite» par l éducation) peut être calculé selon la formule suivante: effet indirect = β 11 - β 1 2 Autrement dit, en soustrayant de l effet total (calculé par le modèle 1) l effet direct qui, lui, est mesuré avec le modèle 2 37

Que se passe-t-il si on fait intervenir d autres variables susceptibles d être médiatrices de l effet causal du genre? Considérons par exemple le taux d activité (x 3 ) «les femmes ont un revenu du travail plus bas que les hommes parce qu elles travaillent davantage à temps partiel» Et le secteur d activité (x 4 ) «les femmes ont un revenu du travail plus bas que les hommes parce que leurs emplois sont majoritairement dans des secteurs où les salaires sont bas» 38

Le modèle de régression (3) aura la forme suivante y = α + β 13 (x 1 ) + β 23 (x 2 ) + β 33 (x 3 ) + β 43 (x 4 ) Avec y = revenu x 1 = genre x 2 = éducation x 3 = taux d activité x 4 = secteur d activité 39

Le coefficient β 13 mesure l effet direct du genre sur le revenu, i.e. la part de l effet causal total qui est indépendant de, ou qui ne s explique pas par la relation entre le genre et l éducation, ni par la relation entre genre et taux d activité, ni celle entre genre et secteur économique 40

La différence entre β 11 et β 13 représente dès lors l effet indirect du genre sur le revenu, i.e. la part de l effet causal total qui est expliquée globalement par l éducation, le taux d activité et le secteur économique 41

III. L erreur de spécification Supposons que x 1 et x 2 sont deux variables indépendantes ayant un effet causal sur y x 1 et x 2 sont corrélées entre elles On parle d erreur de spécification si le modèle de régression ne prend en compte qu une des variables en question (disons x 1 ) et omet l autre (x 2 ) 42

Le valeur du coefficient de x 1 qui est calculée (B 1 ) est alors une estimation biaisée du «vrai» coefficient β 1 l effet de x 1 inclut en effet une composante qui revient à l effet de x 2 sur y Cette composante découle directement de la corrélation (association) entre x 1 et x 2 43

Pour qu il y ait biais dû à une erreur de spécification, il faut donc à la fois que le coefficient de la variable omise soit non nul (dans notre exemple β 2 0) qu il y ait une corrélation non nulle entre la variable omise et celle incluse dans le modèle (dans notre exemple r 12 0) 44

L interprétation correcte de ce biais dépend de la nature de la relation entre x 1 et x 2 Cf. les deux situations représentée dans le cliché suivant 45

Source: Fox (1997), p. 129. 46

Dans le cas (a), x 2 est une variable médiatrice L omission de x 2 conduit à négliger le fait qu une partie de l effet de x 1 sur y est indirect et «transite» par x 2 Dans un tel cas, le coefficient β 1 réfère à l effet total et non pas à l effet direct de x 1 sur y Et la valeur observée B1 est une estimation de cet effet total 47

Dans le cas (b), x 2 est une cause antécédente à la fois de x 1 et de y l omission de x 2 conduit à attribuer à la relation empirique entre x 1 et y une composante causale qui est fausse la relation entre x 1 et y étant due non à l effet de x 1 sur y, mais à leur commune dépendance vis à vis de x 2 48

Dans ce dernier cas (b), mais pas dans le premier (a), il est important de contrôler pour x 2 lorsqu on examine la relation entre x 1 et y Faute de quoi, on peut être conduit à poser une conclusion fondamentalement erronée: i.e. que la relation observée entre x 1 et y est de nature causale, alors qu elle est due au fait que x 1 et y sont tous deux dépendants de x 2 (d une variable tierce) 49

Une question de degré Si la variable omise est faiblement corrélée aux autres variables indépendantes, ou si son effet sur la variable dépendante est de faible ampleur, le biais engendré par son omission sera peu important Si la variable omise est fortement corrélée à l une ou l autre variables indépendantes et exerce un fort effet sur la variable dépendante, le biais peut être sévère et conduire à des conclusions erronées 50

En synthèse Par rapport à une association entre une variable indépendante et une variable dépendante, l introduction de variables indépendantes supplémentaires dites variable de contrôle, vise à: i. Mettre en évidence une ou plusieurs variables médiatrices susceptibles d expliquer cette association 51

ii. Mettre à jour l existence d un ou plusieurs facteurs confondants, i.e. l existence d une composante non causale dans l association en question 52

Pour qu une variable de contrôle soit médiatrice ou confondante, il faut à la fois: i. qu elle exerce un effet sur la variable dépendante y ii. qu elle soit liée (corrélée) à la variable indépendante au centre de l attention 53