Chronique R LAtent VAriables ANalysis - Le package lavaan pour les modèles d'équations structurelles

Documents pareils
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 3. Les distributions à deux variables

Introduction à l approche bootstrap

Chapitre 4 : Régression linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

STATISTIQUES. UE Modélisation pour la biologie

Régression linéaire. Nicolas Turenne INRA

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

CHAPITRE VIII : Les circuits avec résistances ohmiques

Débouchés professionnels

IBM SPSS Regression 21

STAGE IREM 0- Premiers pas en Python

Les équations différentielles

PROGRAMME (Susceptible de modifications)

Évaluation de la régression bornée

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Relation entre deux variables : estimation de la corrélation linéaire

SHERLOCK 7. Version du 01/09/09 JAVASCRIPT 1.5

Recherche dans un tableau

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

TP 1. Prise en main du langage Python

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE BUDGET DES VENTES

modélisation solide et dessin technique

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Etude des propriétés empiriques du lasso par simulations

NC 35 Norme comptable relative aux états financiers consolidés

Économétrie, causalité et analyse des politiques

Présentation du logiciel

Présentation du langage et premières fonctions

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Utiliser des fonctions complexes

Coup de Projecteur sur les Réseaux de Neurones

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Leçon N 4 : Statistiques à deux variables

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cours 02 : Problème général de la programmation linéaire

1 Complément sur la projection du nuage des individus

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

Comment configurer IPhone App Zoiper,pour se connecter au serveur VOIP de Kavkom?

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Température corporelle d un castor (une petite introduction aux séries temporelles)

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

FORMULAIRE DE STATISTIQUES

Chapitre 2/ La fonction de consommation et la fonction d épargne

Les Notes de l Institut d émission

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Statistiques à deux variables

LA RÉGULARISATION DES CHARGES EN FIN D EXERCICE

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Chapitre 1 Régime transitoire dans les systèmes physiques

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

POKER ET PROBABILITÉ

Introduction à l étude des Corps Finis

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Modèle comptable harmonisé MCH2-light dans le Canton de Saint-Gall: la voie raisonnable

Application de l'analyse multifractale à l'estimation des crues extrêmes en Tunisie

Table des matières. I Mise à niveau 11. Préface

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Maple: premiers calculs et premières applications

Excel 2010 Module 13. Comment créer un tableau d amortissement dégressif d une immobilisation. Enseignant : Christophe Malpart

«Cours Statistique et logiciel R»

choisir H 1 quand H 0 est vraie - fausse alarme

Capital économique en assurance vie : utilisation des «replicating portfolios»

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

4.2 Unités d enseignement du M1

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Analyse de la variance Comparaison de plusieurs moyennes

Annexe A de la norme 110

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

Traitement de texte : Quelques rappels de quelques notions de base

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Séance 0 : Linux + Octave : le compromis idéal

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Incluant l analyse du patrimoine. Description du rapport (Couple seulement)

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

NIGHT VISION STUDIOS GUIDE DU LOGICIEL. Produit Voyance. Version 1.5

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

TP : Suivi d'une réaction par spectrophotométrie

Transcription:

Chronique R LAtent VAriables ANalysis - Le package lavaan pour les modèles d'équations structurelles Les modèles d'équations structurelles sont des modèles statistiques initialement créés afin de combiner l'information provenant des données à des hypothèses qualitatives concernant les relations causales entre les variables afin d'estimer des relations causales. En fait, l'adjectif structurel signifie ici que les équations mathématiques décrivent une causalité, que le terme à gauche du symbole "=" est supposé être causé par les termes à droite du "=". De nos jours, les modèles d'équations structurelles sont couramment utilisés dans plusieurs domaines, sans toujours leur donner une interprétation causale. Ces modèles sont, entre autres, couramment utilisés en sciences sociales, en psychologie, en théorie de la mesure et en économie. Dans plusieurs applications, les modèles d'équations structurelles sont utiles parce qu'ils permettent d'utiliser des variables latentes. Les variables latentes sont des variables qu'on ne peut pas mesurer directement avec exactitude, mais dont on peut mesurer les effets. On peut ainsi attribuer une valeur à la variable latente en mesurant ses effets. Par exemple, on ne peut pas directement mesurer jusqu'à quel point une personne est dépressive, mais la dépression a des symptômes qu'on peut mesurer. On peut donc évaluer le niveau de dépression d'une personne en mesurant ses symptômes dépressifs. Dans cet article, nous ferons une brève introduction au «package» lavaan en R qui permet d'estimer des modèles d'équations structurelles. Le «package» lavaan est disponible sur CRAN. On peut installer le package de différentes façons, entre autres en exécutant la ligne install.packages("lavaan");. Nous allons considérer un exemple avec le jeu de données PoliticalDemocracy fourni avec lavaan. On peut charger lavaan et regarder la description du jeu de données : require(lavaan);?politicaldemocracy;

Construire le modèle La première étape sera de construire le modèle théorique. Cette étape correspond à décrire les hypothèses qualitatives concernant les relations causales entre les variables du modèle d'équations structurelles. On devra créer un objet qui donnera les équations du modèle, voici un exemple avec notre jeu de données : model = ' # Définition des variables latentes ind60 =~ x1 + x2 + x3 dem60 =~ y1 + a*y2 + b*y3 + c*y4 dem65 =~ y5 + a*y6 + b*y7 + c*y8 # régressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # corrélations résiduelles y1 ~~ y5 y2 ~~ y4 + y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8 '; Dans cet exemple, on remarque qu'on crée un objet appelé model qui contient du texte entre deux apostrophes ( ' ). Ce texte constitue les équations du modèle. La syntaxe des équations est relativement simple à comprendre. On peut utiliser le # pour inscrire des commentaires, par exemple "# Définition des variables latentes" est un commentaire qui ne sera pas considéré comme une équation. Le symbole =~ est utilisé pour définir une variable latente. Ainsi "ind60 =~ x1 + x2 + x3" définit la variable ind60, qui ne fait pas partie du jeu de données, comme étant une fonction des variables x1, x2 et x3, qui, elles. sont des variables observées qui font partie du jeu de données. Le symbole ~ est utilisé pour représenter une régression. Ainsi, dem65 ~ ind60 + dem60 indique que le modèle comporte une régression linéaire où dem65 est la variables dépendante et ind60 et dem60 sont les variables explicatives.

Le symbole ~~ est utilisé pour représenter des termes de covariances (soit entre des variables du modèle, soit entre des erreurs résiduelles). Par exemple y2 ~~ y4 + y6 signifie que le modèle doit permettre à y2 d'être corrélée avec y4 et avec y6. En fait, puisque y2 et y6 sont des variables dépendantes (elles sont respectivement les effets des variables latentes dem60 et dem65), il s'agit en fait de permettre des corrélations entre leurs erreurs résiduelles. On peut facilement imposer des contraintes aux paramètres du modèle. Par exemple dem60 =~ y1 + a*y2 + b*y3 + c*y4 et dem65 =~ y5 + a*y6 + b*y7 + c*y8 forcent les paramètres associés à y2, y3 et y4 pour créer la variable latente dem60 à être identiques aux paramètres associés à y6, y7 et y8 respectivement pour créer la variable latente dem65. Ajuster le modèle On peut ensuite ajuster le modèle avec la fonction sem. À cette étape, on ajoute à nos hypothèses qualitatives les informations provenant des données. Dans sa forme la plus simple, la fonction sem ne requiert que le modèle et le jeu de données : fit = sem(model, data=politicaldemocracy); Voici quelques autres arguments utiles qui peuvent être utilisés dans la fonction sem : mimic indique à la fonction d'imiter l'algorithme d'estimation utilisé par un autre logiciel. On peut imiter Mplus et EQS (ou lavaan). missing indique à la fonction comment traiter les données manquantes. On a le choix entre l'élimination listwise ("listwise") ou la méthode FIML ("fiml", "ml", "direct"). estimator permet de choisir le type d'estimateur à utiliser. Il en existe une panoplie, dont l'estimateur du maximum de vraisemblance ("ML"), des estimateurs du maximum de vraisemblance robustes à la non-normalité ("MLM", "MLR", "MLMV", "MLMVS", "MLF") et plusieurs types d'estimateurs des moindres carrés.

test permet de choisir le type de statistique à utiliser pour tester le modèle, soit le Khi-deux ordinaire ("standard"), des versions robustes à la non-normalité ("Satora.Bentler", "Yuan.Bentler") ou le bootstrap de Bollen-Stine ("boot", "bootstrap", "Bollen.Stine"). bootstrap permet de déterminer le nombre de réplications bootstrap à obtenir si on choisit d'effectuer du bootstrap. On peut finalement consulter les résultats du modèle avec la fonction summary : summary(fit); Les différentes options de la fonction summary appliquée à un objet de classe lavaan sont : standardized indique si la fonction doit effectuer une standardisation des paramètres estimés (TRUE ou FALSE). fit.measures indique si la fonction doit donner les indices d'ajustement du modèle (TRUE ou FALSE). rsquare indique si la fonction doit donner les coefficients de détermination (TRUE ou FALSE). modindices indique si la fonction doit donner les modification indices (TRUE ou FALSE). Ces indices peuvent être utiles pour déterminer comment un modèle qui s'ajuste mal aux données pourrait être amélioré. Conclusion Les modèles d'équations structurelles peuvent être extrêmement utiles dans plusieurs circonstances. Le «package» lavaan offre plusieurs possibilités dans l'ajustement de ces modèles. Il s'agit d'une excellente option gratuite qui se compare bien aux meilleurs logiciels payants (dont Mplus) pour plusieurs applications pratiques. Par contre, certaines

fonctionnalités avancées ne sont pas disponibles à ce jour avec lavaan, par exemple pour les modèls multiniveaux ou des fonctionnalités graphiques Denis Talbot, Rédacteur en chef Références http://lavaan.ugent.be/ http://www.jstatsoft.org/v48/i02/