Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)



Documents pareils
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

TRANSPORT ET LOGISTIQUE :

SAS ENTERPRISE MINER POUR L'ACTUAIRE

«Cours Statistique et logiciel R»

Chapitre 3. Les distributions à deux variables

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Limitations of the Playstation 3 for High Performance Cluster Computing

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

IBM SPSS Regression 21

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Principe d un test statistique

La place de SAS dans l'informatique décisionnelle

Standard téléphonique PABX

TABLE DES MATIERES. C Exercices complémentaires 42

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

1 Imputation par la moyenne

SPHINX Logiciel de dépouillement d enquêtes

TRAVAUX DE RECHERCHE DANS LE

Épreuve collaborative

TP 7 : oscillateur de torsion

Enjeux mathématiques et Statistiques du Big Data

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Probabilités III Introduction à l évaluation d options

L allocataire dans un couple : l homme ou la femme?

T de Student Khi-deux Corrélation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Microsoft Excel : tables de données

Données longitudinales et modèles de survie

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

TD d économétrie appliquée : Introduction à STATA

Optimisation des ressources des produits automobile première

Configurateur TX100B tébis KNX avec prise USB

Découverte du tableur CellSheet

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Mesure du volume d'un gaz, à pression atmosphérique, en fonction de la température. Détermination expérimentale du zéro absolu.

Activité 11 : Nuage de points ou diagramme de dispersion

Logiciel XLSTAT version rue Damrémont PARIS

Coup de Projecteur sur les Réseaux de Neurones

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

NOTICE EXPLICATIVE. Formulaire ASSURANCE. Exercice 2011 SUR LES RÈGLES DE PROTECTION DE LA CLIENTÈLE

Préparation des données d entrée pour la définition d un plan de validation

Qualité du logiciel: Méthodes de test

VI. Tests non paramétriques sur un échantillon

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

ET 24 : Modèle de comportement d un système Introduction à Labview et initiation à la réalisation d un Instrument Virtuel (VI).

Se repérer dans l écran de Foxmail

Le modèle de régression linéaire

INITIATION AU LOGICIEL SAS

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

1 Modélisation d être mauvais payeur

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Cycle de Découverte n 1 VISUALISER Créer la prochaine application innovante

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

C2 - DOSAGE ACIDE FAIBLE - BASE FORTE

Nouvelles fonctionnalités

Automatique Linéaire 1 Travaux Dirigés 1A ISMIN

données en connaissance et en actions?

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Présentation... 2 Mise en place Fiche Article... 2 Commande Client... 3 Commande Fournisseur Gestion de la contremarque...

1. Entrez le code client dans le champ << Code client >> si requis. Le code client est optionnel, on peut donc entrer simplement le nom du client.

Examen de Logiciels Statistiques

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

LOGICIELS DE PRÉVISIONS

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

Analyse de la variance Comparaison de plusieurs moyennes

Manuel de fonctionnement EA pour Metatrader 4 - Croisement de moyennes mobiles -

1. PRESENTATION DU PROJET

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Refonte du cours de statistique dans une école de commerce

Fonctions de deux variables. Mai 2011

Manipulation N 6 : La Transposition de fréquence : Mélangeur micro-ondes

Baccalauréat technique de la musique et de la danse Métropole septembre 2008

Compte lecteur : Mode d emploi. Sommaire

Guide d utilisation. Gamme Telium 2. Application IMAGELOADER xx

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Etude des propriétés empiriques du lasso par simulations

Utiliser des fonctions complexes

COURS 9 : TARIFICATION Aspects mathématiques

Analyse exploratoire des données

: seul le dossier dossier sera cherché, tous les sousdomaines

Formation logiciel ZSH Gestion commerciale. F.Krebs. Sommaire :

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Un modèle stochastique du taux d intérêt implicite en microcrédit

KPI (Key Performance Indicator) dans MOSS

Aide à l'utilisation de l'application 'base de données communales' intégrée à la plate-forme PEGASE. Interface 'Front-Office'

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

HYBIRD 120 GE POUR LES NULS

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

COMMUNAUTE DU PAYS D E V E N D O M E. Orientations budgétaires 2010

Modes Opératoires WinTrans Mai 13 ~ 1 ~

Transcription:

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Modèles de régression logistique à réaliser Une explicative catégorielle Evaldemo2 en fonction de educ3 Deux explicatives catégorielles Evaldemo2 en fonction de educ3 + hincfel2 Evaldemo2 en fonction de hincfel2 + plinsoc3 Une explicative continue Evaldemo2 en fonction de agea Explicatives mixtes Evaldemo2 en fonction de agea + polintr2 log log log log π k 1 π k = θ k = μ + α k ; (α 1 = 0) π jk 1 π jk = θ jk = μ + α j + β k + γ jk ; (α 1 = β 1 = γ 1k = γ j1 = 0) π x 1 π x = β 0 + β 1 x π x 1 π x = (β 0 +α k ) + (β 1 +τ k )x ; (α 1 = τ 1 = 0)

Régression logistique avec une explicative catégorielle /* A partir de la base de données observations en lignes et variables en colonnes */ proc logistic data = SAS-dataset; class explicative catégorielle (ref = niveau de référence') /param=ref; model réponse(event= niveau de Succès') = explicative /expb clodds = WALD; /* Alternative : à partir d un tableau de contingence*/ proc logistic data = SAS-dataset; *Le SAS-dataset renvoie ici aux fréquences de la table de contingence; class explicative catégorielle (ref = niveau de référence') /param=ref; weight count; model réponse(event= niveau de Succès') = explicative /expb clodds = WALD;

L instruction CONTRAST (si explicative à plus de 2 niveaux) En pratique : Faire tourner une première fois la proc logistic sans insérer l instruction «contrast» et examiner la sortie «Informations sur les niveaux de classe». π Nécessité de comprendre l équation du modèle : log k 1 π k = θ k = μ + α k ; (α 1 = 0) La sortie ci-contre doit être interprétée comme suit : - Modèle pour «Middle» : log π 1 1 π 1 π 2 = θ 1 = μ + α 1 = μ - Modèle pour «High» : log = θ 1 π 2 = μ + α 2 2 π - Modèle pour «Low» : log 3 = θ 1 π 1 = μ + α 3 3 α 2 représente le contraste «High Vs Middle» et α 3 représente le contraste «Low Vs Middle» Si je souhaite à présent définir les contrastes suivants : «Middle Vs High» : α 2 «Low Vs Middle» : α 3 «Low Vs High» : α 3 α 2

Régression logistique avec deux explicatives catégorielles Point de départ : on teste l effet des deux explicatives et de leur interaction sur la réponse proc logistic data = SAS-dataset; class expcat1 (ref = ' niveau-référence ') expcat2 (ref = niveau-référence')/param=ref; model réponse(event= niveau de Succès') = exp1 exp2 exp1*exp2/expb clodds = WALD; Examiner la sortie «Type 3 Analysis of effects» pour procéder à la sélection du modèle. Attention TYPE 3 évalue le caractère significatif de l effet d un terme en contrôlant tous les autres simultanément (que ceux-ci soient inclus avant ou après dans l équation) le retrait d un terme affecte les statistiques du Chi² et les p-valeurs calculées pour tous les termes restants!!!

Sélection du modèle - Si le terme d interaction est significatif, on conserve le modèle complet pour l interprétation des paramètres; sinon, on supprime le terme d interaction du modèle et on refait tourner le code : proc logistic data = SAS-dataset; class expcat1 (ref = ' niveau-référence ') expcat2 (ref = niveau-référence')/param=ref; model réponse(event= niveau de Succès') = exp1 exp2 /expb clodds = WALD; - Si les deux explicatives ont un effet significatif, on conserve ce modèle pour interpréter les paramètres; sinon, on reteste l effet de chaque explicative séparément (cf. modèle 1).

Régression logistique avec une explicative continue 1 ère étape : analyse exploratoire Le modèle suivant n a de sens que si l hypothèse de linéarité est raisonnable Objectif = visualiser au moyen d un graphe si le logarithme de la cote évolue de manière linéaire avec la variable explicative continue (ici, l âge). Si le graphe met clairement en évidence une association non linéaire, alors le modèle n est pas adéquat ( alternative : catégoriser la variable en classes sur base de l observation du graphe ). Pour faire le graphe X (expcont) Y (log(cote)): Si effectif élevé conserver le caractère continu de la variable (cf. code TP) Si effectif insuffisant que pour pouvoir estimer les log(cote) pour chaque valeur (ou presque) de la variable explicative catégorisation de l explicative (cf. code cours théorique)

Régression logistique avec une explicative continue Si le graphe ne suggère pas une relation non linéaire, mise en œuvre du modèle : proc logistic data = SAS-dataset; model réponse(event= niveau de Succès') = explicative_continue /expb clodds = WALD; /* L instruction «class» disparaît car il n y a plus d explicative catégorielle dans le modèle*/

Régression logistique avec des explicatives mixtes Procédure : idem supra Point de départ : on teste l effet des deux explicatives et de leur interaction sur la réponse proc logistic data = SAS-dataset; class expcat (ref = ' niveau-référence ')/ param = ref; model réponse(event= niveau de Succès') = expcont expcat expcont*expcat / expb clodds = WALD; Examiner la sortie «Type 3 Analysis of effects» pour procéder à la sélection du modèle. Après avoir sélectionné le modèle examen des estimations + IC

Alternative à la proc logistic : PROC GENMOD pour tous les modèles vus supra Advantage: can request likelihood ratio tests using options <type1> or <type3>. proc genmod data = SAS-dataset <descending>; class expcat (ref = ' niveau-référence ')/ param = ref; model réponse = exp1 exp2 exp1*exp2/dist = bin link = logit lrci type1 type3; Régression logistique /* <descending> force success= the reverse of the default' */