Scénario : exempes de régression logistique



Documents pareils
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

SAS ENTERPRISE MINER POUR L'ACTUAIRE

INITIATION AU LOGICIEL SAS

«Cours Statistique et logiciel R»

Scénario: Score d appétence de la carte visa premier

TRANSPORT ET LOGISTIQUE :

SAS de base : gestion des données et procédures élémentaires

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

1 Modélisation d être mauvais payeur

Maladie de Hodgkin ou lymphome de Hodgkin

Assurance Crédit-Invalidité Trousse «Demande De Règlement»

Données longitudinales et modèles de survie

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Sujets présentés par le Professeur Olivier CUSSENOT

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Scénario: Données bancaires et segmentation de clientèle

Faire un semi variograme et une carte krigée avec surfer

Règlement des jeux accessibles par SMS et par appels au standard téléphonique

Pourquoi l apprentissage?

Arbres binaires de décision

IBM SPSS Regression 21

Un exemple de régression logistique sous

Lymphome non hodgkinien

Les soins infirmiers en oncologie : une carrière faite pour vous! Nom de la Présentatrice et section de l'acio

Le dépistage du cancer de la prostate. une décision qui VOUS appartient!

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Chapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE

Améliorer les performances du site par l'utilisation de techniques de Web Mining

TP SAS initiation IUP MIAGE L3

Le régime de l auto entrepreneur. Propositions des CCI de France

FONCTION DE DEMANDE : REVENU ET PRIX

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Algorithmique des Systèmes Répartis Protocoles de Communications

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

DEMANDE D AIDE INDIVIDUELLE

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Régime d assurance collective

Assurance invalidité de courte durée. Guide du salarié

OUTIL D'EVALUATION DU TEMPS ARC / CHEF DE PROJET PROMOTEUR REQUIS POUR UNE RECHERCHE BIOMEDICALE V 2.3 DE L OUTIL NOTICE D UTILISATION

Application de Gestion des Notes de Frais sous Lotus Notes via un navigateur avec WorkFlow 1

Notes de cours : bases de données distribuées et repliquées

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

DIRECTION CENTRALE DU COMMISSARIAT DE L ARMEE DE TERRE

I- Définitions des signaux.

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

CARREFOUR HYPERMARCHES SAS ZAE Saint Guénault 1, rue Jean Mermoz B.P EVRY CEDEX

Exemple PLS avec SAS

Guide Le départ à la retraite Questions fréquentes sur le régime de retraite des employés du gouvernement et des organismes publics (RREGOP et RRPE)

Lecture critique et pratique de la médecine

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Étape 1 : Balancer la chimie de l'eau

CHAPITRE 2. Les variables

Bases de données. Table des matières. Introduction. (ReferencePlus.ca)

Portrait statistique de la population de représentant en épargne collective au Québec

Travaux Pratiques de Commande par ordinateur 1 TRAVAUX PRATIQUES

QU EST-CE QUE LA TUBERCULOSE?

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

Probabilités conditionnelles Loi binomiale

Cours de Programmation en Langage Synchrone SIGNAL. Bernard HOUSSAIS IRISA. Équipe ESPRESSO

repensez votre courrier transactionnel pour une nouvelle expérience clients

Argumentaire pour la facilitation des échanges dans la pratique. Andrew Grainger

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

ACD Courtalux. Courtier en assurances agréé. Formulaire de renseignements (1)

REGLEMENT GENERAL DU JEU «GAGNE TON LOYER SUR VIRGIN RADIO»

TP Blender n 2 : Importation d un modèle SketchUp et animation

NanoSense. Protocole Modbus de la sonde Particules P4000. (Version 01F)

Exemples d application

Transmission d informations sur le réseau électrique

Traitement des données avec Microsoft EXCEL 2010

Arbres binaires de recherche

Nom de l agent : Fonctions : FORMULAIRE DE DEMANDE D AIDE SOCIALE

Introduction à MATLAB R

La classification automatique de données quantitatives

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Demand Response, une brique importante du Smart Grid

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Statistiques Descriptives à une dimension

L'œsophage L'œsophage est un tube musculaire qui traverse de la bouche à l'estomac. Causes

Chapitre 6. Fonction réelle d une variable réelle

ICI VOUS ÊTES QUELQU'UN CENTRE HOSPITALIER DE CORNOUAILLE "VOTRE IDENTITÉ C EST VOTRE SÉCURITÉ"

ELECTIONS MUNICIPALES 2014 LISTE ELECTORALE

Transmissions série et parallèle

Règlement des jeux par SMS et Appels au standard téléphonique

API SMS CONSEIL HTTP V2.01. Sommaire. Documentation V1.0 au 21/05/2011

COMMENTAIRE DU FORMULAIRE DE DEMANDE 2015

CRÉATION MODIFICATION

Propension moyenne et marginale

EN BELGIQUE, LES MUTUELLES NE REMBOURSENT PAS LES

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Demande de visa national

Ouverture d'un point de vente L étude de la zone de chalandise.

RÉSUMÉ DU PROGRAMME. Octobre Police n o Programme d assurance de l Association des jeunes médecins du Québec, administré par

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Monte-escaliers électriques

LECTURE CRITIQUE 1 ER PAS

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

Transcription:

Résumé Scénario : exempes de régression logistique Ce scénation présente trois exemples de régression logistique ou binomiale en introduisant les questions de choix de modèle traitées avec SAS ou R. L objectif est donc de construire un modèle expliquant et / ou prévoyant prévision une variable dichotomique ou encore, de façon plus générale, qualitative ordinale. Différents modèles sont abordés selon le niveau d interaction considéré entre les variables explicatives quantitatives ou qualitatives. Trois exemples sont traités pour illustrer les fonctionnalités des procédures de SAS et les fonctions R. Le premier exemple élémentaire analyse des données de cancer de la prostate, le deuxième une enquête sur les travail des femmes, le dernier les conséquences d un accident de voiture selon trois facteurs. 1 Cancer de la prostate avec SAS 1.1 Données Il y a quelques années, le traitement du cancer de la prostate dépendait de son extension ou non au niveau des ganglions du système lymphatique. Afin d éviter une intervention chirurgicale (laparotomie) pour vérifier la contamination, des études ont tenté de la prévoir à partir de l observation de variables explicatives. Dans ce but, 5 variables ont été observées sur 53 patients atteints d un cancer de la prostate et sur lesquels une laparotomie a été réalisée afin de s assurer de l implication ou non du système lymphatique. Ces données sont extraites de Collet (1991). Les variables considérées sont les suivantes : âge du patient acid niveau de serum acid phosphatase, radio résultat d une analyse radiographique (0 : négatif, 1 : positif), taille taille de la tumeur (0 : petite, 1 : grande), gravite résultat de la biopsie (0 : moins sérieux, 1 : sérieux). lymph La sixième variable indique l implication (1) ou non (0) du système lymphatique. L objectif est donc prédictif (variable lymph). Le fichier de données prostate.dat est accessible sur la page d URL : http://wikistat/data/ /* Lire les données */ data sasuser.prost; infile prostate.dat dlm= 09 x; input age acid radio $ taille $ gravite $ lymph; l_acid=log(acid); 1.2 Traitements interactifs Descriptif Étudier (rapidement avec SAS/insight) les distributions des variables explicatives, vérifier que la distribution de la variable acid justifie une transformation par une fonction log. Solutions > Analyse de données interactives > sasuser > prost Modèle complet Estimer un modèle binomial ou de régression logistique : Analyse > fit Sélect. lymph > Y /* Attention Y doit être de type réel (interval donc 0,1) pour cette procédure */ Sélect. l_acid age radi o taille gravite Expand /*toutes les interactions d ordre 2 dans X Sélect. age*age l_acid*l_acid age*l_acid > Remove Method > Binomial /* régression logistique */ 1

2 /* Au lieu de Normal : modèle gaussien ou régression multilinéaire*/ Link function > Canonical /* fonction logit dans le cas binomial */ Output > TypeIII(LR) Tests OK > Apply Le modèle est estimé et les tableaus de type III fournissent les statistiques des tests de Wald et du rapport de vraisemblance sur la significativité des paramètres du modèle. Choix de modèle À partir du modèle complet incluant les interactions d ordre 2, mettre en œuvre une procédure de sélection par élimination en respectant les règles suivantes : ne supprimer un effet principal qu à la condition qu il n intervienne plus dans des interactions, ne supprimer qu un terme à la fois, utiliser conjointement les critères fournis par la décomposition (type III) du test de Wald et du test de rapport de vraisemblance pour choisir le facteur à éliminer. Choisir, parmi les interactions ou effets principaux, celui pour lequel le test de Wald (H 0 : b j = 0) (resp. le test du rapport de vraisemblance) est le moins significatif, c est-à-dire avec la plus grande prob value. Le retirer du modèle et recalculer l estimation. Il suffit pour cela de sélectionner le nom de la variable ou de l interaction dans le tableau (TYPE III) et d exécuter la commande Edit > delete Choix À l issue de la sélection, deux modèles restent en compétition celui meilleur au sens du test de Wald et celui au sens du test du rapport de vraisemblance. Comment choisir parmi ces deux modèles? Remarque : actuellement, une simple échographie permet de délivrer un diagnostic avec beaucoup plus de fiabilité. 1.3 Les autres procédures Retrouver automatiquement le même modèle à l aide de la procédure logistic : proc logistic data=sasuser.prost; class radio taille gravite ; model lymph = age l_acid radio taille gravite age*taille age*radio age*gravite l_acid*radio l_acid*taille l_acid*gravite radio*taille radio*gravite taille*gravite /selection=backward ; Comparer les estimations des paramètres obtenus par les deux modèles. Ceux-ci diffèrent. Pourquoi? Comparer avec les résultats de la procédure genmod : proc genmod data=sasuser.prost; class radio taille gravite ; model lymph = age l_acid radio taille gravite age*taille age*radio age*gravite l_acid*radio l_acid*taille l_acid*gravite radio*taille radio*gravite taille*gravite / dist=bin type3; Commenter les effets des variables en notant les valeurs prises par les paramètres. 2 Panel d enquête avec R 2.1 Les données Les données (Jobson 1992) étudiées sont issues d une enquête réalisée auprès de 200 femmes mariées du Michigan. Les variables considérées sont les suivantes : THISYR, la variable à expliquer, (Woui) si la femme travaille l année en cours, (Wnon) sinon ; CHILD1 code la présence (Boui) ou l absence

3 (Bnon) d un enfant de moins de 2 ans ; CHILD2 présence (Eoui) ou absence (Enon) d un enfant entre 2 et 6 ans ; ASCEND l ascendance noire (Anoi) ou blanche (Abla) ; les autres variables, âge (AGE), nombre d années d études (EDUC), revenu du mari (HUBINC) sont quantitatives. Les données sont disponibles dans le fichier jobpanel.dat. Lire le fichier puis recoder les facteurs : # Lecture des données: type=c("character","character","numeric","numeric", "numeric","character","character","character") panel=read.table("jobpanel.dat",colclasses=type, header=true) # Codage explicite des facteurs panel[,"thisyr"]=factor(panel[,"thisyr"], levels=c("0","1"),labels=c("wnon","woui")) panel[,"child1"]=factor(panel[,"child1"], levels=c("0","1"),labels=c("bnon","boui")) panel[,"child2"]=factor(panel[,"child2"], levels=c("0","1"),labels=c("enon","eoui")) panel[,"ascend"]=factor(panel[,"black"], levels=c("0","1"),labels=c("abla","anoi")) panel=panel[,-c(2,6)] summary(panel) 2.2 Exploration Uni-dimensionnelle Vérifier les distributions des variables quantitatives, justifier la transformation. hist(panel[,"hubinc"]) panel[,"lhubinc"]=log(1+panel[,"hubinc"]) hist(panel[,"age"]) hist(panel[,"educ"]) Bi-dimensionnelle Observer les liasons entre les variables. # 2 quantitatives plot(panel[,"age"],panel[,"lhubinc"]) mosaicplot(thisyr~ascend,data=panel) # 1 quali et 1 quantitative boxplot(age~thisyr,data=panel) boxplot(lhubinc~thisyr,data=panel) Multi-dimensionnelle Transformer les variables quantitatives en qualitatives avant de calculer l analyse multiple des correspondances à l aide de la librairie FactoMineR. # Transformations panel[,"ageq"]=cut(panel$age,breaks= quantile(panel[,"age"],probs = seq(0, 1, 1/2)), labels=c("a0","a1"),include.lowest = TRUE) panel[,"hubincq"]=cut(panel$hubinc,breaks= quantile(panel[,"hubinc"],probs=seq(0,1,1/3)), labels=c("r0","r1","r2"),include.lowest=true) panel[,"educq"]=cut(panel$educ,breaks=c(0,11,13,20), labels=c("scol0","scol1","scol2"), include.lowest=true) # Analyse des correspondances des # variables qualitatives library(factominer) afcm=mca(panel[,c(1,5:7,9:11)],graph=f) # graphe avec individus plot(afcm, choix="ind",habillage="quali") #sans les individus plot(afcm,habillage="quali",invisible="ind") Tenter une interprétation des axes. 2.3 Modélisation par régression logistique La prévision de la variable THISYR n est pas l objectif, celle-ci est par ailleurs fort mauvaise ; l objectif est plutôt la simple explicaiton de cette variable par les autres afin de mettre en évidence l influence des différents fac-

4 teurs. On se contentera donc d estimer le modèle complet sans interaction en utilisant soit les variables quantitatives, soit celles quantitatives transformées en qualitatives par découpage en classes. # avec les variables quantitatives panel.glm=glm(thisyr~lhubinc+age+educ+child1+ CHILD2+ASCEND,family=binomial,data=panel) summary(panel.glm) # avec tout qualitatif panel.glm=glm(thisyr~hubincq+ageq+educq+child1+ CHILD2+ASCEND,family=binomial,data=panel) summary(panel.glm) Interpréter dans les deux cas l influence des facteurs dans l explication de la variable THISYR. 2.4 Modélisation par arbre binaire Un arbre binaire de décision est estimé afin de compléter le tour d horizon des outils disponibles pouvant aider à la modélisation ou l explication de la variable THISYR. # Estimation de l arbre avec toutes les # variables quantitatives panel.tree=rpart(thisyr~lhubinc+age+educ+ parms=list(split= information ),cp=0.0001) # élagage par validation croisée # recherche de la pénalisation optimale library(e1071) res=tune.rpart(thisyr~lhubinc+age+educ+ cp=seq(0,0.05,length=30 )) plot(res) print(res) # Elagage panel.tree=rpart(thisyr~lhubinc+age+educ+ parms=list(split= information ),cp=0.0137931) plot(panel.tree) text(panel.tree) # Même chose avec les variables qualitatives panel.tree=rpart(thisyr~hubincq+ageq+educq+ parms=list(split= information ),cp=0.0001) # élagage par validation croisée # recherche de la pénalisation optimale library(e1071) res=tune.rpart(thisyr~hubincq+ageq+educq+ cp=seq(0,0.05,length=30 )) plot(res) print(res) # Elagage panel.tree=rpart(thisyr~hubincq+ageq+educq+ parms=list(split= information ),cp=0.01724138) plot(panel.tree) text(panel.tree) Comparer la construction de ces arbres. Comparer avec le choix des variables dans les nœuds avec les résultats de la régression logistique. 3 Ceinture de sécurité avec SAS 3.1 Les données On s intéresse aux résultats (Jobson, 1991) d une étude préalable à la législation sur le port de la ceinture de sécurité dans la province d Alberta à Edmonton au Canada. Un échantillon de 86 769 rapports d accidents de voitures ont été compulsés afin d extraire une table de contingence complète croisant : 1. Gravité des blessures : Gr0 : rien à Gr3 : fatales 2. Risque regroupe Gr3 à Gr1 d un côté et Gr0 de l autre. 3. Port de la ceinture : Coui/Cnon

5 4. Sexe du conducteur : Hom/Fem 5. Etat du conducteur : Ajeu /A_bu data sasuser.ceinture; infile ceinture.dat ; input grave $ ceinture $ sexe $ alcool $ effectif; select (grave); when( Gr1, Gr2, Gr3 ) risque= Rimp ; when( Gr0 ) risque= Rfai ; otherwise; end; 3.2 Modélisations Plusieurs modélisations sont testées avec les procédures genmod et logistic. Compte tenu de la nature de la variable à expliquer qui est qualitative ordinale, la première chose à faire est d utiliser la procédure suivante qui estime, par défaut, une régression logistique ordinale. proc logistic data=sasuser.ceinture ; class sexe alcool ceinture grave; model grave=sexe alcool ceinture ; proc genmod data=sasuser.ceinture; class sexe alcool ceinture ; model risque=sexe alcool ceinture@2 /type3 dist=bin; Que pensez vous de la présence des interactions? Utiliser la procédure logistic pour réduire le modèle. Le modèle ci-dessous excluant les interactions permet d estimer les rapports de cote ou odds ratio et même de tracer la courbe ROC. proc logistic data=sasuser.ceinture descending; class sexe alcool ceinture; model risque=sexe alcool ceinture/ outroc=roc1; Interpréter l influence ds facteurs sur la gravité de l accident. Qu est-ce qui est le plus dangereux? Que dire de la qualité d ajustement du modèle? L hypothèse d homogénéité des rapports de cote est-elle acceptable? Par la suite, compte tenu du résultat de ce test et des effectifs très déséquilibrés des modalités de la variable risque, les données ont été simplifiées pour ne considérer que deux états de gravité : aucune blessure ou blessure plus ou moins grave à fatale. Les deux procédures sont exécutées ci-dessous. Vérifier que, si les paramètres estimés sont différents, les tests de significativité conduisent aux mêmes conclusions. proc logistic data=sasuser.ceinture; class sexe alcool ceinture; model risque=sexe alcool ceinture@2 ;