La régression logistique



Documents pareils
IBM SPSS Regression 21

«Cours Statistique et logiciel R»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Introduction à l approche bootstrap

Données longitudinales et modèles de survie

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

LES MODELES DE SCORE

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

PROGRAMME (Susceptible de modifications)

TABLE DES MATIERES. C Exercices complémentaires 42

Arbres binaires de décision

Régression linéaire. Nicolas Turenne INRA

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

CAPTEURS - CHAINES DE MESURES

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

NON-LINEARITE ET RESEAUX NEURONAUX

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident.

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

LES DIFFERENTS TYPES DE MESURE

SAS ENTERPRISE MINER POUR L'ACTUAIRE

IBM SPSS Statistics Base 20

STATISTIQUES. UE Modélisation pour la biologie

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Principe d un test statistique

TRANSPORT ET LOGISTIQUE :

Logiciel XLSTAT version rue Damrémont PARIS

Coup de Projecteur sur les Réseaux de Neurones

Exemples d application

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Optimisation des ressources des produits automobile première

Évaluation de la régression bornée

Chapitre 6. Fonction réelle d une variable réelle

Assurance maladie en Suisse : les assurances supplémentaires nuisent-elles à la concurrence sur l assurance de base?

Enjeux mathématiques et Statistiques du Big Data

Chapitre 4 : Régression linéaire

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés?

Pratique de la Régression Logistique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

IBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Aide-mémoire de statistique appliquée à la biologie

Le modèle de régression linéaire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

données en connaissance et en actions?

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

4. Résultats et discussion

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

INF6304 Interfaces Intelligentes

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Traitement des données avec Microsoft EXCEL 2010

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Analyse des durées de vie avec le logiciel R

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Introduction aux Statistiques et à l utilisation du logiciel R

1 Définition de la non stationnarité

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Rating et probabilité de défaut des entreprises européennes :

Modèle GARCH Application à la prévision de la volatilité

Cours de méthodes de scoring

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

(Customer Relationship Management, «Gestion de la Relation Client»)

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

INTRODUCTION AU DATA MINING

Quantification Scalaire et Prédictive

Observation statistique

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Méthodes d apprentissage statistique «Machine Learning»

Relation entre deux variables : estimation de la corrélation linéaire

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Leçon N 4 : Statistiques à deux variables

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT

UNIVERSITÉ DU QUÉBEC À MONTRÉAL MARCHÉ DES CDS ET STABILITÉ FINANCIÈRE MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIQUE PAR

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Table des matières. I Mise à niveau 11. Préface

Transcription:

La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1

Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la forme de la variable dépendante: < binaire pour deux catégories. < polytomique pour plusieurs catégories: multinominale ou ordinale. PQuand les variables indépendantes peuvent être de plusieurs types: < Nominales (qualitatives) < Ordinales < Métriques (quantitatives) < Et des interactions de variables, le cas échéant. 2

Mais encore... PComme la variable dépendante prend soit la valeur 0 ou la valeur 1 (régression logistique ordinaire), la valeur prédite doit donc se situer entre 0 et 1. C est pourquoi on transforme la VD en une fonction de probabilité. PFait partie des modèles utilisant la transformation logarithmique: < Modèles loglinéaires: Uniquement des variables nominales ou ordinales < Modèles probit ou logit: Variables indépendantes continues < Modèles de régression de survie: variable prédite évolue dans le temps; variables indépendantes peuvent aussi varier dans le temps. 3

Mais encore... P Se distingue de l analyse discriminante entre autres par le fait que celle-ci demande une distribution multi-normale des variables indépendantes. P Se distingue de la régression linéaire par le fait que celle-ci demande une distribution normale des variables indépendantes et dépendante. De plus, si on utilisait la régression linéaire, la valeur prédite pourrait se situer en dehors de l intervalle 0,1. P En pratique, lorsque la proportion de zéro ou de 1 se situe à plus de 15%, la régression linéaire donne des résultats fiables en général (voir Cibois). 4

La variable dépendante PVariable dépendante: ln p( y 1 x) p( y 0 x) P Et donc, log naturel de la probabilité que y prenne la valeur 1 plutôt que 0 étant donné la valeur des variables indépendantes (x i ) dans l équation. P On transforme donc la VD de telle sorte que l on prédit la probabilité que Y=1 plutôt que 0, étant donné les valeurs de x (x 1,x 2,x 3,...x n ). P Il s agit d une transformation logarithmique, difficile à interpréter. C est pourquoi on transforme par l inverse (Exp) pour faciliter l interprétation. On parle alors de rapport de cote (odds ratio). 5

Le processus d analyse suggéré est le même que pour la régression linéaire Mais il faut vérifier un peu plus sérieusement la linéarité P1. Examiner les relations bi-variées entre chacune des V.I. et la V.D. < Vérifier si elles sont linéaires, le cas échéant. P2.Faire une régression standard (soit une régression où on introduit toutes les V.I. dans l analyse d un coup) pour voir l effet combiné de toutes les variables. P3. Établir un modèle et procéder à l entrée hiérarchique des variables en fonction du modèle. P4. Faire une régression parcimonieuse, soit une analyse qui ne garde que les variables significatives et vérifier si elle diffère significativement du modèle avec toutes les variables. P5. Examiner la justesse du modèle : < χ 2 de maximum de vraisemblance < Pourcentage de bonnes prédictions < Distribution des résidus. 6

Les informations PJustesse du modèle : < χ 2 du modèle: Est-ce que l ensemble de variables ou les variables du bloc entré est significativement relié à la VD? < χ 2 de maximum de vraisemblance (Hosmer et Lemeshow): est-ce que les données sont compatibles avec les relations postulées? < Classification: Jusqu à quel point les informations sur les VI permettent de bien classer les cas dans les catégories de la VD, étant donné le point de coupure. < Analyse des résidus: proportion de résidus à plus de 3 écarts-types (si n est grand), distribution normale des résidus. 7

Les informations PPour chaque variable : < Test de Wald (se distribue comme le χ 2 ): jusqu à quel point chaque variable est liée significativement à la VD. PPour chaque catégorie des variables qualitatives: < Test de Wald (b/s.e.): jusqu à quel point chaque catégorie se distingue significativement de la catégorie de référence. 8

Nouvelle notion importante χ 2 de maximum de vraisemblance P Pour le χ 2 ordinaire : < L hypothèse nulle est qu il n y a pas de relation entre deux variables. < L hypothèse alternative est qu il y a une relation, que les deux variables ne sont pas indépendantes. < On cherche à rejeter l hypothèse nulle. P Pour le χ 2 de maximum de vraisemblance (Hosmer et Lemeshow, Brown): < L hypothèse nulle (H 0 ) est qu il y a une relation entre les deux variables ou entre l ensemble de variables indépendantes choisies et la variable dépendante. < L hypothèse alternative est que les relations ne sont pas celles qui sont postulées. < On cherche à accepter l hypothèse nulle. 9

Le χ 2 de maximum de vraisemblance PLorsque la probabilité du χ 2 de maximum de vraisemblance est plus grande que 0,05, on conclut que les données sont compatibles avec le modèle postulé, qu il est vraisemblable que l ensemble de relations existe dans la population. 10

Interprétation des coefficients P Les coefficients b s interprètent comme pour la régression linéaire, mais toujours en comparant à la catégorie de référence, ce qui donnerait, pour la régression logistique: < à chaque augmentation de 1 de la VI, le log népérien (naturel) de la probabilité que y soit égal à 1 plutôt qu à zéro augmente de b. P Concrètement, on regarde e b (la fonction inverse) et on interprète que, < à chaque augmentation de 1 de la VI, la probabilité que Y=1 plutôt que zéro augmente de e b. Lorsque la VI est qualitative: Si le cas est dans la catégorie i plutôt que dans la catégorie de référence de la VI, la probabilité que Y=1 plutôt que zéro est de e b. 11

Interprétation des coefficients Exemple (voir listing - analyse parcimonieuse sur les prédicteurs du fait d envisager le suicide comme solution possible) PCeux qui déclarent n avoir aucune religion sont 2,4 fois (voir e b ) plus susceptibles que les catholiques de déclarer qu ils pourraient envisager le suicide dans une situation difficile. PCeux qui considèrent que le suicide peut être acceptable dans certaines circonstances sont 2,05 fois plus susceptibles de déclarer qu ils pourraient envisager le suicide dans une situation difficile que ceux qui le considèrent inacceptable quelles que soient les circonstances. 12

Classification PLa régression logistique donne aussi la proportion de cas bien classés étant donné les valeurs de x et le point de césure (cutpoint). < Le point de césure est de 0,5 par défaut dans SPSS. Il faut le modifier selon la distribution de la VD à un point optimal. < Interprétation: Si on catégorise dans les 1" tous les cas qui ont une probabilité plus grande que le point de césure d être dans les 1" et que l on catégorise dans les 0" tous ceux qui ont une probabilité plus petite que le point de césure d être dans les 1", quelle est la proportion de 1" et de 0" qui sont bien classés? 13

Les résidus P Tout comme en régression linéaire, on regarde... < La proportion de résidus standardisés plus grande que 3. < La distribution des résidus (qui doit être normale et homoscédaste, soit avoir la même variance quelles que soient les valeurs de x). 14

En conclusion P La régression logistique est relativement facile à utiliser. P Il faut faire très attention à l interprétation (ne pas oublier que l on compare toujours à la catégorie de référence). P La présence d informations sur la classification peut être un avantage de l analyse (par rapport à la régression linéaire) dans certains cas. P Le deuxième avantage sur la régression linéaire est la possibilité d entrer des variables de plusieurs types comme VI et de modéliser facilement les interactions. 15