La régression logistique

Documents pareils
«Cours Statistique et logiciel R»

Docteur José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Annexe commune aux séries ES, L et S : boîtes et quantiles

Propriétés des options sur actions

Statistiques Descriptives à une dimension

TRANSPORT ET LOGISTIQUE :

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Statistiques avec la graph 35+

Chapitre 2 Le problème de l unicité des solutions

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Cours de méthodes de scoring

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Coup de Projecteur sur les Réseaux de Neurones

Limitations of the Playstation 3 for High Performance Cluster Computing

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Note de service À : De :

PROBLEME(12) Première partie : Peinture des murs et du plafond.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

M2 IAD UE MODE Notes de cours (3)

ANALYSE DU BESOIN. L ANALYSE FONCTIONNELLE par Jean-Marie VIRELY & all (ENS Cachan) Cette présentation décrit l outil «Analyse du Besoin».

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Une étude de différentes analyses réalisées par le BIT

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Chapitre 3. Les distributions à deux variables

Logiciel XLSTAT version rue Damrémont PARIS

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

23. Interprétation clinique des mesures de l effet traitement

1. Vocabulaire : Introduction au tableau élémentaire

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Précision d un résultat et calculs d incertitudes

MABioVis. Bio-informatique et la

CCP PSI Mathématiques 1 : un corrigé

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à l approche bootstrap

Correction du baccalauréat S Liban juin 2007

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Leçon N 4 : Statistiques à deux variables

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Données longitudinales et modèles de survie

MATHÉMATIQUES ET SCIENCES HUMAINES

IBM SPSS Regression 21

Quantification Scalaire et Prédictive

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

I- Définitions des signaux.

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

!-.!#- $'( 1&) &) (,' &*- %,!

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Coûts, avantages et inconvénients des différents moyens de paiement

Relation entre deux variables : estimation de la corrélation linéaire

Tableau récapitulatif de l analyse fréquentielle

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

SYSTEMES LINEAIRES DU PREMIER ORDRE

Optimisation des ressources des produits automobile première

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Logique. Plan du chapitre

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

MANUEL UTILISATEUR BALADEUR SANTÉ AUXILIAIRES MÉDICAUX ET SAGES-FEMMES C.D.C 1.40

Apprentissage Automatique

Principe d un test statistique

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Chapitre 7 : Intégration sur un intervalle quelconque

Corrigé des TD 1 à 5

Introduction aux Statistiques et à l utilisation du logiciel R

Parallélisme et Répartition

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Faire un semi variograme et une carte krigée avec surfer

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Construction d un cercle tangent à deux cercles donnés.

Statistique Descriptive Élémentaire

Héritages, donations et aides aux ascendants et descendants

Bandes Critiques et Masquage

Feuille TD n 1 Exercices d algorithmique éléments de correction

EES : Engineering Equation Solver Fiche récapitulative - Marie-Sophie Cabot

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Unity Real Time 2.0 Service Pack 2 update

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Calculs de probabilités avec la loi normale

Statistique : Résumé de cours et méthodes

Méthodes de simulation des décès. appliquées au régime de retraite de la. fonction publique d État

Correction du baccalauréat ES/L Métropole 20 juin 2014

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Licence Sciences et Technologies Examen janvier 2010

Théorie et codage de l information

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

Chap17 - CORRECTİON DES EXERCİCES

MASTER PROFESSIONNEL (2 ème année)

Transcription:

La régression logistique Loïc Desquilbet Département des Sciences Biologiques et Pharmaceutiques Ecole Nationale Vétérinaire d Alfort UE Libre «Préparation à la thèse expérimentale» (213-214) ldesquilbet@vet-alfort.fr v1 Remarque avant de commencer ce cours Pour être compris, ce cours nécessite d avoir compris le cours intitulé «Théorie des modèles de régression multivariés Application à la régression linéaire» 2

I. Présentation mathématique de la régression logistique II. III. IV. La régression logistique univariée en théorie La régression logistique multivariée en théorie Le codage des variables avant introduction dans un modèle de régression logistique Plan 3 Rappel : calcul de l Odds Ratio Maladie Exposition 1 1 a Odds e1 = a b c c d m 1 m e 1 e Odds e = b d P(M + /E=1) = a e 1 = P E=1 P(M + /E=) = c e = P E= a Odds c e1 ad OR = = = = rapport de l Odds de l exposition chez les malades Odds e b bc d par celui chez les non malades P(M + /E=1) 1 - P(M + /E=1) OR = = P(M + /E=) 1 - P(M + /E=) P E=1 1 P E=1 P E= 1 P E= 4

Contexte d utilisation de la régression logistique Un modèle de régression multivarié permet de quantifier une association entre une exposition E et un état de santé Y ajusté sur des facteurs de confusion potentiels Il peut s écrire de façon générale Y = α + β.e + γ 1.X 1 + γ 2.X 2 + + γ p.x p La régression logistique doit être utilisée lorsque l état de santé est binaire, non associé à un délai de survenue 5 Problématique Dans le cas où Y est binaire (de type «malade», «non malade»), écrire un modèle Y = α + β.e n a pas de sens car la distribution de Y n est pas du tout normale! 6

Problématique Au lieu de Y, on pourrait modéliser la probabilité d être malade en fonction de l exposition Mais là encore, la probabilité d être malade n est pas distribuée normalement 2-25 25-3 3-35 35-4 7 Solution : utiliser la fonction logit Logit(P) = Ln P 1 - P pour P ] ; 1[, Logit(P) ]- ; + [ 8 Logit(P) 6 4 2-2.2.4.6.8 1 P -4-6 -8 8

Ecriture du modèle de régression logistique multivarié Soit P = P(M + / E, X 1, X 2,, X P ), la probabilité d être malade en fonction des expositions E, X 1, X 2,, X P Logit(P) = α + β.e + γ 1.X 1 + γ 2.X 2 + + γ p.x p β quantifie l association entre l exposition E et la probabilité P d être malade, ajustée sur les variables X i incluses dans le modèle, via la fonction Logit α n a pas d interprétation facile car c est la valeur de Logit(P) pour E = 9 Plan I. Présentation mathématique de la régression logistique II. La régression logistique univariée en théorie III. La régression logistique multivariée en théorie IV. Le codage des variables avant introduction dans un modèle de régression logistique 1

Illustration avec Epi Info Présentation du fichier de données (cf. cours sur la régression linéaire) La maladie : faible_poids_naiss = «1» si un chaton pèse moins de 85 grammes à la naissance ; sinon Expositions (variable, et codage dans le fichier de données) - male : «1» si c est un mâle ; si c est une femelle - cesarienne : «1» si nécessité de césarienne ; si mise-bas naturelle - race : «1» pour British short/long hair ; «2» pour Main Coon ; «3» pour Chartreux ; «4» pour autres races - age_mere : âge de la mère en années - taille_portee : taille de la portée 11 Illustration avec Epi Info Logit(P) = α + β male.male β smale = -,78 α = -,77 Logit(P) = -,77 -,78.male 12

Interprétation du paramètre β Écriture du modèle pour E, exposition binaire (/1), incluse seule dans le modèle Chez les sujets non exposés à E (E = ) : Logit(P) = Logit (P(M + / E=)) = Logit P E= = α + β x = α () Chez les sujets exposés à E (E = 1) : Logit(P) = Logit (P(M + / E=1)) = Logit P E=1 = α + β x 1 = α + β (1) (1) - () Logit P E=1 - Logit P E= = (α + β) (α) = β P E=1 P E= Ln - Ln = β 1 - P E=1 1 - P E= Ln P E=1 1 - P E=1 P E= 1 - P E= = β Ln (OR E=1 versus E= ) = β OR E=1 versus E= = e β 13 Interprétation du paramètre β Écriture du modèle pour E, exposition quelconque, incluse seule dans le modèle Chez les sujets exposés à E = e : Logit(P) = Logit (P(M + / E=e )) = Logit P E=e = α + β.e () Chez les sujets exposés à E = e 1 : Logit(P) = Logit (P(M + / E=e 1 )) = Logit P E=e1 = α + β.e 1 (1) (1) - () Logit P E=e1 - Logit P E=e = (α + β.e 1 ) (α + β.e ) = β(e 1 e ) P E=e1 P E=e Ln - Ln = β(e 1 e ) 1 - P E=e1 1 - P E=e P E=e1 1 - P Ln E=e1 = β(e 1 e ) P E=e 1 - P E=e Ln (OR E=e1 versus E=e ) = β(e 1 e ) OR E=e1 versus E=e = eβ(e1 e) 14

Interprétation de β pour une variable quelconque incluse seule dans le modèle e β.(e1 e) = OR brut quantifiant l association entre E et M, comparant des sujets exposés à E = e 1 par rapports aux sujets exposés à E = e Une différence de (e 1 - e ) sur l exposition E entre 2 sujets se traduit par un OR de e β.(e1 e) Interprétation du paramètre β Si (e 1 - e ) = 1 entre 2 sujets, l OR comparant ces deux sujets = e β 15 Interprétation du paramètre β Conséquences Pour une exposition binaire E (en «/1»), l OR des sujets exposés (E=1) par rapport aux sujets non exposés (E=) vaut e β Pour une exposition qualitative ou quantitative, e β = OR pour l augmentation de l exposition de 1 unité 16

Illustration Interprétation du paramètre β Logit(P) = α + β.male l OR est significativement différent de 1 dans l échantillon, le sexe du chaton était significativement associé à un faible poids à la naissance (OR=,46 [,29 ;,73] ; p <,1), et on observait que les mâles avaient eu moins fréquemment un faible poids à la naissance que les femelles 17 Plan I. Présentation mathématique de la régression logistique II. La régression logistique univariée en théorie III. La régression logistique multivariée en théorie IV. Le codage des variables avant introduction dans un modèle de régression logistique 18

Interprétation du paramètre β Ecriture du modèle logistique multivarié ( 2 variables incluses dans le modèle) Soit E et X deux expositions quelconques, de valeurs e, e 1, x, et x 1 Soit P = P(M + / E,X), la probabilité d être malade en fonction des expositions E et X Le modèle de régression logistique multivarié (ici, bivarié) s écrit Logit(P) = α + β.e + γ.x 19 Interprétation du paramètre β Ecriture du modèle avec E et X incluses dans le modèle, pour X=x Chez les sujets exposés à E = e, et à X = x : Logit P(M + / E=e,X=x ) = Logit P e,x = α + β.e + γ.x () Chez les sujets exposés à E = e 1, et à X = x : Logit P(M + / E=e 1,X=x ) = Logit P e1,x = α + β.e 1 + γ.x (1) (1) - () Ln (OR E=e1 versus E=e, X=x ) = β.(e 1 - e ) 2

Interprétation du paramètre β Ecriture du modèle avec E et X incluses dans le modèle, pour X=x 1 Chez les sujets exposés à E = e, et à X = x 1 : Logit P(M + / E=e,X=x 1 ) = Logit P e,x1 = α + β.e + γ.x 1 ( ) Chez les sujets exposés à E = e 1, et à X = x 1 : Logit P(M + / E=e 1,X=x 1 ) = Logit P e1,x1 = α + β.e 1 + γ.x 1 (1 ) (1 ) - ( ) Ln (OR E=e1 versus E=e, X=x1 ) = β.(e 1 - e ) 21 Interprétation du paramètre β Conséquences Lorsque E et X sont incluses dans un même modèle, on fait l hypothèse que l OR quantifiant l association entre E et M est le même quelle que soit la valeur de X e β.(e1 e) est donc bien l OR quantifiant l association entre E et M ajusté sur X, comparant des sujets exposés à e 1 à des sujets exposés à e pour E Si en réalité, cette hypothèse n est pas vraie, cela signifie qu il existe une interaction entre E et X Le modèle contenant E et X seules ne sera pas adapté à la réalité, et le modèle fournira des estimations biaisées Solution : il faudra inclure dans le modèle : E, X, ainsi qu un terme d interaction entre E et X 22

Illustration Test statistique des paramètres Logit(P) = α + β.male + γ.cesarienne l OR cesarienne est significativement différent de 1 indépendamment du sexe du chat, la présence d une césarienne était significativement associée à un faible poids de naissance du chaton (OR=4,2 [2,27 ; 7,44] ; p <,1), et on observait dans l échantillon que les chatons nés par césarienne avaient eu plus fréquemment un faible poids à la naissance que les chatons nés par mise-bas naturelle 23 Plan I. Présentation mathématique de la régression logistique II. La régression logistique univariée en théorie III. La régression logistique multivariée en théorie IV. Le codage des variables avant introduction dans un modèle de régression logistique 24

Rappel Codage des variables qualitatives nominales et interprétation de β Il faut toujours recoder une variable qualitative nominale à k classes en k variables indicatrices Il faut inclure dans le modèle de régression logistique k-1 variables indicatrices parmi les k créées La variable indicatrice absente du modèle sera la variable (classe) de référence (chacune des k-1 classes sera comparée à cette classe de référence) 25 Codage des variables qualitatives nominales et interprétation de β Illustration du recodage avec Epi Info La variable race_4cl est une variable qualitative nominale à 4 classes il faut la recoder en 4 variables indicatrices pour étudier l association entre la race du chaton et son poids à la naissance Variable initiale Variables indicatrices créées 26

Codage des variables qualitatives nominales et interprétation de β Illustration du recodage avec Epi Info Interprétation : 27 Codage des variables qualitatives nominales et interprétation de β Illustration du recodage avec Epi Info Interprétation : 28

Rappel Codage des variables qualitatives ordinales et interprétation de β Il faut toujours vérifier la linéarité de l association avec une variable qualitative ordinale avant de l introduire telle quelle dans le modèle de régression logistique En procédant ainsi : - Recoder E en k variables indicatrices - Inclure dans le modèle k-1 variables indicatrices parmi les k créées (en général, on retire la première variable indicatrice) - Vérifier la linéarité des β associés à chacune des variables indicatrices 29 Codage des variables qualitatives ordinales et interprétation de β Hypothèse de la linéarité de l association avec une variable qualitative ordinale Rappel du cas général e β.(e1 e) = OR E = e1 versus E = e Ln [e β.(e1 e) ] = Ln [OR E = e1 versus E = e ] β.(e 1 e ) = Ln [OR E = e1 versus E = e ] Interprétation numérique de l hypothèse de la linéarité de l association avec la variable e 1 e 1 2 3 Ln [OR E = e1 versus E = e ] β 2β 3β En incluant E telle quelle dans le modèle, on fait l hypothèse que Ln(OR) augmente linéairement avec l augmentation de l écart entre deux valeurs d exposition E 3

Codage des variables qualitatives ordinales et interprétation de β Hypothèse de la linéarité de l association avec une variable qualitative ordinale Interprétation graphique de l hypothèse de la linéarité de l association avec la variable 3β 2β Ln [OR E = e1 versus E = e ] Droite de pente β β x 1 = β β x = 1 2 3 e 1 e 31 Codage des variables qualitatives ordinales et interprétation de β Vérification graphique de l hypothèse de la linéarité de l association Après avoir recodé E en k variables indicatrices, et après avoir «fait tourner» le modèle avec les k-1 variables indicatrices, le logiciel donne les β i de chaque variable Si β i sont «relativement bien» alignés l association avec E est alors linéaire : β i β 4 β 3 β 2 β 1 = var1 var2 var3 var4 var1 = classe de référence n appartient pas au modèle β 1 = Variables indicatrices 32

Rappel Codage des variables quantitatives et interprétation de β Il faut vérifier l hypothèse de la linéarité de l association avec une variable quantitative avant de l inclure telle quelle dans le modèle de régression logistique Démarche - Recoder la variable quantitative en variables qualitative ordinale à k classes (en fonction de seuils qui ont un sens, ou en fonction des quartiles) - Vérifier la linéarité de cette nouvelle variable qualitative ordinale - Si la linéarité n est pas vérifiée, on ne peut pas inclure la variable quantitative telle quelle Laisser les k-1 variables indicatrices dans le modèle, ou recoder la variable initiale en 2 classes - Si la linéarité est vérifiée, on peut inclure la variable quantitative telle quelle 33 Codage des variables quantitatives et interprétation de β Illustration avec Epi Info sur la taille de la portée Vérifions la linéarité de l association entre la taille de la portée et la présence de faible poids à la naissance Choix de recoder la taille de la portée en 4 classes selon les quartiles dans l échantillon : 1-2, 3-4, 5, 6-8 chatons (Soit taille_cl cette variable qualitative ordinale) Création des 4 variables indicatrices issues de taille_cl taille_portee taille_cl taille1 taille2 taille3 taille4 1-2 1 1 3-4 2 1 5 3 1 6-8 4 1 34

Codage des variables quantitatives et interprétation de β Illustration avec Epi Info sur la taille de la portée Programmation sous Epi Info Logit(P) = α + β 2.taille2 + β 3.taille3 + β 4.taille4 (taille1 choisie comme la classe de référence) 35 Codage des variables quantitatives et interprétation de β Illustration avec Epi Info sur la taille de la portée Résultats de la régression logistique Ce sont les coefficients qu il faut regarder pour vérifier la linéarité (avec leur écart-type), et non pas les OR! 36

7 6 5 4 3 Codage des variables quantitatives et interprétation de β (5) Illustration avec Epi Info sur la taille de la portée Résultats de la régression logistique β i [IC 95%] 2 1-1 1 2 3 4 5 Classes de taille de portée 37 Codage des variables quantitatives et interprétation de β (5) Illustration avec Epi Info sur la taille de la portée Résultats de la régression logistique 7 β i [IC 95%] 6 5 4 3 2 1-1 2 4 6 8 Centre des classes de taille de portée (médianes dans chaque classe) 38

Conclusion sur l association entre la taille de la portée et le faible poids à la naissance du chaton Les β i peuvent tout à fait être considérés comme alignés L association entre le faible poids à la naissance et la taille de la portée (en classes) est linéaire La variable taille_portee pourra être incluse telle quelle dans le modèle de régression logistique Codage des variables quantitatives et interprétation de β 39 Codage des variables quantitatives et interprétation de β Illustration avec Epi Info sur le modèle multivarié incluant la taille de la portée Résultats de la régression logistique Indépendamment du sexe du chaton, du type de mise-bas, la taille de la portée était significativement associée à un faible poids à la naissance (OR ajusté =2,9 [2,21 ; 3,79] ; P <,1), et on observait que plus la taille de la portée augmentait, plus le faible poids à la naissance était fréquent L OR ajusté ici traduit la multiplication de la fréquence de faible poids à la naissance pour une augmentation de 1 chat en taille de portée 4