La Régression Logistique

Documents pareils
«Cours Statistique et logiciel R»

Analyse de la variance Comparaison de plusieurs moyennes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Principe d un test statistique

Chapitre 3. Les distributions à deux variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Données longitudinales et modèles de survie

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

STATISTIQUES. UE Modélisation pour la biologie

M2 IAD UE MODE Notes de cours (3)

Un exemple de régression logistique sous

Introduction aux Statistiques et à l utilisation du logiciel R

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Quantification Scalaire et Prédictive

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

IBM SPSS Regression 21

NON-LINEARITE ET RESEAUX NEURONAUX

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exemples d application

PROGRAMME (Susceptible de modifications)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Fonctions de deux variables. Mai 2011

Coup de Projecteur sur les Réseaux de Neurones

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Docteur José LABARERE

SAS ENTERPRISE MINER POUR L'ACTUAIRE

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Une étude de différentes analyses réalisées par le BIT

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

TRANSPORT ET LOGISTIQUE :

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Introduction à l étude des Corps Finis

Logiciel XLSTAT version rue Damrémont PARIS

données en connaissance et en actions?

Relation entre deux variables : estimation de la corrélation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction à l approche bootstrap

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Arbres binaires de décision

Chapitre 2/ La fonction de consommation et la fonction d épargne

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

Cours de méthodes de scoring

Statistiques Descriptives à une dimension

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Cours Fonctions de deux variables

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Modèle GARCH Application à la prévision de la volatilité

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

Probabilités III Introduction à l évaluation d options

Exemple PLS avec SAS

Estimation et tests statistiques, TD 5. Solutions

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Annexe commune aux séries ES, L et S : boîtes et quantiles

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Intérêt du découpage en sous-bandes pour l analyse spectrale

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

CCP PSI Mathématiques 1 : un corrigé

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Théorie et codage de l information

Programmation linéaire

Format de l avis d efficience

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

23. Interprétation clinique des mesures de l effet traitement

I- Définitions des signaux.

CAPTEURS - CHAINES DE MESURES

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

DCG 6. Finance d entreprise. L essentiel en fiches

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Correction du bac blanc CFE Mercatique

La classification automatique de données quantitatives

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Régression logistique. Benoit Crabbé

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Le risque Idiosyncrasique

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Cours d initiation à la programmation en C++ Johann Cuenin

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

RETOUR D EXPÉRIENCE SUR LA CANICULE DE JUILLET 2006

Tableau récapitulatif de l analyse fréquentielle

Transcription:

La Régression Logistique Pr Roch Giorgi roch.giorgi@ap-hm.fr Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée

Introduction (1) Modèle multivarié Exprimer une variable Y en fonction de plusieurs variables X i Y ( X +...+X +...+X ) = f i = 1,..., k 1 i k Y : caractérise la maladie (ou sa distribution dans la population) Variable quantitative ou qualitative X i : caractérisent les facteurs de risque de la maladie Variables quantitatives et/ou qualitatives

Introduction (2) Objectifs Prédire la valeur de Y en fonction des X i Quantifier l association entre Y et une exposition à un facteur caractérisé par X i en tenant compte de Plusieurs facteurs de confusion Variables quantitatives = relation linéaire dose-effet Y = f ( X +...+ +.. + X ) 1 i X. p

Régression : Exemple (1) Modélisation de la proportion de décès en fonction de la dose d un produit toxique Dose X j 0 10 30 50 70 90 100 n j 30 30 30 30 30 1 29 d j 0 3 3 13 25 1 28 p j 0 0,10 0,10 0,43 0,83 1,00 0,97 Utilisation de la régression linéaire p x pourrait être < 0 ou > 1 px = a + bx Observations non indépendantes entres elles : problèmes pour l estimation de la variance Équivalence des fréquences observées aux différentes doses alors que les effectifs peuvent être différents

Régression : Exemple (2) Modélisation de la proportion de décès en fonction de la dose d un produit toxique Dose X j 0 10 30 50 70 90 100 n j 30 30 30 30 30 1 29 d j 0 3 3 13 25 1 28 p j 0 0,10 0,10 0,43 0,83 1,00 0,97 Modélisation d une fonction des probabilités ( p) = p ( p) logit Ln 1 Pour tout p sur [0, 1] on aura une réponse sur ]-, + [ La proportion est directement modélisée, donc la variance Le poids de chaque fréquence observée dépend du nombre total de sujets ayant reçu la dose correspondante Modèle de Régression Logistique

Régression : Exemple (3) Si la fonction Logit est une fonction linéaire de la dose, on a ( ) ( ) Logit p = Ln p 1 p = α + βx donc p p x ( 1 ) = exp( α + β ) et p ( α + βx) ( α βx) ( α βx) exp 1 = = 1+ exp + 1+ exp + { }

Régression : Exemple (4) 1 0,8 Probabilité 0,6 0,4 0,2 0 x Représentation de : p 1 = 1 + exp 2 + 4 { ( x) }

Régression Logistique Variable à expliquer Y : qualitative binaire Présence / Absence d une maladie, d un signe, Modélise la probabilité que Y = 1 Variables explicatives X i : qualitative à n ( 2) classes, quantitative Age < 70 / Age 70 Age < 50 / 50 Age < 60 / 60 Age < 70 / Age 70 Age 40, 41, 42,

1 Variable X Binaire (1) { - Y= 0=M + { 1=M X= P( M ) 0=Non Exposé 1=Exposé = 1 + exp + X + 1 { ( α β )} P(M + ) P(M - ) Exposé : X=1 P 1 1 = 1 + exp α + β { ( )} 1-P 1 { ( α + β) } ( α β) = exp 1 + exp + { } Non Exposé : X=0 P 0 1 = 1 + exp α { } 1-P 0 { ( α )} ( α ) exp = 1 + exp { } OR P /1 P P /1 P 1 1 = = 0 0 exp ( β )

1 Variable X Binaire (2) Remarque Logit P ( P ) =Ln 1-P ( + ) ( ) P=P M X=x Logit P = α + βx Linéarité en β ( ) Ln OR P /1 P 1 1 = Ln P0 /1 P0 =Ln /1 Ln /1 ( P1 P1) ( P0 P0) ( α β) α = + Ln ( OR ) = β

Plusieurs Variables X Binaires (1) ( + ) 1 k P M X,..., X ( ) Logit P = α β i X i k + i=1 1 = k 1+ exp α + βix i= 1 i Pour une exposition E donnée ( ) β E Logit P = α X β i X i ( β ) k + + i=2 exp =OR lié à l exposition E ajusté sur les X i

Interprétation des Coefficients (1) ( ) Logit P = α + βx X ( ) X=x Logit P = α + βx 0 0 0 ( ) X=x Logit P = α + βx 1 1 1 OR = Odds Ratio entre les catégories 0 et 1 ( ) ( ) ( ) = β ( ) Ln OR =Logit P Logit P x x ( ) { β } OR=exp x x 1 0 Écart entre les 2 catégories 1 0 1 0

Interprétation des Coefficients (2) Variable X qualitative binaire X X=0 : non exposé X=1 : exposé ( ) { β } OR=exp x x 1 0 OR=exp ( β ) Exemple Y : cancer de la vessie X = 0 : non fumeurs X = 1 : fumeurs OR quantifie l excès de risque de cancer de la vessie chez les fumeurs par rapport aux non fumeurs

Variable X Qualitative à plus de 2 Classes ( ) α + β1 1+ β2 2 + β3 3 Logit P = X X X (1) X=0 Non fumeur X 1 X 2 X 3 0 0 0 X=1 Tabac brun 1 0 0 X=2 Tabac mixte 0 1 0 X=3 Tabac blond 0 0 1 OR =exp ( x x ) { β } i 0 i i 0 OR 1 ( ) Logit ( P 0 ) =α Logit ( P ) = ( ) ( ) 0 =exp β1 OR 2 0 =exp( β2 ) OR =exp β 3 0 α + β X 1 1 1 Logit P = α + β X 2 2 2 Logit P = α + β X 3 3 3 ( ) 3

Variable X Qualitative à plus de 2 Classes Si X est décomposé en 3 variables, elles doivent être toutes les 3 présentes (ou absentes) en même temps (2) X 1 X 2 X 3 X=0 Non fumeur 0 0 0 X=1 Tabac brun 1 0 0 X=2 Tabac mixte 0 1 0 X=3 Tabac blond 0 0 1 Logit ( P ) =α Logit ( P) + ' Logit ( P) + ' =α β X 1 1 =α β X 2 2 OR 1 0, 3 OR ( ' ) 1 =exp β 2 0, 3 ( ' ) 2 =exp β Pas de sens

Notion d Interaction (1) Type de tabac X 1 = 0 : Tabac blond ou mixte X 1 = 1 : Tabac brun Inhalation X 2 = 0 : Inhalent pas X 2 = 1 : Inhalent Odds ratio associés au tabac Si X 2 = 0 : OR(X 1,1 0 ) = 1,07 Si X 2 = 1 : OR(X 1,1 0 ) = 2,43 La relation entre le type de tabac et le cancer de la vessie n est pas la même selon qu il y ait ou pas inhalation Il y a une interaction entre le type de tabac et l inhalation

Notion d Interaction (2) Étude de la relation entre une maladie et l exposition à un facteur X 1 tout en tenant compte de l exposition à un X 2 ( ) α + β1 1+ β2 2 Logit P = X X avec X 1 et X 2 en 0/1 ( ) ( ) 1 ( ) si X = 1 : Ln OR = α + β + β α + β = β 2 X 1 2 2 1 si X = 0 : Ln OR = α + β α = β 2 X 1 1 1 L OR quantifiant la relation entre X 1 et M est le même quelle que soit la valeur de X 2 il n y a pas d interaction

Modèle avec Interaction Prise en compte d une interaction entre X 1 et X 2 ( ) α + β1 1+ β2 2 + β3 1 2 Logit P = X X X X avec X 1 et X 2 en 0/1 ( ) ( ) si X = 1 : Ln OR = α + β + β + β α + β 2 X 1 2 3 2 1 ( ) Ln OR =β + β X 1 3 1 ( ) si X = 0 : Ln OR = α + β α = β 2 X 1 1 1 Il y aura interaction entre X 1 et X 2 si β 3 0

Modèle avec Interaction : Exemple Type de tabac X 1 = 0 : Tabac blond ou mixte X 1 = 1 : Tabac brun ( ˆ ) Inhalation X 2 = 0 : Inhalent pas X 2 = 1 : Inhalent Logit P = 0,39 + 0, 066.TAB + 0,19.INHA + 0,82.TAB INHA avec 0,82 significativement 0 1,5 1 1,08 Ln(OR) 0,5 0,19 0 0 0,06-0,5 Blond-Mixte Brun Inhalent pas Inhalent

Régression Logistique avec R Fonction «glm» Variable à expliquer (0/1) Variable explicative (quantitative) Variable explicative (qualitative 3 classes) glm(hypo ~ poidsmer + scolarite, family=binomial, data=hypo2) Type de famille statistique Nom du fichier de données

Estimation des Paramètres (et variance) Estimation ponctuelle Attribuer une valeur au paramètre étudié à partir des observations faites sur l échantillon Estimateur Formule (procédure mathématique) utilisée pour obtenir l estimation D un échantillon à un autre L estimateur est le même L estimation varie selon les observations Repose sur la méthode du maximum de vraisemblance

Vraisemblance d un Échantillon Probabilité d obtenir un échantillon tel que celui qui est observé Exemple Fréquence d une maladie dans une population = 10% Quelle est P 1 =P(5 malades, n=20)? P(M)=0,10 P(nonM)=0,90 P(5 M et 15 nonm)=0,10 5 x0,90 15 Plusieurs configuration de 5 M parmi 20 20! 5 15 P1 = 0,10 0,90 = 0, 03 5!15! Si la fréquence de la maladie dans la population = 25% 20! 5 15 P2 = 0, 25 0,75 = 0, 20 5!15! Fonction de vraisemblance

Fonction de Vraisemblance 0,3 n=20 Malades=5 Vraisemblance 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Prévalence

Maximum de Vraisemblance (1) ( x) P M X= + 1 Échantillon de taille N = 1 + exp + Vraisemblance observation (x i, y i ), y i =1 M Vraisemblance de l observation (x i, y i ) = probabilité de faire cette observation Contribution à la vraisemblance du sujet i Le sujet est malade i { ( α βx) } + ( xi ) p =P M X= 1 = 1 + exp + { ( α βxi )} Le sujet n est pas malade exp{ ( x )} ( - ) i q i =P M X= x = α + β i 1 + exp{ ( α + βxi )}

Maximum de Vraisemblance (2) Vraisemblance de l ensemble des observations (probabilité d observer l ensemble de l échantillon) V = N n exp { ( α + βxi )} { ( α βxi )} 1+ exp + Maximum de vraisemblance non malades ensemble de l échantillon Choisir comme estimateur de α et β les valeurs et qui rendent V maximum c.à.d, parmi tous les modèles possibles on choisi celui qui rend l observation de l échantillon la plus probable Estimateur asymptotiquement sans biais, distribution asymptotiquement normale ˆα ˆβ

Maximum de Vraisemblance (3) L( β ) β β

Estimation : Exemple avec R Fichier de données «hypotrophie» Variable : «scolarite» > fit2 <- glm(hypo ~ scolarite, family=binomial, data=hypo2) > summary(fit2) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -0.3102 0.3970-0.781 0.4346 scolarite12+15-0.1694 0.4689-0.361 0.7179 scolarite16+ -0.8448 0.4634-1.823 0.0683 α β 1 (OR 12+15/<12 = exp(-0.1694) = 0.84) β 2 (OR 16+/<12 = exp(-0.8448) = 0.43)

Tests des Paramètres (1) Hypothèse testée H 0 : β= β 0 (le plus souvent, β=0) H 0 rejetée si ˆβ est «trop» éloigné de β 0 Test de Wald ˆβ Test du rapport de vraisemblance Écart entre et β 0 (rapporté à la variance) est trop grand Écart entre V max et V 0 est trop grand : Test du score La tangente à la courbe en est trop éloignée de l horizontale

Tests des Paramètres (2) L( β ) L( β ) L( β 0 ) Wald ou maximum de vraisemblance Rapport de vraisemblance Score β 0 β β

Tests des Paramètres (3) Test de Wald z ˆ β 2 2 2 = ~ χ 2 ddl=nd de variables S ˆ β Remarque : quand il y a une seule variable, on a ˆ β z = ~ N 0, 1 S ˆ β ( ) pour α=5%, z α/2 =1,96

Tests des Paramètres (4) Test du rapport de vraisemblance Modèle 1 : Logit P = α + β X vraisemblance V 1 Modèle 2 : Logit P = α + β X + β X vraisemblance V 2 V 1 V 2, car modèle 2 plus complet ˆβ 2 ( ) 1 1 ( ) ' ' ' 1 1 2 2 significativement différent de 0 si V 1 significativement inférieur à V 2 2 ( ) ( ) 2 Ln V2 Ln V1 ~ χ à 1 ddl Nombre de degrés de liberté fonction du nombre de paramètres à tester

Test des Paramètres : Exemple avec R Fichier de données «hypotrophie» Variables : «scolarite» et «poidsmer» Coefficients: Degré de signification pour chacun des paramètres estimés Estimate Std. Error z value Pr(> z ) (Intercept) 1.90809 0.99601 1.916 0.0554. poidsmer -0.03389 0.01415-2.395 0.0166 * scolarite12+15-0.56259 0.50706-1.110 0.2672 scolarite16+ -1.07963 0.48797-2.213 0.0269 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Test du Rapport de Vraisemblance Ne s applique qu à deux modèles emboîtés Un modèle est emboîté dans un autre modèle quand il est un sous-ensemble de ce dernier Modèle 1 : Logit P = α + β X + β X Modèle 2 : Modèle 3 : ( ) 1 1 2 2 ( ) ' ' ' ' + 1 1 + 2 2 + 3 '' '' '' '' ( ) =α + β X1 + β2x2 + β 4 Logit P =α β X β X β X 3 Logit P S étend au test de plusieurs coefficients à la fois Modèle 1 : V 1 Modèle 2 : 1 2 2 i V 2 X 1 4 ( ) α + β1 1 + β2 2 k ' ' ' ' ( ) X Logit P = X X Logit P = α β β β X + X 1 + + i= 1 2 ( ) ( ) 2 Ln V2 Ln V1 ~ χ à k ddl i x

Remarque : la Déviance (1) Déviance = variation de la log-vraisemblance Deviance = 2 Ln VM ( ) Ln( V ) m M = grand modèle m = petit modèle Modèle parfait : Probabilité que l événement étudié soit observé vaut 1 quand il est observé et 0 sinon

Remarque : la Déviance (2) Déviance résiduelle du modèle nul (Null deviance dans R) ( ) Ln( V ) Deviance Nul = 2 Ln VSaturé Nul Déviance résiduelle du modèle x (Residual deviance dans R) ( ) Ln( V ) Deviance = 2 Ln V x Saturé x

Remarque : la Déviance (3) Effet du facteur Deviance Nul Deviance x = 2 Ln Vx ( ) Ln( V ) suit une loi du χ 2 si le modèle nul est vrai à 1 ddl Nul Comparaison de 2 modèles emboîtés Deviance m Deviance M = 2 Ln VM ( ) Ln( V ) m suit une loi du χ 2 si le modèle nul est vrai à M - m ddl

Test de Modèles Emboîtés : Exemple avec R Fichier de données «hypotrophie» Variables : «scolarite» et «poidsmer» Teste : effet de «scolarite» > fit1<-glm(hypo~poidsmer, family=binomial, data=hypo2) > fit2<-glm(hypo~poidsmer+scolarite, family=binomial, data=hypo2) > deviance(fit1) [1] 230.6330 > deviance(fit2) [1] 225.0269 > dev <- deviance(fit1) - deviance(fit2) > 1 - pchisq(dev, 2) [1] 0.06062354 Modèle fit1 emboîté dans le modèle fit2 Différence des déviances qui suit une loi du χ 2 si le modèle nul est vrai à 3-1 ddl

Codage des Variables Variable ordonnée X 1 X 2 X=0 0 0 X=1 1 0 X=2 0 1 Modèle 1 : Logit P = ( ) α + β1x1 Logit P = α + β X + β X ' ' ' 1 2 Modèle 2 : ( ) 1 2 Le modèle 1 est un cas particulier du modèle 2 pour ( ) Logit P = α + β X + β X ' ' ' 1 2 1 2 = α + β X + 2β X ' ' ' 1 2 1 1 1 ( ) = α + β X + 2X = α + β X ' ' ' ' 1 2 2 ' ' β = β = β 2 1

Codage des Variables Quantitatives (1) X : variable quantitative Modèle 1 : ( ) Logit P = α + βx Impose une linéarité entre Logit(P) et X Tester si cette hypothèse est réaliste

Codage des Variables Quantitatives (2) Méthode 1 Modèle 1 : ( ) Logit P = α + βx ( ) 2 3 Modèle 2 : Logit P = α1+ β1x + β2x + β3x +... ou Logit ( P ) = α1+ β1x + β2lnx +... ou Comparaison des modèles 1 et 2 par le rapport de leurs vraisemblances Test de β 2 = β 3 = = 0 Si non nuls ce n est pas linéaire, il faut donc les inclure

Codage des Variables Quantitatives (3) Méthode 2 Modèle 1 : ( ) Logit P = α + βx Transformer X en (k-1) variables qualitative X binaires Modèle 2 : ( ) Logit P = α k 1 + i= 1 β X Le Modèle 2 peut donner des idées des regroupements en classe à réaliser i ' i

Test d Adéquation du Modèle Adéquation : capacité à bien représenter les données Soit les variables Y : malade / non malade, X 1, X 2, X 3, Pour le sujet i Observation : y i = 0 ou y i = 1 + Modèle logistique : yˆ = P M X,..., X = ( 1 ) i k k 1 1+ exp α + i= 1 β X i i Comparer ce qui est prédit par le modèle à ce qui est observé sur l échantillon ~ χ 2 de comparaison d une distribution observée à une distribution théorique Test de Hosmer-Lemeshow

Choix du Modèle (1) Choix des variables Choix du codage Choix des interactions Imposées par les connaissances (variables «forcées») Procédure de sélection basée sur des critères statistiques Pas à pas ascendante Pas à pas descendante

Choix du Modèle (2) Procédure pas à pas ascendante Débuter par le modèle vide, ou par le modèle ne contenant que les variables non soumises à un test Sélectionner la variable X k ne faisant pas partie du modèle la plus liée statistiquement avec Y Continuer à partir du nouveau modèle en sélectionnant la variable X p ne faisant pas partie du nouveau modèle la plus liée statistiquement avec Y Arrêt lorsque aucune variable ne peux entrer dans le nouveau modèle Critères inclusion Rapport de vraisemblance Test de Wald Ajout si modification significative au seuil 5%, ou autre

Choix du Modèle (3) Procédure pas à pas descendante Débuter par le modèle contenant toutes les variables, ainsi que les éventuelles interactions Éliminer la variable X k faisant partie du modèle la moins liée statistiquement avec Y Continuer à partir du nouveau modèle en éliminant la variable X p faisant partie du nouveau modèle la moins liée statistiquement avec Y Arrêt lorsque aucune variable ne peux sortir du nouveau modèle Critères d exclusion Rapport de vraisemblance Test de Wald Élimination si modification non significative au seuil 5%, ou autre

Principales Étapes de l Analyse Contrôle de la qualité des informations recueillies Avec contrôle de la cohérence des observations par rapport à la question posée, au protocole et aux connaissances sur la question posée Analyses statistiques Étude des liens bruts entre les facteurs potentiellement explicatifs et le facteur à expliquer Étude des liens ajustés entre un facteur potentiellement explicatif et le facteur à expliquer Analyses multivariées plus détaillées Interprétation des résultats

Sources Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Stengel B, Clavel J. Épidémiologie : Principes et méthodes quantitatives. INSERM, Paris. Whitehead J. An Introduction to Logistic Regression http://www.appstate.edu/~whiteheadjc/service/logit/index.htm