MODELISATION DE DONNÉES QUALITATIVES REGRESSION LOGISTIQUE SIMPLE Perre-Lous Gonzalez
MODELES A REPONSE DICHOTOMIQUE Quelques applcatons: Y est dchotomque: succès ou échec, présence ou absence. Un organsme de crédt dot l accorder un prêt à l un de ses clents? Une entreprse présente t-elle des rsques de fallte à moyen terme ( ans)? Un patent est-l attent d une certane malade? Dot-on déclencher une alerte à atmosphérque? la polluton
LA RÉGRESSION LOGISTISQUE SIMPLE (cas Y bnare) I LE MODÈLE LOGISTIQUE - Les données Y varable à eplquer bnare (E : présence/absence d une malade cardaque) X varable eplcatve quanttatve (E : âge) 3
II. Etude des données Le graphque 4 ne montre pas clarement l estence d une lason entre Y et X.,8 CHD,6,4, 3 4 5 6 7 AGE 4
Par contre s l on utlse la varable âge découpée en classes et la proporton de malades par classe, la lason entre Y et X apparaît plus clarement sous la forme d une courbe en S.,8,6,4, 5 35 45 55 65 Age 5
- Le modèle logstque Objectf Modélser Π ( ) Prob ( Y / X ). Modèle lnéare Π ( ) + Ce modèle convent mal pour deu rasons : Π ( ) sort de [, ] Π ( ) dot tendre vers lorsque ( ) Π ( ) est une courbe en S Π tend vers ou 6
. Modèle logstque Π ( ) + e + e + ( ) ( ) ( ) - ( ) Π Π Π ( ) Π( ) Π Donc lorsque ou 7
Justfcatons concernant le cho de la foncton logstque La foncton logstque est défne par : F() / ( + e - ) 8
Cette foncton est ben adaptée à la modélsaton de probabltés car elle prend ses valeurs entre et selon une courbe en S. Son utlsaton est par eemple ndquée lors de la modélsaton du rsque ndvduel de développer une malade dans les études épdémologques. En effet, en consdérant que la varable représente un ndce résultant de la combnason de pluseurs facteurs de rsque, on peut nterpréter F() comme le rsque d être attent de cette malade. Dans ce contete le rsque est mnmal pour de fables valeurs de. Il augmente pour les valeurs ntermédares de. Il apparaît proche de pour des valeurs plus élevées de. 9
3 - Estmaton des paramètres du modèle logstque Données X Y y Π ( ) Π P( Y X ) y............ y + e + e + n y n
Vrasemblance n y ( ) ( ) Π ( ) ( ) LB ( Cec résulte du fat que : y f( y, ) Y y X, Prob Π ( ) Π( ) pour y pour y )
Log de la vrasemblance ( ) ( ) + ( ) ( ) Log Log Mamum de vrasemblance On obtent en annulant n Log L Log L ( ) ( ) Log L n ( ) ( y Π( ) ) n e y + e n + + ( Π( )) y n e y + e + ( ) L y Π y Log Π +
Résultats 5, 395, 9 Log L 7, 35 Modèle estmé : Π ( ) est mnmum + e + e 5, 395, 9 5, 395+, 9 La probablté d être attent de la malade augmente avec l âge. 3
4 En notant ( ) Π Π, on a : ( ) ( ) V L Log ( ) ( ) ( ) ( ) Π Π Π Π Π Π Π Π n n n n ( ) XVX ( ) ( ) n n n n Π Π Π Π............... 4 - Calcul des écarts-types des estmateurs des paramètres
Résultats Analyss of Mamum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT -5.395.337.935... AGE.9.4.54..7686.7 ( ), 85, 66 V, 66, 5388 s D où ( ), 85, 337 s ( ), 5388, 4 5
5 - Utlsatons des écarts-types 5. Test de nullté (ou de sgnfcaton) d un coeffcent au nveau α j H : j H : j 6
Test de Wald : s ˆ j ( ˆ ) j χ ( ) sous H On rejette H s : ˆ > j W j χ α s ( ˆ ) j Pr > w < [ χ ] ( ) j ( ) j P-value j > s u α () α α α χ ( ) α χ α u α ( ) α u α 7
5. Intervalle de confance de Π( ) Π( ) + e + e + On dédut un ntervalle de confance de de l ntervalle de confance de g ( ) +. ( ) Π I.C. à 95 % de g ( ) +. + ±, σ + ( ) 96 ( ) ( ) avec σ (, ) ( ) + V ( ) 8
Eemple ( ) ans g + 5, 395 +, 9 3, 95 395, e, 454338 Π( ) 3, 95 + e, 454338, 43459 σ ( ) (,, 85, 67 + ), 67, 5788 448, 9
Intervalle de confance à 95 % de ( ) g + [ ] 3, 95 ±, 96, 448 4, 434 ;, 7796 Intervalle de confance à 95 % de Π( ) Prob ( Y X ) Inf ( 95 ) 4434, % e 4 434, +, e Sup ( 95 ), 7796 % e 44 7796, +, e
6 - Autres tests 6. Test du rapport de vrasemblance Modèle Π( ) + e + e Test de l nfluence de X sur Y H H : : + Statstque utlsée Λ Log L ~, L ( ) ( ),
Calcul du Log (vrasemblance) sous H Sous H + : Π e e ( ) + e + + e e Π( ) ~ + e ~ n n où n nombre de ( ) y ~ Log L, y Log y Log ( ( )) n [ ( ) ( )] Π + Π n Log n + n Log n n n où n nombre de ( ) y
Résultat Λ Log ( ) L, L ( ), ( vrasemblance sans la varable) ( vrasemblance avec la varable) ( Log ) Log χ ( ) sous H Eemple Λ 36, 663 7, 353 9, 3 âge très sgnfcatf 3
6. Test du score Vecteur score : u ( ) Log L Log L ( ) ( ) N( ) u( ),I( ) où I ( ) E Log L ( ) 4
Test H H : : On estme sous H ( ) H, Log n, n Statstque utlsée Score U I U ( Σ ( y y) ) ( ) Σ( ) y y ( ) ( ) ˆ ˆ ˆ ( ˆ ) H H H χ ( ) sous H Eemple Score 6, 4 âge très sgnfcatf 5
6
II - ANALYSE DES RÉSIDUS, DES OBSERVATIONS - Analyse des résdus Résdu de Pearson Π + ε Modèle : Y ε Π avec une proba Π et ε Π avec une proba Π ε ( ) ( Π ) Π Π ( Π ) E ε + ( ) ( Π ) Π Π ( Π ) Π ( Π ) V 7
On défnt le résdu de Pearson par : r y Π Π ( Π ) à comparer à Résultat : χ n r χ n s le modèle étudé est eact. 8
Dévance Dévance D Log n ( vrasemblance modèle étudé) ( y ( y ) ( )) Log Π Log Π + Log L somme des carrés résduelle d Résdu-dévance : pour y Log Π ˆ Log Π y ( y ) ( ˆ ) ( ˆ ) Log Π Log Π pour y Résultat : n D d Log L χ s le modèle étudé est eact. ( n ) 9
- Analyse des observatons Lever ( ) H X X X X en régresson multple ( ) / / H V X X VX X V X... où et V en régresson logstque Π ( Π )...... Π ( Π ) n n n On défnt le lever par : ( Π ) ( ) ( ) h Π, X VX 3
Résultats : n h h n Mesure l élognement d une observaton par rapport au autres dans, 9, l espace des varables eplcatves lorsque. h h 4 n On compare à. Π 3
Influence de chaque observaton sur le calcul de On note ( ) estmaton de sans utlser l'observaton ( ) ( ) ( ) C X VX ( ) rh ( h ) Influence de chaque observaton sur le χ de Pearson r h Δ χ 3
Influence de chaque observaton sur la dévance rh Δ D d + h Influence de chaque observaton sur le calcul de j DFBETA j ( ) j j σ ( ) j ( ) 33
III - REMARQUES Le cas où la varable ndépendante est à pluseurs modaltés est traté dans le cadre de la régresson logstque multple. En effet, on remplace la colonne de la varable qualtatve codée par le tableau des ndcatrces de ses modaltés. Pour évter les problèmes d ndétermnaton, on supprme une des ndcatrces des calculs (souvent on supprme celle qu correspond à la stuaton la plus courante : stuaton de référence). Les résultats sont ndépendants du cho effectué. Les aspects générau concernant la qualté d un modèle, l nterprétaton des coeffcents... seront tratés après la présentaton de la régresson logstque multple 34
3. Comparason des modèles utlsant les fonctons de len logt et probt. L estmaton du paramètre obtenue avec la foncton de len logt est envron π/ 3 fos plus grande que celle obtenue avec la foncton de len probt. Les estmatons standardsées sont donc assez proches l une de l autre. Les résultats des tests de valdté des modèles sont équvalents. Enfn la comparason des probabltés estmées montre que les prévsons sont relatvement smlares. 35
PROBIT Model Fttng Informaton and Testng Global Null Hypothess BETA Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC 38.663.499. SC 4.68 6.79. - LOG L 36.663 7.499 9.64 wth DF (p.) Score.. 6.399 wth DF (p.) LOGIT Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC 38.663.353. SC 4.68 6.563. - LOG L 36.663 7.353 9.3 wth DF (p.) Score.. 6.399 wth DF (p.) 36
PROBIT Analyss of Mamum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Varable DF Estmate Error Ch-Square Ch-Square Estmate INTERCPT -3.457.646 5.3657.. AGE.658.33 4.395..7733 LOGIT Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT -5.395.337.935... AGE.9.4.54..7686.7 37
EXEMPLES DE PREVISIONS PROBIT OBS ID AGRP AGE CHD _LEVEL_ PCALCULE INF95 SUP95.3365.534.3436 39 39 4 4.3378.5.493 9 9 8 6.78888.637.89745 8 69.9846.7658.985 LOGIT OBS ID AGRP AGE CHD _LEVEL_ PCALCULE INF95 SUP95.4348.7.447 39 39 4 4.947.95.4873 9 9 8 6.79344.6345.89556 8 69.946.7687.974 38