Modèle linéaire pour prédire la durée de séjour à l hôpital : 2 approches pour la Sélection des variables avec SAS. Présenté par : Mamadou Dakouo, Pharm.D, M.PH Date: 1 Juin 2016 Evènement : MONSUG Lieu : Hyatt Regency Montréal Contact:
Transplantation En 2013 dans la zone Eurotransplant, 1515 greffes hépatiques réalisées et 2111 patients étaient sur liste d attente soit près 58% de demande non satisfaite (1). En 2011 en Belgique, 262 greffes hépatiques réalisées et 172 patients sur liste d attente. Outre la pénurie de greffons, des Coûts énormes liés entre autre la durée d hospitalisation Nécessité efficiente dans les greffes hépatiques
Étude Données collectées sur des patients adultes ayant eu une transplantation hépatique dans une clinique universitaire du 01/01/2006 au 31/12/2010. Au total, 160 patients adultes ayant reçu une greffe primaires et ont été inclus dans l analyse.
Préliminaires Data Managem ent Driven Data Analyse Bivariée Analyse Univariée
Dictionnaire des Variables VARIABLES DESCRIPTION NBHSP_JRS Nombre de jours total d hospitalisation AGE Age en année des patients NBICU_JRS Nombre de jours d hospitalisation aux soins intensifs MELD Score de gravité de la maladie avant l intervention ISCHT_MIN Temps d ischemie total du greffon DINDO Score de complication après l intervention jusqu à la fin du premier séjour (I,II,III,IV,V) SEXE Sexe du patient MELD = 3.78*ln (bilirubinémie (mg/dl)) +11.2*ln(INR) +9.57*ln(créatinine (mg/dl)) +6.43 Kamath P, wiesner R, Malinchoc M. A model to predict survival in patients with end-stage liver disease. Hepatology, vol.33, n 2, 2001, p.464-474
Aperçu sur les données ID AGE SEXE NBICU _JRS NBHOSP _JRS MELD ISCHT_MIN Dindo1 Dindo2 Dindo3 Dindo4 Dindo5 1 62 1 6 21 23 1134 0 0 0 1-1 2 56 0 2 12 6 584 1 0 0 0-1 3 41 1 57 89 25 582 0 0 0 1-1 proc univariate ; proc means ; proc summary; Variable N Mean SD Sum Min Max NBHOSP_JRS 160 23.12 15.43 3699 9 111 MELD 160 15.70 9.15 2512 5 40 NBICU_JRS 160 6.92 12.21 1107 1 111 ISCHT_MIN 160 620.03 216.41 99205 77 1292 AGE 160 52.96 11.82 8474 18 71
NBHOSP_JRS
Meld
Modèle de Régression Linéaire Multiple #1. Analyse de la Multicorrelation #2. Modèle complet #3. Modèle complet après transformation #4.1 Sélection des variables/ Approche1 #4.2 Sélection des variables/ Approche2 #5. Modèle retenu #6. Observations aberrantes #7. Observations influentes
Modèle de Régression Linéaire Multiple Modèle statistique où l on cherche à expliquer Y (continue)qui est observée et connue par plusieurs autres variables X qui sont aussi observées et connues. Y= variable dépendante, réponse, endogène ou encore à expliquer. X s = variables indépendantes, exogènes ou encore explicatives.
Analyse de la Multicorrélation En général, une forte corrélation entre les variables explicatives peut avoir trois conséquences. #1. Coefficients estimés dépendent du modèle choisi. #2. Variances des coefficient estimés sont grandes quand il y a une forte corrélation entre variables X. #3. Si X1 et X2 fortement corrélés et si X2 est dans le modèle, l effet marginal de X1 pour réduire le SSE est relativement petit.
Détecter la Multicollinéarité Méthodes informelles #1- Coefficients de régression changent beaucoup avec ajoute ou suppression de X #2- Coefficients estimés ont un signe contraire à ce qu on attend #3- Coefficients de corrélation élévés entre les X #4- Larges IC des coefficients β peut être lié par multicollinéarité. Méthode Formelle Le facteur d inflation de la variance mesure l inflation des variances des coefficients estimés par rapport à la situation sans multicollinéarité. VIF =1/1 R 2
Coefficients de corrélation Pearson Correlation Coefficients, N = 160, Prob > r under H0: Rho=0 NBHOSP_JRS Nombre de jours total d'hospitalisation MELD Score créatitine & l'inr NBICU_JRS Nombre de jours d'hospitalisation aux soins intensifs ISCHT_MIN Temps d ischemie total du greffon AGE Age du patient NBHOSP_JRS MELD NBICU_JRS ISCHT_MIN AGE 1.00000 0.47108 0.80370-0.09636 0.07773 <.0001 <.0001 0.2254 0.3286 0.47108 <.0001 0.80370 <.0001-0.09636 0.2254 0.07773 0.3286 1.00000 0.32779 <.0001 0.32779 <.0001 0.01596 0.8412-0.16852 0.0332 0.01596 0.8412 1.00000-0.04077 0.6087-0.04077 0.6087 0.13700 0.0841-0.16852 0.0332 0.13700 0.0841 1.00000 0.02841 0.7214 0.02841 0.7214 1.00000
R-Square= 0.7622 Adj R-Sq= 0.7479 Variable Label DF Parameter Estimate Standard Error t Value Pr > t Squared Partial Corr Type II Variance Inflation Intercept Intercept 1 1.94062 5.21475 0.37 0.7103. 0 MELD Score créatitine & l'inr 1 0.33822 0.08077 4.19 <.0001 0.10466 1.44523 NBICU_JRS Nombre de jours d'hospitalisation aux soins 1 0.88210 0.05765 15.30 <.0001 0.60948 1.31182 intensifs ISCHT_MIN Temps d ischemie total du greffon 1-0.00324 0.00290-1.12 0.2663 0.00823 1.04479 AGE Age du patient 1 0.03672 0.05486 0.67 0.5043 0.00298 1.11365 Dindo1 Score complication à 1 mois 1 8.19963 3.79716 2.16 0.0324 0.03015 8.59172 Dindo2 Score complication à 3 mois 1 10.27064 3.81081 2.70 0.0078 0.04619 7.00876 Dindo3 Score complication à 6 mois 1 16.83765 3.74463 4.50 <.0001 0.11878 6.51635 Dindo4 Score complication à 9 mois 1 13.04077 3.80008 3.43 0.0008 0.07280 5.39840 sexe Sexe 1-2.10399 1.32918-1.58 0.1155 0.01643 1.07115
Vérifier les hypothèses de régression linéaire
Linéarité de la fonction de régression
Residual Normal Cumulative Distribution Variance constante des erreurs Normalité des erreurs Log du Nombre de jours d hospitalisation aux soins intensifs Log du Nombre de jours d hospitalisation aux soins intensifs NBHOSP_JRS = 1.9406 +0.3382 MELD +0.8821 NBICU_JRS -0.0032 ISCHT_MIN +0.0367 AGE +8.1996 Dindo1 +10.271 Dindo2 +16.838 Dindo3 +13.041 Dindo4-2.104 sexe 50 N 160 Rsq 0.7622 40 AdjRsq 0.7479 RMSE 7.7483 30 NBHOSP_JRS = 1.9406 +0.3382 MELD +0.8821 NBICU_JRS -0.0032 ISCHT_MIN +0.0367 AGE +8.1996 Dindo1 +10.271 Dindo2 +16.838 Dindo3 +13.041 Dindo4-2.104 sexe 1.0 N 160 Rsq 0.7622 AdjRsq 0.7479 0.8 RMSE 7.7483 20 0.6 10 0.4 0 0.2-10 -20 0.0 0 10 20 30 40 50 60 70 80 90 100 110 120 Predicted Value 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Cumulative Distribution of Residual
R-Square= 0.6735 Adj R-Sq= 0.6539 Variable Label DF Parameter Estimate Standard Error t Value Pr > t Squared Partial Corr Type II Variance Inflation Intercept Intercept 1 2.01898 0.47926 4.21 <.0001. 0 Meld_Log Log du Score Meld 1 0.11309 0.05316 2.13 0.0350 0.02929 1.58391 Nbicu_Log Log du Nombre de jours d'hospitalisation aux soins 1 0.35649 0.03584 9.95 <.0001 0.39745 1.73842 intensifs ISCHT_Log Log du Temps d ischemie total du greffon 1-0.05126 0.04734-1.08 0.2806 0.00776 1.06199 Age_Log Logarithme de l'age du patient 1 0.03227 0.08684 0.37 0.7107 0.00091993 1.10526 Dindo1 Score complication à 1 mois 1 0.30587 0.14497 2.11 0.0365 0.02882 8.85208 Dindo2 Score complication à 3 mois 1 0.42714 0.14495 2.95 0.0037 0.05473 7.16730 Dindo3 Score complication à 6 mois 1 0.62967 0.14127 4.46 <.0001 0.11695 6.55603 Dindo4 Score complication à 9 mois 1 0.52928 0.14259 3.71 0.0003 0.08413 5.37236 sexe Sexe 1-0.08109 0.04977-1.63 0.1054 0.01739 1.06176
Approche 1.1 C(p) Sélection des variables Number in Model C(p) R-Square Variables in Model 7 7.2556 0.6707 Meld_Log Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 8 8.1381 0.6732 Meld_Log Nbicu_Log ISCHT_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 6 8.2135 0.6643 Meld_Log Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 7 8.6674 0.6676 Meld_Log Nbicu_Log ISCHT_Log Dindo1 Dindo2 Dindo3 Dindo4 8 9.1724 0.6709 Meld_Log Nbicu_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 6 9.2336 0.6621 Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 6 9.3709 0.6618 Meld_Log Nbicu_Log Dindo2 Dindo3 Dindo4 sexe 9 10.0000 0.6735 Meld_Log Nbicu_Log ISCHT_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 5 10.0009 0.6560 Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 5 10.1715 0.6557 Nbicu_Log Dindo2 Dindo3 Dindo4 sexe
Sélection des variables Approche 1.2 R 2 ajuste Number in Model Adjusted R-Square R-Square Variables in Model 8 0.6558 0.6732 Meld_Log Nbicu_Log ISCHT_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 7 0.6556 0.6707 Meld_Log Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 9 0.6539 0.6735 Meld_Log Nbicu_Log ISCHT_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 8 0.6535 0.6709 Meld_Log Nbicu_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 7 0.6523 0.6676 Meld_Log Nbicu_Log ISCHT_Log Dindo1 Dindo2 Dindo3 Dindo4 6 0.6511 0.6643 Meld_Log Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 8 0.6501 0.6677 Meld_Log Nbicu_Log ISCHT_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 7 0.6488 0.6643 Meld_Log Nbicu_Log Age_Log Dindo1 Dindo2 Dindo3 Dindo4 6 0.6488 0.6621 Nbicu_Log Dindo1 Dindo2 Dindo3 Dindo4 sexe 6 0.6485 0.6618 Meld_Log Nbicu_Log Dindo2 Dindo3 Dindo4 sexe
Sélection des variables Approche 2 Stepwise Summary of Stepwise Selection Step Variable Entered Variable Removed Label 1 Nbicu_Log Log du Nombre de jours d'hospitalisation aux soins intensifs Number Partial Model Vars In R-Square R-Square C(p) F Value Pr > F 1 0.5651 0.5651 43.7854 205.28 <.0001 2 Dindo3 Score complication à 6 mois 2 0.0437 0.6088 25.7168 17.53 <.0001 3 Dindo4 Score complication à 9 mois 3 0.0260 0.6348 15.7513 11.13 0.0011 4 Dindo2 Score complication à 3 mois 4 0.0140 0.6489 11.2974 6.20 0.0138 5 Dindo1 Score complication à 1 mois 5 0.0072 0.6560 10.0009 3.21 0.0750 6 Dindo1 Score complication à 1 mois 4 0.0072 0.6489 11.2974 3.21 0.0750
Modèle retenu R-Square= 0.6707 Adj R-Sq= 0.6556 Variable Label DF Parameter Estimate Standard Error t Value Pr > t Squared Partial Corr Type II Variance Inflation Intercept Intercept 1 1.85649 0.20247 9.17 <.0001. 0 Meld_Log Log du Score Meld 1 0.10247 0.05125 2.00 0.0473 0.02563 1.47977 Nbicu_Log Log du Nombre de jours d'hospitalisation 1 0.35810 0.03521 10.17 <.0001 0.40496 1.68610 aux soins intensifs Dindo1 Score complication à 1 mois 1 0.29304 0.14410 2.03 0.0437 0.02649 8.78937 Dindo2 Score complication à 3 mois 1 0.41430 0.14414 2.87 0.0046 0.05155 7.12241 Dindo3 Score complication à 6 mois 1 0.63002 0.14093 4.47 <.0001 0.11621 6.55599 Dindo4 Score complication à 9 mois 1 0.52462 0.14217 3.69 0.0003 0.08221 5.36765 sexe Sexe 1-0.08398 0.04871-1.72 0.0867 0.01918 1.02184
Verification des hypothèses Linéarité fonction régression Variance constante des erreurs - Indépendance des résidus - Test de Durbin Watson = 1.6 - Normalité des erreurs - Test statistique de Jarque Bera =1.13, p=0.56
Leverage Observations aberrantes pour X Log du Nombre de jours d hospitalisation aux soins intensifs Leverage > (2*p/n =2*8/160=0,1 Nbhosp_Log = 1.8565 +0.1025 Meld_Log +0.3581 Nbicu_Log +0.293 Dindo1 +0.4143 Dindo2 +0.63 Dindo3 +0.5246 Dindo4-0.084 sexe 0.250 N 160 Rsq 0.225 0.6707 AdjRsq 0.6556 0.200 RMSE 0.2907 0.175 0.150 0.125 0.100 0.075 0.050 0.025 0.000 0 20 40 60 80 100 120 140 160 Observation Number
Observations aberrantes pour Y Log du Nombre de jours d hospitalisation aux soins intensifs Si di* >1.976 Nbhosp_Log = 1.8565 +0.1025 Meld_Log +0.3581 Nbicu_Log +0.293 Dindo1 +0.4143 Dindo2 +0.63 Dindo3 +0.5246 Dindo4-0.084 sexe 4 N 160 Rsq 0.6707 3 AdjRsq 0.6556 RMSE 0.2907 Studentized Residual without Current Obs 2 1 0-1 -2-3 0 20 40 60 80 100 120 140 160 Observation Number
Standard Influence on Predicted Value Observations influentes Log du Nombre de jours d hospitalisation aux soins intensifs Si DFFITS >0.45 (2*sqrt(p/n) = 0.45); Di >0.34 (F (0.05, 8, 151) = 0.34) Nbhosp_Log = 1.8565 +0.1025 Meld_Log +0.3581 Nbicu_Log +0.293 Dindo1 +0.4143 Dindo2 +0.63 Dindo3 +0.5246 Dindo4-0.084 sexe 1.5 N 160 Rsq 0.6707 AdjRsq 1.0 0.6556 RMSE 0.2907 0.5 0.0-0.5-1.0-1.5 0 20 40 60 80 100 120 140 160 Observation Number
Observées (vs) Prédictes Obs Dependent Variable Predicted Value Std Error Mean Predict Residual Std Error Residual Student Residual Cook's D 1 3.0445 3.2332 0.0717-0.1886 0.282-0.668 0.003 2 2.4849 2.5780 0.0570-0.0931 0.286-0.326 0.000 3 4.4886 4.0660 0.0909 0.4226 0.277 1.526 0.025 4 2.4849 2.5622 0.0597-0.0773 0.285-0.271 0.000 5 2.6391 2.5183 0.0511 0.1207 0.287 0.421 0.001 6 2.7726 2.6584 0.0572 0.1142 0.286 0.400 0.001 7 2.6391 2.5542 0.0448 0.0848 0.288 0.295 0.000 8 2.4849 2.7375 0.0555-0.2526 0.286-0.883 0.003 9 3.5553 3.5068 0.0897 0.0485 0.277 0.175 0.000 10 3.0445 3.2330 0.0921-0.1885 0.277-0.682 0.005 11 2.4849 2.7482 0.0489-0.2633 0.287-0.917 0.002 12 2.5649 2.8828 0.0632-0.3179 0.284-1.117 0.006 13 2.9957 2.7658 0.0690 0.2300 0.283 0.812 0.004 14 2.4849 2.7789 0.0572-0.2940 0.286-1.029 0.004 15 2.5649 2.5348 0.0457 0.0302 0.288 0.105 0.000
Messages clés Notre modèle nous indique que le Nombre de jours total d hospitalisation augemente avec: Le Score de gravité de la maladie (MELD) Le Nombre de jours d hospitalisation aux soins intensifs Les Scores de complication (DINDO)
Références 1. Eurotransplant international fundation https://www.eurotransplant.org/cms/mediaobject.php?file =AR20135.pdf 2. Kamath P, wiesner R, Malinchoc M. A model to predict survival in patients with end-stage liver disease. Hepatology, vol.33, n 2, 2001, p.464-474 3. Neter, J., Kutner, M.H., Nachtsheim, C.J. et Wasserman, W.(1996). Applied linear statistical models. Irwin (4th edition).