3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 1/6 3ICBE UFBC11 Statistique Contrôle du vendredi 24 octobre 2014 Les documents ne sont pas autorisés Diagnostic coronarien Des données publiques disponibles sur le site UCI repository 1 décrivent des facteurs de risque et résultats cliniques (13 parmi 75 de l étude originale 2 ) liés à une maladie coronarienne (athérosclérose). Celle-ci est jugée présente lorsque tous les vaisseaux coronariens sont obstrués à plus de 50% par des athéromes. Les variables étudiées sont observées sur un échantillon de 270 patients admis dans une clinique de Cleveland (Ohio) à la suite de douleurs thoraciques pouvant être dues à une angine de poitrine. Elles sont décrites dans le tableau ci-dessous : Code Libellé Valeurs 1 Age 2 Sexe sxf, sxm 3 Douleur Thoracique dla (angine typique), dlb(atypique) dlc(différent) dld(asymptom.) 4 Tension Systolique mmhg à l admission et au repos 5 Cholest Taux mg/dl (préférable<200, limite entre 200 et 240, risqué au-delà) 6 Sucre Taux à jeun scn (<120mg/dl), sco (>120mg/dl) 7 Cardio ECG au repos cda (Normal) cdb (ST/T anormal) cdc (hypertrophie ventr. gauche) 8 FreqM Fréquence cardiaque maximum lors du test d effort 9 AngInd Angine induite par l effort : tma (oui), tmb (non) 10 PicInd Dépression ST Induite par effort / repos 11 PentInd Segment ST Induit à l effort pia(ascendante), pib(plate), pic(descendante) 12 Nvais Nombre de vaisseaux fl0, fl1, fl2, fl3 majeurs colorés par fluoroscopie 13 Thal Scintigraphie thn(normal) thf(défaut fixé) thr(défaut révers.) avec effort 14 Classe Coronaropathie hda(absence), hdp(présence) Certaines sont associées à des risques potentiels d autres, résultats d examens cliniques au repos ou à la suite d un test d effort. Les variables 1, 4, 5, 8, 10 sont quantitatives, les autres sont qualitatives dont certaines binaires : 2, 6, 9, 14. Le diagnostic (variable Classe) a été établi par une angiographie permettant de mesurer l obstruction des artères coronariennes. En principe, l objectif sur ces données est de construire un modèle de prévision de la variable Classe à partir de l observation des autres, pas ou peu invasives, car l angiographie est un examen invasif comportant des risques. La variable Classe n est pas quantitative mais binaire (présence / absence) et le nombre de variables explicatives est important ; les outils vus au niveau L3 ne permettent pas de répondre à une telle question traitée usuellement par une régression dite logistique. L objectif poursuivi ici est une description élémentaire des données et la mise en évidence de quelques effets ou plus simplement de liaisons entre certaines variables. 1 http://archive.ics.uci.edu/ml/ 2 Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J., Sandhu, S., Guppy, K., Lee, S., & Froelicher, V. (1989). International application of a new probability algorithm for the diagnosis of coronary artery disease. American Journal of Cardiology, 64,304--310.
3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 2/6 Aidez-vous des tableaux et figures de l annexe pour répondre aux questions suivantes. Chaque réponse doit être justifiée à partir d un tableau numérique ou d un graphique fourni par le logiciel R. 1. Description 1.1 Quelle est la population étudiée? Quel est l échantillon? 1.2 Que représente le double graphique de la figure 1? Que dire de cette variable? Approximativement combien de personnes entre 56 et 62 ans et entre 62 et 77 ans? 1.3 Que dire des distributions des variables «Tensions systolique» et «Fréquence cardiaque max»? 1.4 Quelle hypothèse H0 est testée dans le tableau 1? Que conclure? 1.5 Que sont les graphes de la figure 3. Que dire de la normalité des variables «Tension» et «Fréquence cardiaque»? 1.6 Expliciter la formule de l intervalle de confiance à 95% de la moyenne d une variable. Avec mean(heart[,"age"])= 54.43333 et sd(heart[,"age"])^2=82.97509, quel est cet intervalle pour la moyenne de l âge? Est-il légitime? Pourquoi? 1.7 Que représente la figure 4. Commentaires? 1.8 Que sont les graphiques de la figure 5? Que dire concernant ces variables? 1.9 Que sont les graphiques de la figure 6? Que dire concernant ces variables? 2. Liaisons et risques 2.1 Les tableaux 2 sont des résultats d un test. De quel test s agit-il? Quelle est l hypothèse H0? Comment interpréter ces résultats? 2.2. Le tableau 3 fournit une séquence de résultats. Pour chaque test donner l hypothèse H0, la p-valeur et la décision. Utiliser ces résultats pour juger, en le justifiant de la relation entre les variables Age et Classe. 2.3 Mêmes questions pour le tableau 4 et la variable «Cholestérol»? 2.4 Analyser les résultats du tableau 5 : Quel test? Quelle décision? Comparer avec ceux de la question précédente. Comment conclure? 2.5 Dans la commande t.test de R précédemment utilisée se trouvent les options var.equal (TRUE ou FALSE) et paired (TRUE ou FALSE). A quoi correspondent ces options? 2.6 A quels types de variables peut-on appliquer la méthode ANOVA ou analyse de variance? Pour répondre à quelle question? Quelles sont les pré-requis ou hypothèses à vérifier pour que les résultats soient valides. Quels tests permettent de le faire? 2.7 Quelle est l hypothèse H0 testée par l ANOVA et l hypothèse alternative? Quel est le test nonparamétrique associé? 2.8 La figure 7 et le tableau 6 son relatifs au modèle expliquant la fréquence cardiaque max par l âge et la tension systolique. Que doit vérifier ce modèle de régression pour être valide? L est-il? 2.9 Que signale le nuage des résidus à propos de quelques observations. Sont-elles influentes sur le modèle? Comment s en assurer? 2.10 Ecrire le modèle obtenu. Quelles sont les quatre hypothèses H0 testées dans le tableau 6? Comment en interpréter les résultats? Que dire de la qualité d ajustement et de la qualité prédictive de ce modèle? 2.11 La figure 8 et le tableau 7 sont maintenant relatifs au modèle expliquant le PicInduit par les mêmes variables. Que dire concernant la validité de ce modèle. Comment conclure sur les interprétations des tests et les influences des variables?. Attention, le déroulement de l étude est ici «pédagogique» à partir des outils connus au niveau L3. Le modèle à étudier devrait prendre en charge l ensemble des mesures pour expliquer la classe. Celui-ci dit de régression logistique modélise la probabilité de présence de la pathologie p=p(classe=hdp) par une expression de la forme : Log(p/(1-p) = Xb ou p = exp(xb) / 1-exp(Xb) où X est la matrice n x (p+1) contenant les variables observées et b le vecteur des paramètres.
3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 3/6 Annexe Figure 1 Figure 2 Figure 3 : De gauche à droite, variable Age, Tension puis Fréquence cardiaque Shapiro-Wilk xxxx test data: heart[, "Age"] W = 0.9883, p-value = 0.02765 Tableau 1
3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 4/6 Figure 4 Figure 5 : Classe X Sexe et Classe X Sucre Figure 6 : Age X Classe et Cholestérol X Classe
3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 5/6 data: table(heart[, "Sexe"], heart[, "Classe"]) X-squared = 22.6673, df = 1, p-value = 1.926e-06 data: table(heart[, "Sucre"], heart[, "Classe"]) X-squared = 0.0092, df = 1, p-value = 0.9237 Tableau 2 data: heart[heart$classe == "hda", "Age"] W = 0.9851, p-value = 0.1059 data: heart[heart$classe == "hdp", "Age"] W = 0.97, p-value = 0.008842 F test data: Age by Classe F = 1.3729, num df = 149, denom df = 119, p-value = 0.0721 alternative hypothesis: true ratio of variances is not equal to 1 0.9717401 1.9267778 Two Sample t-test data: Age by Classe t = -3.557, df = 268, p-value = 0.0004435 alternative hypothesis: true difference in means is not equal to 0-6.03543-1.73457 sample estimates: mean in group hda mean in group hdp 52.70667 56.59167 Tableau 3 data: heart[heart$classe == "hda", "Cholest"] W = 0.8936, p-value = 5.843e-09 data: heart[heart$classe == "hdp", "Cholest"] W = 0.9861, p-value = 0.2558 F test data: Cholest by Classe F = 1.2681, num df = 149, denom df = 119, p-value = 0.1771 alternative hypothesis: true ratio of variances is not equal to 1 0.8976106 1.7797929 Two Sample t-test data: Cholest by Classe t = -1.9457, df = 268, p-value = 0.05274 alternative hypothesis: true difference in means is not equal to 0-24.6526339 0.1459672 Tableau 4 Wilcoxon rank sum test with continuity correction data: Cholest by Classe W = 7300.5, p-value = 0.007701 alternative hypothesis: true location shift is not equal to 0 Tableau 5
3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 6/6 Figure 7 lm(formula = FreqM ~ Age + Tension, data = heart) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 195.23250 10.98447 17.773 < 2e-16 *** Age -1.07594 0.14764-7.287 3.57e-12 *** Tension 0.09907 0.07530 1.316 0.189 Residual standard error: 21.22 on 267 degrees of freedom Multiple R-squared: 0.1672, Adjusted R-squared: 0.1609 F-statistic: 26.8 on 2 and 267 DF, p-value: 2.476e-11 Tableau 6 Figure 8 lm(formula = PicInd ~ Age + Tension, data = heart) Residuals: Min 1Q Median 3Q Max -1.7956-0.7965-0.3326 0.6219 4.6758 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.481249 0.574179-2.580 0.01042 * Age 0.018122 0.007718 2.348 0.01960 * Tension 0.011761 0.003936 2.988 0.00307 ** Residual standard error: 1.109 on 267 degrees of freedom Multiple R-squared: 0.06887, Adjusted R-squared: 0.06189 F-statistic: 9.874 on 2 and 267 DF, p-value: 7.294e-05 Tableau 7