3ICBE UFBC11 Statistique

Documents pareils
Lire ; Compter ; Tester... avec R

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Un exemple de régression logistique sous

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

«Cours Statistique et logiciel R»

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Épreuve d effort électrocardiographique

Exemple PLS avec SAS

Introduction aux Statistiques et à l utilisation du logiciel R

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Introduction à la statistique non paramétrique

Analyse de la variance Comparaison de plusieurs moyennes

Données longitudinales et modèles de survie

Ischémie myocardique silencieuse (IMS) et Diabète.

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Le VIH et votre cœur

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Dr Pierre-François Lesault Hôpital Privé de l Estuaire Le Havre

La mesure de la réserve coronaire

Utilisation du Logiciel de statistique SPSS 8.0

TABLE DES MATIERES. C Exercices complémentaires 42

Works like you work. La solution pour l accès public à la défibrillation. Le secourisme facile

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Femmes, prenez soin de votre cœur! LIVRET DE PREVENTION

TRANSPORT ET LOGISTIQUE :

1 Modélisation d être mauvais payeur

Indications pour une progression au CM1 et au CM2

Comment évaluer. la fonction contractile?

INSUFFISANCE CARDIAQUE «AU FIL DES ANNEES»

S o m m a i r e 1. Sémiologie 2. Thérapeutique

QUEL PROTOCOLE DE REENTRAINEMENT PROPOSER AUX PATIENTS INSUFFISANTS CARDIAQUES?

LES FACTEURS DE RISQUE

Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN)

Primeurs en cardiologie I

Principe d un test statistique

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Modèles pour données répétées

ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview.

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Système de diagnostic CardioSoft Une passerelle entre le cœur et l'esprit

LES RÉFÉRENTIELS RELATIFS AUX ÉDUCATEURS SPÉCIALISÉS

La Dysplasie Ventriculaire Droite Arythmogène

Filtrage stochastique non linéaire par la théorie de représentation des martingales

LIRE UN E.C.G. Formation sur le langage et la lecture d un ECG destinée aux techniciens ambulanciers de la région Chaudière-Appalaches

données en connaissance et en actions?

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Exemples d application

Prise en charge du patient porteur d un dispositif implantable. Dr Philippe Gilbert Cardiologue CHU pavillon Enfant-Jésus

Votre guide des définitions des maladies graves de l Assurance maladies graves express

UN PATIENT QUI REVIENT DE LOIN. Abdelmalek AZZOUZ GRCI 29/11/2012 Service de Cardiologie A2 CHU Mustapha. Alger Centre. Algérie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Réparation de la communication interauriculaire (CIA) Informations destinées aux patients

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

Recherche dans un tableau

Cardiopathies ischémiques

Logiciel XLSTAT version rue Damrémont PARIS

Actualité sur la prise en charge de l arrêt cardiaque

J. Goupil (1), A. Fohlen (1), V. Le Pennec (1), O. Lepage (2), M. Hamon (2), M. Hamon-Kérautret (1)

Cas clinique n 1. Y-a-t-il plusieurs diagnostics possibles? Son HTA a t elle favorisé ce problème?

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Valeur ajoutée relative basée sur les comparaisons indirectes Giens 2008, TR 5

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

PRINCIPE ET FONCTIONNEMENT DES DÉFIBRILLATEURS AUTOMATIQUES IMPLANTABLES (DAI)

Introduction au Data-Mining

Annexe commune aux séries ES, L et S : boîtes et quantiles

DE LA CAMÉRA SOMMAIRE

Biostatistiques : Petits effectifs

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

1 La scintigraphie myocardique au Persantin ou Mibi Persantin

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

TITRE : «Information et consentement du patient en réadaptation cardiovasculaire»

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Introduction au Data-Mining

Séquence maladie: insuffisance cardiaque. Mieux connaître l insuffisance cardiaque Vivre avec un DAI

Angine de poitrine. Quelques définitions:

Diabète Type 2. Épidémiologie Aspects physiques Aspects physiologiques

Modèle GARCH Application à la prévision de la volatilité

La formation, levier de performance économique et sociale (?)

dossier de presse nouvelle activité au CHU de Tours p a r t e n a r i a t T o u r s - P o i t i e r s - O r l é a n s

Angor stable. Quand faut-il faire des examens invasifs? Quintessence. Indication pronostique à un examen invasif. Introduction. Piero O.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Demande de règlement au titre de l assurance invalidité hypothécaire Assurance-crédit Contrat n o 51007

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

Module digestif. II. Prévention du reflux gastro-œsophagien :

IBM SPSS Regression 21

INTRODUCTION AU LOGICIEL R

Evaluation du risque Cardio-vasculaire MOHAMMED TAHMI

Format de l avis d efficience

maladies des artères Changer leur évolution Infarctus du myocarde Accident vasculaire cérébral Artérite des membres inférieurs

Transcription:

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 1/6 3ICBE UFBC11 Statistique Contrôle du vendredi 24 octobre 2014 Les documents ne sont pas autorisés Diagnostic coronarien Des données publiques disponibles sur le site UCI repository 1 décrivent des facteurs de risque et résultats cliniques (13 parmi 75 de l étude originale 2 ) liés à une maladie coronarienne (athérosclérose). Celle-ci est jugée présente lorsque tous les vaisseaux coronariens sont obstrués à plus de 50% par des athéromes. Les variables étudiées sont observées sur un échantillon de 270 patients admis dans une clinique de Cleveland (Ohio) à la suite de douleurs thoraciques pouvant être dues à une angine de poitrine. Elles sont décrites dans le tableau ci-dessous : Code Libellé Valeurs 1 Age 2 Sexe sxf, sxm 3 Douleur Thoracique dla (angine typique), dlb(atypique) dlc(différent) dld(asymptom.) 4 Tension Systolique mmhg à l admission et au repos 5 Cholest Taux mg/dl (préférable<200, limite entre 200 et 240, risqué au-delà) 6 Sucre Taux à jeun scn (<120mg/dl), sco (>120mg/dl) 7 Cardio ECG au repos cda (Normal) cdb (ST/T anormal) cdc (hypertrophie ventr. gauche) 8 FreqM Fréquence cardiaque maximum lors du test d effort 9 AngInd Angine induite par l effort : tma (oui), tmb (non) 10 PicInd Dépression ST Induite par effort / repos 11 PentInd Segment ST Induit à l effort pia(ascendante), pib(plate), pic(descendante) 12 Nvais Nombre de vaisseaux fl0, fl1, fl2, fl3 majeurs colorés par fluoroscopie 13 Thal Scintigraphie thn(normal) thf(défaut fixé) thr(défaut révers.) avec effort 14 Classe Coronaropathie hda(absence), hdp(présence) Certaines sont associées à des risques potentiels d autres, résultats d examens cliniques au repos ou à la suite d un test d effort. Les variables 1, 4, 5, 8, 10 sont quantitatives, les autres sont qualitatives dont certaines binaires : 2, 6, 9, 14. Le diagnostic (variable Classe) a été établi par une angiographie permettant de mesurer l obstruction des artères coronariennes. En principe, l objectif sur ces données est de construire un modèle de prévision de la variable Classe à partir de l observation des autres, pas ou peu invasives, car l angiographie est un examen invasif comportant des risques. La variable Classe n est pas quantitative mais binaire (présence / absence) et le nombre de variables explicatives est important ; les outils vus au niveau L3 ne permettent pas de répondre à une telle question traitée usuellement par une régression dite logistique. L objectif poursuivi ici est une description élémentaire des données et la mise en évidence de quelques effets ou plus simplement de liaisons entre certaines variables. 1 http://archive.ics.uci.edu/ml/ 2 Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J., Sandhu, S., Guppy, K., Lee, S., & Froelicher, V. (1989). International application of a new probability algorithm for the diagnosis of coronary artery disease. American Journal of Cardiology, 64,304--310.

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 2/6 Aidez-vous des tableaux et figures de l annexe pour répondre aux questions suivantes. Chaque réponse doit être justifiée à partir d un tableau numérique ou d un graphique fourni par le logiciel R. 1. Description 1.1 Quelle est la population étudiée? Quel est l échantillon? 1.2 Que représente le double graphique de la figure 1? Que dire de cette variable? Approximativement combien de personnes entre 56 et 62 ans et entre 62 et 77 ans? 1.3 Que dire des distributions des variables «Tensions systolique» et «Fréquence cardiaque max»? 1.4 Quelle hypothèse H0 est testée dans le tableau 1? Que conclure? 1.5 Que sont les graphes de la figure 3. Que dire de la normalité des variables «Tension» et «Fréquence cardiaque»? 1.6 Expliciter la formule de l intervalle de confiance à 95% de la moyenne d une variable. Avec mean(heart[,"age"])= 54.43333 et sd(heart[,"age"])^2=82.97509, quel est cet intervalle pour la moyenne de l âge? Est-il légitime? Pourquoi? 1.7 Que représente la figure 4. Commentaires? 1.8 Que sont les graphiques de la figure 5? Que dire concernant ces variables? 1.9 Que sont les graphiques de la figure 6? Que dire concernant ces variables? 2. Liaisons et risques 2.1 Les tableaux 2 sont des résultats d un test. De quel test s agit-il? Quelle est l hypothèse H0? Comment interpréter ces résultats? 2.2. Le tableau 3 fournit une séquence de résultats. Pour chaque test donner l hypothèse H0, la p-valeur et la décision. Utiliser ces résultats pour juger, en le justifiant de la relation entre les variables Age et Classe. 2.3 Mêmes questions pour le tableau 4 et la variable «Cholestérol»? 2.4 Analyser les résultats du tableau 5 : Quel test? Quelle décision? Comparer avec ceux de la question précédente. Comment conclure? 2.5 Dans la commande t.test de R précédemment utilisée se trouvent les options var.equal (TRUE ou FALSE) et paired (TRUE ou FALSE). A quoi correspondent ces options? 2.6 A quels types de variables peut-on appliquer la méthode ANOVA ou analyse de variance? Pour répondre à quelle question? Quelles sont les pré-requis ou hypothèses à vérifier pour que les résultats soient valides. Quels tests permettent de le faire? 2.7 Quelle est l hypothèse H0 testée par l ANOVA et l hypothèse alternative? Quel est le test nonparamétrique associé? 2.8 La figure 7 et le tableau 6 son relatifs au modèle expliquant la fréquence cardiaque max par l âge et la tension systolique. Que doit vérifier ce modèle de régression pour être valide? L est-il? 2.9 Que signale le nuage des résidus à propos de quelques observations. Sont-elles influentes sur le modèle? Comment s en assurer? 2.10 Ecrire le modèle obtenu. Quelles sont les quatre hypothèses H0 testées dans le tableau 6? Comment en interpréter les résultats? Que dire de la qualité d ajustement et de la qualité prédictive de ce modèle? 2.11 La figure 8 et le tableau 7 sont maintenant relatifs au modèle expliquant le PicInduit par les mêmes variables. Que dire concernant la validité de ce modèle. Comment conclure sur les interprétations des tests et les influences des variables?. Attention, le déroulement de l étude est ici «pédagogique» à partir des outils connus au niveau L3. Le modèle à étudier devrait prendre en charge l ensemble des mesures pour expliquer la classe. Celui-ci dit de régression logistique modélise la probabilité de présence de la pathologie p=p(classe=hdp) par une expression de la forme : Log(p/(1-p) = Xb ou p = exp(xb) / 1-exp(Xb) où X est la matrice n x (p+1) contenant les variables observées et b le vecteur des paramètres.

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 3/6 Annexe Figure 1 Figure 2 Figure 3 : De gauche à droite, variable Age, Tension puis Fréquence cardiaque Shapiro-Wilk xxxx test data: heart[, "Age"] W = 0.9883, p-value = 0.02765 Tableau 1

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 4/6 Figure 4 Figure 5 : Classe X Sexe et Classe X Sucre Figure 6 : Age X Classe et Cholestérol X Classe

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 5/6 data: table(heart[, "Sexe"], heart[, "Classe"]) X-squared = 22.6673, df = 1, p-value = 1.926e-06 data: table(heart[, "Sucre"], heart[, "Classe"]) X-squared = 0.0092, df = 1, p-value = 0.9237 Tableau 2 data: heart[heart$classe == "hda", "Age"] W = 0.9851, p-value = 0.1059 data: heart[heart$classe == "hdp", "Age"] W = 0.97, p-value = 0.008842 F test data: Age by Classe F = 1.3729, num df = 149, denom df = 119, p-value = 0.0721 alternative hypothesis: true ratio of variances is not equal to 1 0.9717401 1.9267778 Two Sample t-test data: Age by Classe t = -3.557, df = 268, p-value = 0.0004435 alternative hypothesis: true difference in means is not equal to 0-6.03543-1.73457 sample estimates: mean in group hda mean in group hdp 52.70667 56.59167 Tableau 3 data: heart[heart$classe == "hda", "Cholest"] W = 0.8936, p-value = 5.843e-09 data: heart[heart$classe == "hdp", "Cholest"] W = 0.9861, p-value = 0.2558 F test data: Cholest by Classe F = 1.2681, num df = 149, denom df = 119, p-value = 0.1771 alternative hypothesis: true ratio of variances is not equal to 1 0.8976106 1.7797929 Two Sample t-test data: Cholest by Classe t = -1.9457, df = 268, p-value = 0.05274 alternative hypothesis: true difference in means is not equal to 0-24.6526339 0.1459672 Tableau 4 Wilcoxon rank sum test with continuity correction data: Cholest by Classe W = 7300.5, p-value = 0.007701 alternative hypothesis: true location shift is not equal to 0 Tableau 5

3 ème année INSA-ICBE 2014/2015 UFBC11 contrôle de Statistique 6/6 Figure 7 lm(formula = FreqM ~ Age + Tension, data = heart) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 195.23250 10.98447 17.773 < 2e-16 *** Age -1.07594 0.14764-7.287 3.57e-12 *** Tension 0.09907 0.07530 1.316 0.189 Residual standard error: 21.22 on 267 degrees of freedom Multiple R-squared: 0.1672, Adjusted R-squared: 0.1609 F-statistic: 26.8 on 2 and 267 DF, p-value: 2.476e-11 Tableau 6 Figure 8 lm(formula = PicInd ~ Age + Tension, data = heart) Residuals: Min 1Q Median 3Q Max -1.7956-0.7965-0.3326 0.6219 4.6758 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.481249 0.574179-2.580 0.01042 * Age 0.018122 0.007718 2.348 0.01960 * Tension 0.011761 0.003936 2.988 0.00307 ** Residual standard error: 1.109 on 267 degrees of freedom Multiple R-squared: 0.06887, Adjusted R-squared: 0.06189 F-statistic: 9.874 on 2 and 267 DF, p-value: 7.294e-05 Tableau 7