.. Les statistiques dans la recherche médicale Méthodes statistiques multivariées Michaël Genin, Alain Duhamel, Patrick Devos Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michael.genin@univ-lille2.fr
Plan. 1 Introduction. 2 Statistique descriptive multivariée. 3 Statistique inférentielle multivariée. 4 Approfondissements. 5 Contacts M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 1 / 66
Introduction Précédemment... Définition de la statistique, échantillonnage Principe du test statistique Nombre de sujets nécessaires Traitements statistiques Statistiques descriptives univariées Tests de comparaison de groupes usuels Aujourd hui : Analyses descriptives multivariées Analyses inférentielles multivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 3 / 66
Introduction Méthodes statistiques - principes générau Différents types de statistique Univariée (moyenne, DS, ) Descriptive Multivariée (ACP, ) La statistique Univariée (tests, ) Inférentielle Multivariée (modèles, ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 5 / 66
Introduction Méthodes statistiques - principes générau Différents types de variables Variables Quantitatives Variables quantitatives continues (âge, poids, taille,) Variables quantitatives discrètes (ne peuvent prendre qu un nombre limité de valeurs. e : nombre de personnes dans un foyer) Variables Qualitatives Variables qualitatives binaires (see : Masculin / Féminin) Variables qualitatives nominales (Couleurs des yeu : marrons, bleus, verts, gris) Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très bien, Ecellent) Toujours décrire les données avant de faire les analyses inférentielles (tests) Pour décrire les échantillons et vérifier leur représentativité mais aussi Pour le contrôle de qualité des données : individus aberrants, valeurs manquantes Pour choisir les tests adaptés au distributions ( lois ) des variables M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 6 / 66
Introduction Méthodes statistiques - principes générau Dans le cadre des méthodes statistiques inférentielles : Une variable est définie par son type (quantitative, qualitative) son statut (++) 2 statuts possibles : Variables eplicatives variables indépendantes, variables eogènes, prédicteurs... Variables dont on se sert pour epliquer le phénomène à ltude. Il sagit de la cause présumée. Variable à epliquer variable dépendante, variable endogène, critère de jugement... Variable dont on veut epliquer la variation dans une recherche M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 7 / 66
Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 1 Question d étude : les enfants ayant eu des affections chroniques décèdent-ils plus en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Qualitative binaire (oui/non) Critère de jugement Sortie de réanimation Décès (oui/non) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 8 / 66
Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 2 Question d étude : les enfants ayant eu des affections chroniques ont-ils une durée de séjour plus longue en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Quantiative Critère de jugement Sortie de réanimation Durée de séjour (j) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 9 / 66
Introduction Méthodes statistiques - principes générau Pour résumer Les méthodes statistiques à employer dépendent toujours du type des variables Pour les analyses descriptives, pas de statut On identifie le type de chaque variable Toutes les variables ont elles le même type, ou mélange? Pour les analyses inférentielles, au problème posé, on associe Des variables eplicatives Des variables à epliquer On détermine le type de chaque variable M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 10 / 66
Statistique descriptive multivariée Objectifs - Méthodes Objectifs principau : Vérifier la cohérence des données Contrôle des données Individus eceptionnels (en multivarié) Contrôle des données Etudier les liaisons (corrélations) entre p variables Formuler des hypothèses Eistence de profils dindividus différents (sur p variables = multivarié) Formuler des hypothèses Principales méthodes ACP : Analyse en Composantes Principales (variables uniquement quantitatives) ACM : Analyse des Correspondances Multiples (variables uniquement qualitatives) Analyse de classification (variables toutes quantitatives ou toutes qualitatives) Sauf cas très particuliers, on ne mélange jamais des variables numériques et qualitatives nominales (distance, ordre,... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 13 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Objectifs Les variables sont toutes quantitatives Les moyennes, variances, corrélations ont un sens Eaminer la structure des données Les individus se ressemblent tous? Sous groupes dindividus? Individus aberrants? Quelles sont les variables corrélées entre elles? interpréter facilement la matrice de corrélation(p variables, p (p + 1)/2 corrélations possibles!) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 15 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Si les données ne comportaient que 2 variables : une représentation graphique suffirait pour répondre au objectifs : X2 X2 X2 X1 X1 En général p variables : représentation impossible Obtenir des représentations approchées en dimension 2 X1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 16 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP p variables dimension p (R p ) Obtenir des représentation en dimension 2 les plus fiables possibles Critère : conservation de la variance =conservation de la distance entre les individus Construction de nouvelles variables C j qui maimisent la variance Contraintes de simplicité : combinaisons linéaires des variables initiales Géométriquement C 1 = A 1 1X 1 + A 1 2X 2 +... + A 1 px p X2 C X1 Si on considère la nouvelles variable C, l information est reconstituée de la manière la plus fiable possible au sens de la variance. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 17 / 66 X X C
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Première composante principale C 1 = combinaison linéaire des variables initiales qui maimise la variance Deuième composante principale : maimise la variance et est non-corrélée à la première composante (orthogonalité) Et ainsi de suite... Au plus p composantes principales En réalité, si liaisons entre les variables, lessentiel de linformation (la variance) est contenue dans les (2 ou 3) premières composantes principales M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 18 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Analyse des liaisons entre variables Matrice de corrélation p variables p(p + 1)/2 corrélations Liaison 2 à 2, pas de liaisons multivariées ACP : représentation des variables : cercle des corrélations (C 1 et C 2 sont les deu premières composantes principales) C2 X5 ρ(c2,x3) X2 X1 X4 X3 α ρ(c1,x3) C1 On peut alors montrer que si des variables sont proches de la circonférence alors le cosinus de l angle α est proche du coefficient de corrélation entre ces 2 variables. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 19 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : autre application L ACP est une procédure pour réduire la dimension Les composantes principales peuvent être utilisées comme des nouvelles variables (non-corrélées entre elles) résumant l information contenue dans les variables initiales. Application : Régression : Y = β 1 X 1 + β 0, il faut au moins 2 individus pour estimer la droite de régression. Si N < p + 1 échec des procédures de régression Solution : régression sur les premières composantes principales (E : bioinformatique) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 20 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Infarctus du myocarde Variables numériques : Fréquence cardiaque Inde cardiaque Inde systolique Pression diastolique Pression artérielle pulmonaire Pression ventriculaire Résistance pulmonaire Variable qualitative : décès Objectifs Vérifier la cohérence des données Individus eceptionnels (en multivarié) Eistence de profils dindividus différents (sur p variables = multivarié) Utilisation de la variable décès comme variable illustrative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 21 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 22 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus - Ajout d un variable illustrative (vers l inférentiel... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 23 / 66
Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Cercle des corrélations entre variables FRCAR INCAR PAPUL PRDIA INSYS REPUL Composante 1 PVENT Composante 2 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 24 / 66
Statistique descriptive multivariée Analyse des Correspondances Multiples Analyse des Correspondances Multiples (ACM) Méthode analogue à lacp mais pour les variables qualitatives Principalement utilisée pour lanalyse des questionnaires (Psychiatrie, ) Si variables binaires, équivalence entre les 2 procédures En ACP : variables numériques - liaisons = corrélations Cercle de corrélation, des proimités sinterprètent comme des corrélations En ACM : variables qualitatives - liaisons = chi-deu Représentation des variables : des proimités sinterprètent comme des liaisons au sens du chi-deu Composantes de lacm : combinaisons linéaires des modalités des variables initiales comme en ACP Peut être utilisée pour transformer des variables qualitatives en numériques pour dautres analyses eigeant des variables numériques (classification nuées dynamiques) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 26 / 66
Statistique descriptive multivariée Analyse de classification Objectifs - Méthodes Méthodes de classification = construire des groupes dindividus Les individus dun même groupe sont les plus ressemblants possible sur les variables selon une distance Les individus de groupes différents sont les plus dissemblables possible Applications : Étudier leistence de différents phénotypes dune maladie détection des individus aberrants ( contrôle des données), résumer un très gros fichier de données, bioinformatique, Permettent de prendre en compte des variables toutes numériques ou toutes qualitatives (distance euclidienne, distance du chi-deu, ) 2 grandes méthodes : la classification hiérarchique : partitions successives emboîtées les nuées dynamiques : recherche directe de partition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 28 / 66
Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Principe On agrège, de manière itérative, les individus (ou les classes) les plus ressemblants (es). On ne spécifie pas le nombre de classes (il faut le déterminer à partir du dendogramme = arbre) On choisit une distance appelée indice de similarité (ressemblance entre les individus) qui dépend de la nature des variables. Eemple : distance euclidienne Il faut se donner une formule de regroupement des classes M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 29 / 66
Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple Analyse Médico-économique : classification des hôpitau selon leur activité ETAB CMD1 CMD2 CMD3 CMD4 CMD5 CMD6 Arment 665 189 378 786 1002 1774 Cambrai 1217 47 509 892 890 1189 Denain 445 8 162 748 587 945 Douai 1966 60 686 1852 1480 1999 Dunkerq 1239 234 756 1464 1689 1532 GdSynthe 289 6 131 209 698 1179 Hazeb 125 13 110 157 147 441 ChuLILLE 10141 2667 3324 4233 10112 4822 COL 105 8 922 369 69 445 Maubeug 1183 14 463 983 1110 1570 Roubai 1678 319 1582 2158 2062 3240 Seclin 626 75 576 613 683 1661 StAntoi 871 70 1686 1210 39 2759 SPV 1658 61 216 1294 2970 2542 Tourcoing 1148 135 506 1184 1410 1848 Tessier 188 1 31 1218 1022 1086 Valenc 2570 502 1189 2170 3249 3286 Arras 1367 97 735 1418 1298 1578 Auchel 151 237 3 35 50 871 Bethune 1743 95 606 1892 1920 1486 Boulogne 1777 374 1425 1296 1857 2279 Bruay 24 1 25 780 338 31 Calais 1261 6 543 935 1083 1288 Fouquieres 59 0 37 17 162 1185 Henin 214 12 101 941 611 606 Lens 3485 480 114 3717 3389 3060 Montreuil 608 44 180 655 1045 1301 Oignies 96 1 6 14 150 516 StOmer 149 16 286 1087 1580 1058 Individus statistiques : hôpitau Variables : 23 CMD, numériques (%) CMD Libellé 1 AFFECTIONS DU SYSTEME NERVEUX 2 AFFECTIONS DE L'OEIL AFFECTIONS DES OREILLES, DU NEZ, 3 DE LA GORGE, DE LA BOUCHE ET DES DENTS 4 AFFECTIONS DE L'APPAREIL RESPIRATOIRE 5 AFFECTIONS DE L'APPAREIL CIRCULATOIRE 6 AFFECTIONS DU TUBE DIGESTIF Sur représentation des CMD 5 et 6 Première étape : normalisation des données par calcul des profils lignes (% d une CMD par rapport au total ligne) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 30 / 66
Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Dendrogramme) Fouquieres 24 Oignies 28 SPV 14 Tessier 16 Henin 25 Bruay 22 COL 9 StAntoi 13 Arment 1 Seclin 12 Denain 3 Hazeb 7 GdSynthe 6 Roubai 11 StOmer 29 Auchel 19 Tourcoing 15 Montreuil 27 Arras 18 Boulogne 21 Dunkerq 5 Valenc 17 Maubeug 10 Calais 23 Cambrai 2 Douai 4 Bethune 20 Lens 26 ChuLILLE 8 Petite Chirurgie Maternité Hôpital généraliste M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 31 / 66
Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Diagramme en radar) CMD1 CMD23 16.00 CMD2 CMD22 14.00 CMD3 CMD21 12.00 10.00 CMD4 C1 : Fouq, Oignies, SPV, Tessier, Henin, Bruay CMD20 8.00 CMD5 6.00 CMD19 4.00 CMD6 C2 : Arm, Seclin, Denain, Hazeb, GrdSynt, Roub, StOmer, Auchel 2.00 0.00 CMD18 CMD7 C3 : Tcg, Mont, Arras, Boul, Dunk, Valenc, Maub, Calais, Camb, Douai, Beth, Lens CMD17 CMD8 Total : Ensemble des Etablissements CMD16 CMD9 CMD15 CMD10 CMD14 CMD11 CMD13 CMD12 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 32 / 66
Statistique descriptive multivariée Analyse de classification Classification par nuées dynamiques Méthode de recherche directe de partition +++ Très efficace pour les grands fichiers de données Il faut spécifier le nombre de classes Lindice de similarité est la distance Euclidienne (variables numériques) Il faut que la moyenne ait un sens Il faut étudier la stabilité des résultats (formes fortes) car dépend des conditions initiales S3 * S3 S2 * * S1 S2 S1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 33 / 66
Statistique inférentielle multivariée Objectifs - Méthodes Objectifs en recherche médicale En recherche clinique et en épidémiologie : Recherche de facteurs de risque (DC, rechute) Construction de score de gravité, scores pronostiques Utilisées aussi pour ajuster les résultats de lanalyse du critère principal sur des variables de confusion Études comparatives non randomisées, études cas témoins M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 36 / 66
Statistique inférentielle multivariée Objectifs - Méthodes Principales méthodes Régression multiple Un critère numérique (variable à epliquer) Des variables eplicatives numériques ou binaires Analyse discriminante Un critère qualitatif (variable à epliquer) Des variables eplicatives numériques ou binaires Régression logistique Ajustement ou recherche de facteur de risque Un critère binaire Des variables eplicatives numériques ou binaires Mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps Analyses de survie (études pronostiques) Un événement qui peut se produire à un temps t Des variables eplicatives numériques ou binaires M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 37 / 66
Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe Généralisation de la corrélation et de la régression linéaire simple Lien entre une variable numérique et p variables numériques (ou binaires) Une variable à epliquer Y et p variables eplicatives X 1, X 2,..., X p Ajustement sur des facteurs de confusion : une variable eplicative principale Prédiction : prédire la valeur de Y à partir de X 1, X 2,..., X p Eemple (ajustement) : Lien entre nombre de décès par mélanome malin et latitude. Autres variables : proimité de la mer, longitude,... Lien entre BMI et classe sociale. Autres variables = activité physique, âge, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 39 / 66
Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe On suppose que la relation est linéaire : Y = β 0 + β 1 X 1 + β 2 X 2 +... + β p X p + ϵ ϵ erreur aléatoire (loi normale, moyenne nulle, variance fiée, indépendante des X j pour la validité des tests) Test global = corrélation multiple significative Permet ltude de la corrélation entre Y et X j en tenant compte des autres variables = corrélations partielles X1 Y X2 Attention analyse complète = tests de liaison + validité du modèle M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 40 / 66
Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Ajustement Publicité sur un produit amaigrissant (stimulant du métabolisme = dosestimul) Lien avec perte de poids (après avant)? Facteur de confusion (voire prépondérant!) = durée activité sportive (eercice) Corrélations bivariées puis régression multiple Pertepoids Corrélations Corrélation de Pearson Sig. (bilatérale) N dosestimul EXERCICE -.551** -.717**.005.000 24 24 **. La corrélation est significative au niveau 0.01 (bilatéral). Les deu corrélations linéaires simples sont significatives Coefficients a Coefficien ts Coefficients non standardi standardisés sés Erreur Modèle B standard Bêta t Signification 1 (constante) -1.221.959-1.273.217 dosestimul -8.69E-03.004 -.305-1.986.060 EXERCICE -.525.136 -.590-3.845.001 a. Variable dépendante : Pertepoids Régression linéaire multiple : seul eercice est significative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 41 / 66
Statistique inférentielle multivariée Analyse discriminante Principe de la discrimination en statistique On cherche à prédire une variable qualitative qui définit k groupes La variable qualitative est appelée variable à epliquer Eemple : différents diagnostics à partir de variables socio-démographiques et/ou cliniques ou et/ou biologiques On veut construire des règles à partir de ces variables qui permettent de classer les individus dans les groupes Aide à la décision : aide au diagnostic Eemple hors médecine : credit scoring M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 43 / 66
Statistique inférentielle multivariée Analyse discriminante Différentes méthodes de discrimination Différentes méthodes en fonction Du nombre de groupes à prédire (variable à epliquer) Du type des variables eplicatives (mélange de différents types ou non) Du nombre de variables eplicatives De la facilité dinterprétation souhaitée En médecine on utilise plus fréquemment Lanalyse factorielle discriminante (k groupes (k 3) variables eplicatives numériques ou binaires) La régression logistique (2 groupes variables numériques ou binaires) Les arbres de décision (k groupes (k 3), mélange de variables, adapté au grands échantillons) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 44 / 66
Statistique inférentielle multivariée Analyse discriminante Analyse Factorielle Discriminante (AFD) k (k 3) groupes, variables eplicatives numériques ou binaires Si variables qualitatives, les transformer en variables binaires La méthode identifie des nouvelles variables qui prédisent le mieu possible les groupes Ce sont les combinaisons linéaires des variables initiales Ce sont des scores comme ceu employés fréquemment en médecine Modèle facile à interpréter (eplicatif) on peut donner un sens clinique au scores discriminants On dispose de graphiques pour visualiser la qualité de la séparation des groupes par les scores M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 45 / 66
Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Septicémie : antibiothérapie durgence Peut-on prédire le type de germe à partir de données cliniques dentrée en attendant la bactériologie? Groupes bactérien de sensibilité voisine (GBSV : 11 groupes) Eemple pour les groupes Ampicilline sensible Salmonelle Bacille gramme négatif Construire un système daide à la décision pour prédire le type de GBSV et améliorer lantibiothérapie durgence 28 Variables cliniques binaires : acquisition hospitalière, portes dentrée, tumeur, chimiothérapie, choc, BPCO, syndrome dysentérique, méningite, endocardite, diabète, insuffisance rénale, antibio antérieure, pyélonéphrite, artérite, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 46 / 66
Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Analyse discriminante GBSV 4 ae2 3 2 1 0-8 -6-4 -2 0 2 4 6-1 -2-3 ae 1-4 -5-6 AMPI_S "Salmonelle" "BGN_Hospi" M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 47 / 66
Statistique inférentielle multivariée Régression logistique Régression logistique - Principe Méthode de discrimination particulière 2 groupes : eemple décès oui/non Score discriminant (comme AFD) + estimation de la probabilité dappartenir à lun des groupes Cette particularitépeut être très utile Score de mortalité probabilité de décès estimée Autre domaine : crédit scoring Autre avantage : les coefficients du score sont interprétables en terme de liaison avec la variable à epliquer (décès) Modèle logistique F (X ) fréquence dune maladie en fonction dune dose deposition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 49 / 66
Statistique inférentielle multivariée Régression logistique Régression logistique - Principales applications Discrimination (2 groupes) Construction de scores de risque (mortalité gravité) Pour servir de critères dajustement dans les essais Pour servir de critère de jugement Ajustement (épidémiologie) Analogue à lajustement par régression multiple mais ici la variable à epliquer est binaire M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 50 / 66
Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Le critère de jugement est binaire, mais il faut ajuster sur des covariables Eemple : obésité (oui/non) en fonction de la classe sociale High Medium Low p n (% ) 221 (25,4) 372 (42,8) 277 (31,3) age (sd) 40.5 1 (13.1) 40.0 1 (13.9) 44.3 2 (15,0) 0.0004 (++) Obesity% 3.7 10.5 11.9 p=0.004 (**) Lge est peut être un facteur de confusion : les sujets sont plus âgés chez Low et il eiste plus dobèses chez les sujets plus âgés (données non fournies) Ajuster : Obesite = f (classe sociale ET age) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 51 / 66
Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Obésité en fonction de la classe dge Low 11.9% ; Medium : 10.5% ; High : 3.7% (p=0.004 sans ajustement) Obésité en fonction de la classe sociale en ajustant sur lge Variables p OR 95% CI posocial 0.02 medium vs low 0.8295 1.057 0.63-1.76 high vs low 0.0068 0.33 0.15-0.74 age <.0001 1.044 1.03-1.06 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 52 / 66
Statistique inférentielle multivariée Mesures répétées Eemple fréquent en recherche clinique : les mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps On veut tester lvolution et non une valeur ponctuelle lvolution dans un groupe donné est-elle statistiquement significative? lvolution est-elle différente selon des groupes? Critère numérique : modèle linéaire mite Cas particulier : 2 mesures avant traitement / après traitement sur critère numérique : test de Student apparié Le modèle mite généralise ce test au cas de plus de 2 mesures Critère qualitatif : modèle linéaire mite généralisé Cas particulier : 2 mesures dun critère binaire avant traitement /après traitement sur critère binaire : Chi-deu de Mc Neymar M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 54 / 66
Statistique inférentielle multivariée Mesures répétées Critère numérique - méthodes statistiques adéquates : Tenir compte de la corrélation entre les mesures prises sur un même patient et modéliser cette corrélation V1 V2 V3 V4 V5 ρ(x 1, X 2 ) > ρ(x 1, X 5 ) Les visites sont à des temps fiés équidistants (V1=1 mois, V2=2mois, etc) ou non. Nombre de mesures différent selon les patients (valeurs manquantes) Sujets V1 V2 V3 1 2? 3? Les temps de mesure peuvent être différents pour tous les sujets : régression par rapport au temps. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 55 / 66
Statistique inférentielle multivariée Mesures répétées Le critère de jugement est lvolution dun paramètre numérique Eemple 2 méthodes de chirurgie coronarienne chez des patients diabétiques (groupes CPB et OP) Essai randomisé prospectif Critère principal : évolution de la microalbuminurie entre J1 et J5. Critère secondaire : clairance de la créatinine Diminution plus rapide de la microalbuminurie dans le groupe OP (p=0.003) Méthode moderne : tenir compte des corrélations entre les mesures, tenir compte de toutes les observations, tenir compte de possibles instants de mesure différents M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 56 / 66
Statistique inférentielle multivariée Analyse de survie Critère à analyser = apparition dun événement au cours du temps. Evénement = variable binaire. DC (O/N) mais aussi récidive (O/N), survie dune prothèse, dun greffon Études randomisées (critère DC) recherche de facteurs pronostiques 2 spécificités : prise en compte du temps (1) et des données censurées (2) (1) Prise en compte du temps (délai dapparition de lvénement) S(t) G2 G1 t 5 ans M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 58 / 66
Statistique inférentielle multivariée Analyse de survie (2) Prise en compte de toutes les observations : celles pour lesquelles lvénement est apparu ET celles pour lesquelles lvénement nest pas apparu Lvénement na pas encore été observé au moment de ltude (DC) Lvénement peut ne pas se produire pour certains individus Ces 2 types de données = donnée censurées. La méthode prend en compte ces observations dans les calculs Eemple : vaccin HB ; N=100 sur 1 an TP Temps 10HB, 10 perdus de vue % dhb à un an nest ni 10/100, ni 10/90 DO DP DDN TP Vivant Temps DO DDN DP M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 59 / 66
Statistique inférentielle multivariée Analyse de survie Applications % de survie 1 % de survie 1 Groupe 2 temps Groupe 1 temps Analyse descriptive = courbes de survie Analyses comparatives = comparaisons de courbes de survie Etude de facteurs pronostiques (étude multifactorielles) Construction de modèles prédictifs M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 60 / 66
Statistique inférentielle multivariée Analyse de survie Méthode de Kaplan Meier une seule population ou k populations définies selon une seule variable qualitative Estimation de la courbe de survie Comparaison par test du Log-Rank Si plusieurs variables à prendre en compte : Il faut choisir un modèle (comme en régression) Méthode la plus utilisée : modèle de COX h(t) = h 0 (t) ep(a1x 1 +... aj X j +... + apx p ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 61 / 66
Statistique inférentielle multivariée Analyse de survie Eemple : Construction dun score pronostique dans la maladie de Waldenström (Blood 2009) (p= 0 ) Proportion surviving 0.0 0.2 0.4 0.6 0.8 1.0 Proportion surviving 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 Survival Time in Years 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Survival Time in Years Low 155 151 133 110 96 86 63 50 43 32 25 Int 216 193 173 142 125 105 78 49 31 22 13 High 203 170 135 95 72 48 31 20 8 6 2 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 62 / 66
Approfondissements Approfondissements : M2 parcours E Journée thématique Modèles de régression Modèle linéaire et analyse de la variance Analyse des mesures répétées : modèle linéaire mite Journée thématique Analyses de survie Analyses multivariées par le Modèle de Co Validité du modèle : Analyse des résidus Plusieurs évènements par sujet Journée thématique Méthode fouille de données Méthodologie danalyse des grandes bases de données en santé Arbres de décision Classifications Gestion des données manquantes dans les analyses mutlivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 64 / 66
Contacts Des questions?. Alain Duhamel - MRRC - aduhamel@univ-lille2.fr Patrick Devos - Délégation à la Recherche - pdevos@univ-lille2.fr Julien Labreuche - MRRC - julien.labreuche@chru-lille.fr. Michaël Genin - CERIM / EA 2694 - michael.genin@univ-lille2.fr Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire) Contacter. Mme Bonneau Maison Régionale de la Recherche Clinique (MRRC). Tel : 03-20-44-55-18 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 66 / 66