Les statistiques dans la recherche médicale



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse de grandes bases de données en santé

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Logiciel XLSTAT version rue Damrémont PARIS

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

La classification automatique de données quantitatives

23. Interprétation clinique des mesures de l effet traitement

Principe d un test statistique

Aide-mémoire de statistique appliquée à la biologie

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Biostatistiques : Petits effectifs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

TABLE DES MATIERES. C Exercices complémentaires 42

Cycle de formation certifiante Sphinx

Études épidémiologiques analytiques et biais

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Introduction au datamining

PROGRAMME (Susceptible de modifications)

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

1 Complément sur la projection du nuage des individus

IBM SPSS Regression 21

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Introduction au Data-Mining

Introduction au Data-Mining

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

STATISTIQUES. UE Modélisation pour la biologie

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Item 169 : Évaluation thérapeutique et niveau de preuve

Introduction à l approche bootstrap

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident.

Table des matières. I Mise à niveau 11. Préface

Introduction. Préambule. Le contexte

Relation entre deux variables : estimation de la corrélation linéaire

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE

Introduction aux Statistiques et à l utilisation du logiciel R

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Lois de probabilité. Anita Burgun

données en connaissance et en actions?

Le risque Idiosyncrasique

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Prise en charge de l embolie pulmonaire

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Optimisation des ressources des produits automobile première

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 3. Les distributions à deux variables

Application des courbes ROC à l analyse des facteurs pronostiques binaires

L axe 5 du Cancéropole Nord Ouest

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

INF6304 Interfaces Intelligentes

MODELES DE DUREE DE VIE

Parcours du patient cardiaque

TSTI 2D CH X : Exemples de lois à densité 1

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Évaluations aléatoires : Comment tirer au sort?

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

La prise en charge de votre artérite des membres inférieurs

SAS ENTERPRISE MINER POUR L'ACTUAIRE

MABioVis. Bio-informatique et la

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

ntred 2007 Résultats de l étude Description des personnes diabétiques

REPOUSSER LES LIMITES DE LA CHIRURGIE BARIATRIQUE DANS LES OBESITES MASSIVES AVEC COMORBIDITES

Le traitement du paludisme d importation de l enfant est une urgence

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Annexe commune aux séries ES, L et S : boîtes et quantiles

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

La simulation probabiliste avec Excel

Que faire lorsqu on considère plusieurs variables en même temps?

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Télé-expertise et surveillance médicale à domicile au service de la médecine générale :

MINISTERE DE LA SANTE ET DES SOLIDARITES DIRECTION GENERALE DE LA SANTE- DDASS DE SEINE MARITIME

«Les lombalgies chroniques communes à la consultation de rhumatologie du CHU de Fès»

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

LES MODELES DE SCORE

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Enjeux mathématiques et Statistiques du Big Data

Terminale SMS - STL

FORMULAIRE DE STATISTIQUES

admission aux urgences

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

VI. Tests non paramétriques sur un échantillon

Transcription:

.. Les statistiques dans la recherche médicale Méthodes statistiques multivariées Michaël Genin, Alain Duhamel, Patrick Devos Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michael.genin@univ-lille2.fr

Plan. 1 Introduction. 2 Statistique descriptive multivariée. 3 Statistique inférentielle multivariée. 4 Approfondissements. 5 Contacts M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 1 / 66

Introduction Précédemment... Définition de la statistique, échantillonnage Principe du test statistique Nombre de sujets nécessaires Traitements statistiques Statistiques descriptives univariées Tests de comparaison de groupes usuels Aujourd hui : Analyses descriptives multivariées Analyses inférentielles multivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 3 / 66

Introduction Méthodes statistiques - principes générau Différents types de statistique Univariée (moyenne, DS, ) Descriptive Multivariée (ACP, ) La statistique Univariée (tests, ) Inférentielle Multivariée (modèles, ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 5 / 66

Introduction Méthodes statistiques - principes générau Différents types de variables Variables Quantitatives Variables quantitatives continues (âge, poids, taille,) Variables quantitatives discrètes (ne peuvent prendre qu un nombre limité de valeurs. e : nombre de personnes dans un foyer) Variables Qualitatives Variables qualitatives binaires (see : Masculin / Féminin) Variables qualitatives nominales (Couleurs des yeu : marrons, bleus, verts, gris) Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très bien, Ecellent) Toujours décrire les données avant de faire les analyses inférentielles (tests) Pour décrire les échantillons et vérifier leur représentativité mais aussi Pour le contrôle de qualité des données : individus aberrants, valeurs manquantes Pour choisir les tests adaptés au distributions ( lois ) des variables M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 6 / 66

Introduction Méthodes statistiques - principes générau Dans le cadre des méthodes statistiques inférentielles : Une variable est définie par son type (quantitative, qualitative) son statut (++) 2 statuts possibles : Variables eplicatives variables indépendantes, variables eogènes, prédicteurs... Variables dont on se sert pour epliquer le phénomène à ltude. Il sagit de la cause présumée. Variable à epliquer variable dépendante, variable endogène, critère de jugement... Variable dont on veut epliquer la variation dans une recherche M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 7 / 66

Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 1 Question d étude : les enfants ayant eu des affections chroniques décèdent-ils plus en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Qualitative binaire (oui/non) Critère de jugement Sortie de réanimation Décès (oui/non) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 8 / 66

Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 2 Question d étude : les enfants ayant eu des affections chroniques ont-ils une durée de séjour plus longue en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Quantiative Critère de jugement Sortie de réanimation Durée de séjour (j) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 9 / 66

Introduction Méthodes statistiques - principes générau Pour résumer Les méthodes statistiques à employer dépendent toujours du type des variables Pour les analyses descriptives, pas de statut On identifie le type de chaque variable Toutes les variables ont elles le même type, ou mélange? Pour les analyses inférentielles, au problème posé, on associe Des variables eplicatives Des variables à epliquer On détermine le type de chaque variable M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 10 / 66

Statistique descriptive multivariée Objectifs - Méthodes Objectifs principau : Vérifier la cohérence des données Contrôle des données Individus eceptionnels (en multivarié) Contrôle des données Etudier les liaisons (corrélations) entre p variables Formuler des hypothèses Eistence de profils dindividus différents (sur p variables = multivarié) Formuler des hypothèses Principales méthodes ACP : Analyse en Composantes Principales (variables uniquement quantitatives) ACM : Analyse des Correspondances Multiples (variables uniquement qualitatives) Analyse de classification (variables toutes quantitatives ou toutes qualitatives) Sauf cas très particuliers, on ne mélange jamais des variables numériques et qualitatives nominales (distance, ordre,... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 13 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Objectifs Les variables sont toutes quantitatives Les moyennes, variances, corrélations ont un sens Eaminer la structure des données Les individus se ressemblent tous? Sous groupes dindividus? Individus aberrants? Quelles sont les variables corrélées entre elles? interpréter facilement la matrice de corrélation(p variables, p (p + 1)/2 corrélations possibles!) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 15 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Si les données ne comportaient que 2 variables : une représentation graphique suffirait pour répondre au objectifs : X2 X2 X2 X1 X1 En général p variables : représentation impossible Obtenir des représentations approchées en dimension 2 X1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 16 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP p variables dimension p (R p ) Obtenir des représentation en dimension 2 les plus fiables possibles Critère : conservation de la variance =conservation de la distance entre les individus Construction de nouvelles variables C j qui maimisent la variance Contraintes de simplicité : combinaisons linéaires des variables initiales Géométriquement C 1 = A 1 1X 1 + A 1 2X 2 +... + A 1 px p X2 C X1 Si on considère la nouvelles variable C, l information est reconstituée de la manière la plus fiable possible au sens de la variance. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 17 / 66 X X C

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Première composante principale C 1 = combinaison linéaire des variables initiales qui maimise la variance Deuième composante principale : maimise la variance et est non-corrélée à la première composante (orthogonalité) Et ainsi de suite... Au plus p composantes principales En réalité, si liaisons entre les variables, lessentiel de linformation (la variance) est contenue dans les (2 ou 3) premières composantes principales M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 18 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Analyse des liaisons entre variables Matrice de corrélation p variables p(p + 1)/2 corrélations Liaison 2 à 2, pas de liaisons multivariées ACP : représentation des variables : cercle des corrélations (C 1 et C 2 sont les deu premières composantes principales) C2 X5 ρ(c2,x3) X2 X1 X4 X3 α ρ(c1,x3) C1 On peut alors montrer que si des variables sont proches de la circonférence alors le cosinus de l angle α est proche du coefficient de corrélation entre ces 2 variables. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 19 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : autre application L ACP est une procédure pour réduire la dimension Les composantes principales peuvent être utilisées comme des nouvelles variables (non-corrélées entre elles) résumant l information contenue dans les variables initiales. Application : Régression : Y = β 1 X 1 + β 0, il faut au moins 2 individus pour estimer la droite de régression. Si N < p + 1 échec des procédures de régression Solution : régression sur les premières composantes principales (E : bioinformatique) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 20 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Infarctus du myocarde Variables numériques : Fréquence cardiaque Inde cardiaque Inde systolique Pression diastolique Pression artérielle pulmonaire Pression ventriculaire Résistance pulmonaire Variable qualitative : décès Objectifs Vérifier la cohérence des données Individus eceptionnels (en multivarié) Eistence de profils dindividus différents (sur p variables = multivarié) Utilisation de la variable décès comme variable illustrative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 21 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 22 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus - Ajout d un variable illustrative (vers l inférentiel... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 23 / 66

Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Cercle des corrélations entre variables FRCAR INCAR PAPUL PRDIA INSYS REPUL Composante 1 PVENT Composante 2 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 24 / 66

Statistique descriptive multivariée Analyse des Correspondances Multiples Analyse des Correspondances Multiples (ACM) Méthode analogue à lacp mais pour les variables qualitatives Principalement utilisée pour lanalyse des questionnaires (Psychiatrie, ) Si variables binaires, équivalence entre les 2 procédures En ACP : variables numériques - liaisons = corrélations Cercle de corrélation, des proimités sinterprètent comme des corrélations En ACM : variables qualitatives - liaisons = chi-deu Représentation des variables : des proimités sinterprètent comme des liaisons au sens du chi-deu Composantes de lacm : combinaisons linéaires des modalités des variables initiales comme en ACP Peut être utilisée pour transformer des variables qualitatives en numériques pour dautres analyses eigeant des variables numériques (classification nuées dynamiques) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 26 / 66

Statistique descriptive multivariée Analyse de classification Objectifs - Méthodes Méthodes de classification = construire des groupes dindividus Les individus dun même groupe sont les plus ressemblants possible sur les variables selon une distance Les individus de groupes différents sont les plus dissemblables possible Applications : Étudier leistence de différents phénotypes dune maladie détection des individus aberrants ( contrôle des données), résumer un très gros fichier de données, bioinformatique, Permettent de prendre en compte des variables toutes numériques ou toutes qualitatives (distance euclidienne, distance du chi-deu, ) 2 grandes méthodes : la classification hiérarchique : partitions successives emboîtées les nuées dynamiques : recherche directe de partition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 28 / 66

Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Principe On agrège, de manière itérative, les individus (ou les classes) les plus ressemblants (es). On ne spécifie pas le nombre de classes (il faut le déterminer à partir du dendogramme = arbre) On choisit une distance appelée indice de similarité (ressemblance entre les individus) qui dépend de la nature des variables. Eemple : distance euclidienne Il faut se donner une formule de regroupement des classes M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 29 / 66

Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple Analyse Médico-économique : classification des hôpitau selon leur activité ETAB CMD1 CMD2 CMD3 CMD4 CMD5 CMD6 Arment 665 189 378 786 1002 1774 Cambrai 1217 47 509 892 890 1189 Denain 445 8 162 748 587 945 Douai 1966 60 686 1852 1480 1999 Dunkerq 1239 234 756 1464 1689 1532 GdSynthe 289 6 131 209 698 1179 Hazeb 125 13 110 157 147 441 ChuLILLE 10141 2667 3324 4233 10112 4822 COL 105 8 922 369 69 445 Maubeug 1183 14 463 983 1110 1570 Roubai 1678 319 1582 2158 2062 3240 Seclin 626 75 576 613 683 1661 StAntoi 871 70 1686 1210 39 2759 SPV 1658 61 216 1294 2970 2542 Tourcoing 1148 135 506 1184 1410 1848 Tessier 188 1 31 1218 1022 1086 Valenc 2570 502 1189 2170 3249 3286 Arras 1367 97 735 1418 1298 1578 Auchel 151 237 3 35 50 871 Bethune 1743 95 606 1892 1920 1486 Boulogne 1777 374 1425 1296 1857 2279 Bruay 24 1 25 780 338 31 Calais 1261 6 543 935 1083 1288 Fouquieres 59 0 37 17 162 1185 Henin 214 12 101 941 611 606 Lens 3485 480 114 3717 3389 3060 Montreuil 608 44 180 655 1045 1301 Oignies 96 1 6 14 150 516 StOmer 149 16 286 1087 1580 1058 Individus statistiques : hôpitau Variables : 23 CMD, numériques (%) CMD Libellé 1 AFFECTIONS DU SYSTEME NERVEUX 2 AFFECTIONS DE L'OEIL AFFECTIONS DES OREILLES, DU NEZ, 3 DE LA GORGE, DE LA BOUCHE ET DES DENTS 4 AFFECTIONS DE L'APPAREIL RESPIRATOIRE 5 AFFECTIONS DE L'APPAREIL CIRCULATOIRE 6 AFFECTIONS DU TUBE DIGESTIF Sur représentation des CMD 5 et 6 Première étape : normalisation des données par calcul des profils lignes (% d une CMD par rapport au total ligne) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 30 / 66

Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Dendrogramme) Fouquieres 24 Oignies 28 SPV 14 Tessier 16 Henin 25 Bruay 22 COL 9 StAntoi 13 Arment 1 Seclin 12 Denain 3 Hazeb 7 GdSynthe 6 Roubai 11 StOmer 29 Auchel 19 Tourcoing 15 Montreuil 27 Arras 18 Boulogne 21 Dunkerq 5 Valenc 17 Maubeug 10 Calais 23 Cambrai 2 Douai 4 Bethune 20 Lens 26 ChuLILLE 8 Petite Chirurgie Maternité Hôpital généraliste M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 31 / 66

Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Diagramme en radar) CMD1 CMD23 16.00 CMD2 CMD22 14.00 CMD3 CMD21 12.00 10.00 CMD4 C1 : Fouq, Oignies, SPV, Tessier, Henin, Bruay CMD20 8.00 CMD5 6.00 CMD19 4.00 CMD6 C2 : Arm, Seclin, Denain, Hazeb, GrdSynt, Roub, StOmer, Auchel 2.00 0.00 CMD18 CMD7 C3 : Tcg, Mont, Arras, Boul, Dunk, Valenc, Maub, Calais, Camb, Douai, Beth, Lens CMD17 CMD8 Total : Ensemble des Etablissements CMD16 CMD9 CMD15 CMD10 CMD14 CMD11 CMD13 CMD12 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 32 / 66

Statistique descriptive multivariée Analyse de classification Classification par nuées dynamiques Méthode de recherche directe de partition +++ Très efficace pour les grands fichiers de données Il faut spécifier le nombre de classes Lindice de similarité est la distance Euclidienne (variables numériques) Il faut que la moyenne ait un sens Il faut étudier la stabilité des résultats (formes fortes) car dépend des conditions initiales S3 * S3 S2 * * S1 S2 S1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 33 / 66

Statistique inférentielle multivariée Objectifs - Méthodes Objectifs en recherche médicale En recherche clinique et en épidémiologie : Recherche de facteurs de risque (DC, rechute) Construction de score de gravité, scores pronostiques Utilisées aussi pour ajuster les résultats de lanalyse du critère principal sur des variables de confusion Études comparatives non randomisées, études cas témoins M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 36 / 66

Statistique inférentielle multivariée Objectifs - Méthodes Principales méthodes Régression multiple Un critère numérique (variable à epliquer) Des variables eplicatives numériques ou binaires Analyse discriminante Un critère qualitatif (variable à epliquer) Des variables eplicatives numériques ou binaires Régression logistique Ajustement ou recherche de facteur de risque Un critère binaire Des variables eplicatives numériques ou binaires Mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps Analyses de survie (études pronostiques) Un événement qui peut se produire à un temps t Des variables eplicatives numériques ou binaires M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 37 / 66

Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe Généralisation de la corrélation et de la régression linéaire simple Lien entre une variable numérique et p variables numériques (ou binaires) Une variable à epliquer Y et p variables eplicatives X 1, X 2,..., X p Ajustement sur des facteurs de confusion : une variable eplicative principale Prédiction : prédire la valeur de Y à partir de X 1, X 2,..., X p Eemple (ajustement) : Lien entre nombre de décès par mélanome malin et latitude. Autres variables : proimité de la mer, longitude,... Lien entre BMI et classe sociale. Autres variables = activité physique, âge, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 39 / 66

Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe On suppose que la relation est linéaire : Y = β 0 + β 1 X 1 + β 2 X 2 +... + β p X p + ϵ ϵ erreur aléatoire (loi normale, moyenne nulle, variance fiée, indépendante des X j pour la validité des tests) Test global = corrélation multiple significative Permet ltude de la corrélation entre Y et X j en tenant compte des autres variables = corrélations partielles X1 Y X2 Attention analyse complète = tests de liaison + validité du modèle M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 40 / 66

Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Ajustement Publicité sur un produit amaigrissant (stimulant du métabolisme = dosestimul) Lien avec perte de poids (après avant)? Facteur de confusion (voire prépondérant!) = durée activité sportive (eercice) Corrélations bivariées puis régression multiple Pertepoids Corrélations Corrélation de Pearson Sig. (bilatérale) N dosestimul EXERCICE -.551** -.717**.005.000 24 24 **. La corrélation est significative au niveau 0.01 (bilatéral). Les deu corrélations linéaires simples sont significatives Coefficients a Coefficien ts Coefficients non standardi standardisés sés Erreur Modèle B standard Bêta t Signification 1 (constante) -1.221.959-1.273.217 dosestimul -8.69E-03.004 -.305-1.986.060 EXERCICE -.525.136 -.590-3.845.001 a. Variable dépendante : Pertepoids Régression linéaire multiple : seul eercice est significative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 41 / 66

Statistique inférentielle multivariée Analyse discriminante Principe de la discrimination en statistique On cherche à prédire une variable qualitative qui définit k groupes La variable qualitative est appelée variable à epliquer Eemple : différents diagnostics à partir de variables socio-démographiques et/ou cliniques ou et/ou biologiques On veut construire des règles à partir de ces variables qui permettent de classer les individus dans les groupes Aide à la décision : aide au diagnostic Eemple hors médecine : credit scoring M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 43 / 66

Statistique inférentielle multivariée Analyse discriminante Différentes méthodes de discrimination Différentes méthodes en fonction Du nombre de groupes à prédire (variable à epliquer) Du type des variables eplicatives (mélange de différents types ou non) Du nombre de variables eplicatives De la facilité dinterprétation souhaitée En médecine on utilise plus fréquemment Lanalyse factorielle discriminante (k groupes (k 3) variables eplicatives numériques ou binaires) La régression logistique (2 groupes variables numériques ou binaires) Les arbres de décision (k groupes (k 3), mélange de variables, adapté au grands échantillons) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 44 / 66

Statistique inférentielle multivariée Analyse discriminante Analyse Factorielle Discriminante (AFD) k (k 3) groupes, variables eplicatives numériques ou binaires Si variables qualitatives, les transformer en variables binaires La méthode identifie des nouvelles variables qui prédisent le mieu possible les groupes Ce sont les combinaisons linéaires des variables initiales Ce sont des scores comme ceu employés fréquemment en médecine Modèle facile à interpréter (eplicatif) on peut donner un sens clinique au scores discriminants On dispose de graphiques pour visualiser la qualité de la séparation des groupes par les scores M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 45 / 66

Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Septicémie : antibiothérapie durgence Peut-on prédire le type de germe à partir de données cliniques dentrée en attendant la bactériologie? Groupes bactérien de sensibilité voisine (GBSV : 11 groupes) Eemple pour les groupes Ampicilline sensible Salmonelle Bacille gramme négatif Construire un système daide à la décision pour prédire le type de GBSV et améliorer lantibiothérapie durgence 28 Variables cliniques binaires : acquisition hospitalière, portes dentrée, tumeur, chimiothérapie, choc, BPCO, syndrome dysentérique, méningite, endocardite, diabète, insuffisance rénale, antibio antérieure, pyélonéphrite, artérite, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 46 / 66

Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Analyse discriminante GBSV 4 ae2 3 2 1 0-8 -6-4 -2 0 2 4 6-1 -2-3 ae 1-4 -5-6 AMPI_S "Salmonelle" "BGN_Hospi" M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 47 / 66

Statistique inférentielle multivariée Régression logistique Régression logistique - Principe Méthode de discrimination particulière 2 groupes : eemple décès oui/non Score discriminant (comme AFD) + estimation de la probabilité dappartenir à lun des groupes Cette particularitépeut être très utile Score de mortalité probabilité de décès estimée Autre domaine : crédit scoring Autre avantage : les coefficients du score sont interprétables en terme de liaison avec la variable à epliquer (décès) Modèle logistique F (X ) fréquence dune maladie en fonction dune dose deposition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 49 / 66

Statistique inférentielle multivariée Régression logistique Régression logistique - Principales applications Discrimination (2 groupes) Construction de scores de risque (mortalité gravité) Pour servir de critères dajustement dans les essais Pour servir de critère de jugement Ajustement (épidémiologie) Analogue à lajustement par régression multiple mais ici la variable à epliquer est binaire M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 50 / 66

Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Le critère de jugement est binaire, mais il faut ajuster sur des covariables Eemple : obésité (oui/non) en fonction de la classe sociale High Medium Low p n (% ) 221 (25,4) 372 (42,8) 277 (31,3) age (sd) 40.5 1 (13.1) 40.0 1 (13.9) 44.3 2 (15,0) 0.0004 (++) Obesity% 3.7 10.5 11.9 p=0.004 (**) Lge est peut être un facteur de confusion : les sujets sont plus âgés chez Low et il eiste plus dobèses chez les sujets plus âgés (données non fournies) Ajuster : Obesite = f (classe sociale ET age) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 51 / 66

Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Obésité en fonction de la classe dge Low 11.9% ; Medium : 10.5% ; High : 3.7% (p=0.004 sans ajustement) Obésité en fonction de la classe sociale en ajustant sur lge Variables p OR 95% CI posocial 0.02 medium vs low 0.8295 1.057 0.63-1.76 high vs low 0.0068 0.33 0.15-0.74 age <.0001 1.044 1.03-1.06 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 52 / 66

Statistique inférentielle multivariée Mesures répétées Eemple fréquent en recherche clinique : les mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps On veut tester lvolution et non une valeur ponctuelle lvolution dans un groupe donné est-elle statistiquement significative? lvolution est-elle différente selon des groupes? Critère numérique : modèle linéaire mite Cas particulier : 2 mesures avant traitement / après traitement sur critère numérique : test de Student apparié Le modèle mite généralise ce test au cas de plus de 2 mesures Critère qualitatif : modèle linéaire mite généralisé Cas particulier : 2 mesures dun critère binaire avant traitement /après traitement sur critère binaire : Chi-deu de Mc Neymar M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 54 / 66

Statistique inférentielle multivariée Mesures répétées Critère numérique - méthodes statistiques adéquates : Tenir compte de la corrélation entre les mesures prises sur un même patient et modéliser cette corrélation V1 V2 V3 V4 V5 ρ(x 1, X 2 ) > ρ(x 1, X 5 ) Les visites sont à des temps fiés équidistants (V1=1 mois, V2=2mois, etc) ou non. Nombre de mesures différent selon les patients (valeurs manquantes) Sujets V1 V2 V3 1 2? 3? Les temps de mesure peuvent être différents pour tous les sujets : régression par rapport au temps. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 55 / 66

Statistique inférentielle multivariée Mesures répétées Le critère de jugement est lvolution dun paramètre numérique Eemple 2 méthodes de chirurgie coronarienne chez des patients diabétiques (groupes CPB et OP) Essai randomisé prospectif Critère principal : évolution de la microalbuminurie entre J1 et J5. Critère secondaire : clairance de la créatinine Diminution plus rapide de la microalbuminurie dans le groupe OP (p=0.003) Méthode moderne : tenir compte des corrélations entre les mesures, tenir compte de toutes les observations, tenir compte de possibles instants de mesure différents M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 56 / 66

Statistique inférentielle multivariée Analyse de survie Critère à analyser = apparition dun événement au cours du temps. Evénement = variable binaire. DC (O/N) mais aussi récidive (O/N), survie dune prothèse, dun greffon Études randomisées (critère DC) recherche de facteurs pronostiques 2 spécificités : prise en compte du temps (1) et des données censurées (2) (1) Prise en compte du temps (délai dapparition de lvénement) S(t) G2 G1 t 5 ans M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 58 / 66

Statistique inférentielle multivariée Analyse de survie (2) Prise en compte de toutes les observations : celles pour lesquelles lvénement est apparu ET celles pour lesquelles lvénement nest pas apparu Lvénement na pas encore été observé au moment de ltude (DC) Lvénement peut ne pas se produire pour certains individus Ces 2 types de données = donnée censurées. La méthode prend en compte ces observations dans les calculs Eemple : vaccin HB ; N=100 sur 1 an TP Temps 10HB, 10 perdus de vue % dhb à un an nest ni 10/100, ni 10/90 DO DP DDN TP Vivant Temps DO DDN DP M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 59 / 66

Statistique inférentielle multivariée Analyse de survie Applications % de survie 1 % de survie 1 Groupe 2 temps Groupe 1 temps Analyse descriptive = courbes de survie Analyses comparatives = comparaisons de courbes de survie Etude de facteurs pronostiques (étude multifactorielles) Construction de modèles prédictifs M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 60 / 66

Statistique inférentielle multivariée Analyse de survie Méthode de Kaplan Meier une seule population ou k populations définies selon une seule variable qualitative Estimation de la courbe de survie Comparaison par test du Log-Rank Si plusieurs variables à prendre en compte : Il faut choisir un modèle (comme en régression) Méthode la plus utilisée : modèle de COX h(t) = h 0 (t) ep(a1x 1 +... aj X j +... + apx p ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 61 / 66

Statistique inférentielle multivariée Analyse de survie Eemple : Construction dun score pronostique dans la maladie de Waldenström (Blood 2009) (p= 0 ) Proportion surviving 0.0 0.2 0.4 0.6 0.8 1.0 Proportion surviving 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 Survival Time in Years 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Survival Time in Years Low 155 151 133 110 96 86 63 50 43 32 25 Int 216 193 173 142 125 105 78 49 31 22 13 High 203 170 135 95 72 48 31 20 8 6 2 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 62 / 66

Approfondissements Approfondissements : M2 parcours E Journée thématique Modèles de régression Modèle linéaire et analyse de la variance Analyse des mesures répétées : modèle linéaire mite Journée thématique Analyses de survie Analyses multivariées par le Modèle de Co Validité du modèle : Analyse des résidus Plusieurs évènements par sujet Journée thématique Méthode fouille de données Méthodologie danalyse des grandes bases de données en santé Arbres de décision Classifications Gestion des données manquantes dans les analyses mutlivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 64 / 66

Contacts Des questions?. Alain Duhamel - MRRC - aduhamel@univ-lille2.fr Patrick Devos - Délégation à la Recherche - pdevos@univ-lille2.fr Julien Labreuche - MRRC - julien.labreuche@chru-lille.fr. Michaël Genin - CERIM / EA 2694 - michael.genin@univ-lille2.fr Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire) Contacter. Mme Bonneau Maison Régionale de la Recherche Clinique (MRRC). Tel : 03-20-44-55-18 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 66 / 66