Les statistiques dans la recherche médicale

Dimension: px
Commencer à balayer dès la page:

Download "Les statistiques dans la recherche médicale"

Transcription

1 .. Les statistiques dans la recherche médicale Méthodes statistiques multivariées Michaël Genin, Alain Duhamel, Patrick Devos Université de Lille 2 EA Santé Publique : Epidémiologie et Qualité des soins michael.genin@univ-lille2.fr

2 Plan. 1 Introduction. 2 Statistique descriptive multivariée. 3 Statistique inférentielle multivariée. 4 Approfondissements. 5 Contacts M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 1 / 66

3 Introduction Précédemment... Définition de la statistique, échantillonnage Principe du test statistique Nombre de sujets nécessaires Traitements statistiques Statistiques descriptives univariées Tests de comparaison de groupes usuels Aujourd hui : Analyses descriptives multivariées Analyses inférentielles multivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 3 / 66

4 Introduction Méthodes statistiques - principes générau Différents types de statistique Univariée (moyenne, DS, ) Descriptive Multivariée (ACP, ) La statistique Univariée (tests, ) Inférentielle Multivariée (modèles, ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 5 / 66

5 Introduction Méthodes statistiques - principes générau Différents types de variables Variables Quantitatives Variables quantitatives continues (âge, poids, taille,) Variables quantitatives discrètes (ne peuvent prendre qu un nombre limité de valeurs. e : nombre de personnes dans un foyer) Variables Qualitatives Variables qualitatives binaires (see : Masculin / Féminin) Variables qualitatives nominales (Couleurs des yeu : marrons, bleus, verts, gris) Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très bien, Ecellent) Toujours décrire les données avant de faire les analyses inférentielles (tests) Pour décrire les échantillons et vérifier leur représentativité mais aussi Pour le contrôle de qualité des données : individus aberrants, valeurs manquantes Pour choisir les tests adaptés au distributions ( lois ) des variables M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 6 / 66

6 Introduction Méthodes statistiques - principes générau Dans le cadre des méthodes statistiques inférentielles : Une variable est définie par son type (quantitative, qualitative) son statut (++) 2 statuts possibles : Variables eplicatives variables indépendantes, variables eogènes, prédicteurs... Variables dont on se sert pour epliquer le phénomène à ltude. Il sagit de la cause présumée. Variable à epliquer variable dépendante, variable endogène, critère de jugement... Variable dont on veut epliquer la variation dans une recherche M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 7 / 66

7 Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 1 Question d étude : les enfants ayant eu des affections chroniques décèdent-ils plus en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Qualitative binaire (oui/non) Critère de jugement Sortie de réanimation Décès (oui/non) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 8 / 66

8 Introduction Méthodes statistiques - principes générau Statut des variables - Eemple 2 Question d étude : les enfants ayant eu des affections chroniques ont-ils une durée de séjour plus longue en réanimation? Statut : Variables eplicatives Admission et pendant séjour surpoids : poids (Kg) Inde cardiaque : petit, moyen, gd Immunodépression : oui/non... Statut : Variable à epliquer Quantiative Critère de jugement Sortie de réanimation Durée de séjour (j) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 9 / 66

9 Introduction Méthodes statistiques - principes générau Pour résumer Les méthodes statistiques à employer dépendent toujours du type des variables Pour les analyses descriptives, pas de statut On identifie le type de chaque variable Toutes les variables ont elles le même type, ou mélange? Pour les analyses inférentielles, au problème posé, on associe Des variables eplicatives Des variables à epliquer On détermine le type de chaque variable M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 10 / 66

10 Statistique descriptive multivariée Objectifs - Méthodes Objectifs principau : Vérifier la cohérence des données Contrôle des données Individus eceptionnels (en multivarié) Contrôle des données Etudier les liaisons (corrélations) entre p variables Formuler des hypothèses Eistence de profils dindividus différents (sur p variables = multivarié) Formuler des hypothèses Principales méthodes ACP : Analyse en Composantes Principales (variables uniquement quantitatives) ACM : Analyse des Correspondances Multiples (variables uniquement qualitatives) Analyse de classification (variables toutes quantitatives ou toutes qualitatives) Sauf cas très particuliers, on ne mélange jamais des variables numériques et qualitatives nominales (distance, ordre,... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 13 / 66

11 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Objectifs Les variables sont toutes quantitatives Les moyennes, variances, corrélations ont un sens Eaminer la structure des données Les individus se ressemblent tous? Sous groupes dindividus? Individus aberrants? Quelles sont les variables corrélées entre elles? interpréter facilement la matrice de corrélation(p variables, p (p + 1)/2 corrélations possibles!) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 15 / 66

12 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Si les données ne comportaient que 2 variables : une représentation graphique suffirait pour répondre au objectifs : X2 X2 X2 X1 X1 En général p variables : représentation impossible Obtenir des représentations approchées en dimension 2 X1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 16 / 66

13 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP p variables dimension p (R p ) Obtenir des représentation en dimension 2 les plus fiables possibles Critère : conservation de la variance =conservation de la distance entre les individus Construction de nouvelles variables C j qui maimisent la variance Contraintes de simplicité : combinaisons linéaires des variables initiales Géométriquement C 1 = A 1 1X 1 + A 1 2X A 1 px p X2 C X1 Si on considère la nouvelles variable C, l information est reconstituée de la manière la plus fiable possible au sens de la variance. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 17 / 66 X X C

14 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Première composante principale C 1 = combinaison linéaire des variables initiales qui maimise la variance Deuième composante principale : maimise la variance et est non-corrélée à la première composante (orthogonalité) Et ainsi de suite... Au plus p composantes principales En réalité, si liaisons entre les variables, lessentiel de linformation (la variance) est contenue dans les (2 ou 3) premières composantes principales M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 18 / 66

15 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) Principe de l ACP Analyse des liaisons entre variables Matrice de corrélation p variables p(p + 1)/2 corrélations Liaison 2 à 2, pas de liaisons multivariées ACP : représentation des variables : cercle des corrélations (C 1 et C 2 sont les deu premières composantes principales) C2 X5 ρ(c2,x3) X2 X1 X4 X3 α ρ(c1,x3) C1 On peut alors montrer que si des variables sont proches de la circonférence alors le cosinus de l angle α est proche du coefficient de corrélation entre ces 2 variables. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 19 / 66

16 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : autre application L ACP est une procédure pour réduire la dimension Les composantes principales peuvent être utilisées comme des nouvelles variables (non-corrélées entre elles) résumant l information contenue dans les variables initiales. Application : Régression : Y = β 1 X 1 + β 0, il faut au moins 2 individus pour estimer la droite de régression. Si N < p + 1 échec des procédures de régression Solution : régression sur les premières composantes principales (E : bioinformatique) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 20 / 66

17 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Infarctus du myocarde Variables numériques : Fréquence cardiaque Inde cardiaque Inde systolique Pression diastolique Pression artérielle pulmonaire Pression ventriculaire Résistance pulmonaire Variable qualitative : décès Objectifs Vérifier la cohérence des données Individus eceptionnels (en multivarié) Eistence de profils dindividus différents (sur p variables = multivarié) Utilisation de la variable décès comme variable illustrative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 21 / 66

18 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 22 / 66

19 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Nuage des individus - Ajout d un variable illustrative (vers l inférentiel... ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 23 / 66

20 Statistique descriptive multivariée Analyse en Composantes Principales (ACP) ACP : Eemple Cercle des corrélations entre variables FRCAR INCAR PAPUL PRDIA INSYS REPUL Composante 1 PVENT Composante 2 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 24 / 66

21 Statistique descriptive multivariée Analyse des Correspondances Multiples Analyse des Correspondances Multiples (ACM) Méthode analogue à lacp mais pour les variables qualitatives Principalement utilisée pour lanalyse des questionnaires (Psychiatrie, ) Si variables binaires, équivalence entre les 2 procédures En ACP : variables numériques - liaisons = corrélations Cercle de corrélation, des proimités sinterprètent comme des corrélations En ACM : variables qualitatives - liaisons = chi-deu Représentation des variables : des proimités sinterprètent comme des liaisons au sens du chi-deu Composantes de lacm : combinaisons linéaires des modalités des variables initiales comme en ACP Peut être utilisée pour transformer des variables qualitatives en numériques pour dautres analyses eigeant des variables numériques (classification nuées dynamiques) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 26 / 66

22 Statistique descriptive multivariée Analyse de classification Objectifs - Méthodes Méthodes de classification = construire des groupes dindividus Les individus dun même groupe sont les plus ressemblants possible sur les variables selon une distance Les individus de groupes différents sont les plus dissemblables possible Applications : Étudier leistence de différents phénotypes dune maladie détection des individus aberrants ( contrôle des données), résumer un très gros fichier de données, bioinformatique, Permettent de prendre en compte des variables toutes numériques ou toutes qualitatives (distance euclidienne, distance du chi-deu, ) 2 grandes méthodes : la classification hiérarchique : partitions successives emboîtées les nuées dynamiques : recherche directe de partition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 28 / 66

23 Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Principe On agrège, de manière itérative, les individus (ou les classes) les plus ressemblants (es). On ne spécifie pas le nombre de classes (il faut le déterminer à partir du dendogramme = arbre) On choisit une distance appelée indice de similarité (ressemblance entre les individus) qui dépend de la nature des variables. Eemple : distance euclidienne Il faut se donner une formule de regroupement des classes M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 29 / 66

24 Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple Analyse Médico-économique : classification des hôpitau selon leur activité ETAB CMD1 CMD2 CMD3 CMD4 CMD5 CMD6 Arment Cambrai Denain Douai Dunkerq GdSynthe Hazeb ChuLILLE COL Maubeug Roubai Seclin StAntoi SPV Tourcoing Tessier Valenc Arras Auchel Bethune Boulogne Bruay Calais Fouquieres Henin Lens Montreuil Oignies StOmer Individus statistiques : hôpitau Variables : 23 CMD, numériques (%) CMD Libellé 1 AFFECTIONS DU SYSTEME NERVEUX 2 AFFECTIONS DE L'OEIL AFFECTIONS DES OREILLES, DU NEZ, 3 DE LA GORGE, DE LA BOUCHE ET DES DENTS 4 AFFECTIONS DE L'APPAREIL RESPIRATOIRE 5 AFFECTIONS DE L'APPAREIL CIRCULATOIRE 6 AFFECTIONS DU TUBE DIGESTIF Sur représentation des CMD 5 et 6 Première étape : normalisation des données par calcul des profils lignes (% d une CMD par rapport au total ligne) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 30 / 66

25 Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Dendrogramme) Fouquieres 24 Oignies 28 SPV 14 Tessier 16 Henin 25 Bruay 22 COL 9 StAntoi 13 Arment 1 Seclin 12 Denain 3 Hazeb 7 GdSynthe 6 Roubai 11 StOmer 29 Auchel 19 Tourcoing 15 Montreuil 27 Arras 18 Boulogne 21 Dunkerq 5 Valenc 17 Maubeug 10 Calais 23 Cambrai 2 Douai 4 Bethune 20 Lens 26 ChuLILLE 8 Petite Chirurgie Maternité Hôpital généraliste M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 31 / 66

26 Statistique descriptive multivariée Analyse de classification Classification hiérarchique - Eemple (Diagramme en radar) CMD1 CMD CMD2 CMD CMD3 CMD CMD4 C1 : Fouq, Oignies, SPV, Tessier, Henin, Bruay CMD CMD CMD CMD6 C2 : Arm, Seclin, Denain, Hazeb, GrdSynt, Roub, StOmer, Auchel CMD18 CMD7 C3 : Tcg, Mont, Arras, Boul, Dunk, Valenc, Maub, Calais, Camb, Douai, Beth, Lens CMD17 CMD8 Total : Ensemble des Etablissements CMD16 CMD9 CMD15 CMD10 CMD14 CMD11 CMD13 CMD12 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 32 / 66

27 Statistique descriptive multivariée Analyse de classification Classification par nuées dynamiques Méthode de recherche directe de partition +++ Très efficace pour les grands fichiers de données Il faut spécifier le nombre de classes Lindice de similarité est la distance Euclidienne (variables numériques) Il faut que la moyenne ait un sens Il faut étudier la stabilité des résultats (formes fortes) car dépend des conditions initiales S3 * S3 S2 * * S1 S2 S1 M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 33 / 66

28 Statistique inférentielle multivariée Objectifs - Méthodes Objectifs en recherche médicale En recherche clinique et en épidémiologie : Recherche de facteurs de risque (DC, rechute) Construction de score de gravité, scores pronostiques Utilisées aussi pour ajuster les résultats de lanalyse du critère principal sur des variables de confusion Études comparatives non randomisées, études cas témoins M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 36 / 66

29 Statistique inférentielle multivariée Objectifs - Méthodes Principales méthodes Régression multiple Un critère numérique (variable à epliquer) Des variables eplicatives numériques ou binaires Analyse discriminante Un critère qualitatif (variable à epliquer) Des variables eplicatives numériques ou binaires Régression logistique Ajustement ou recherche de facteur de risque Un critère binaire Des variables eplicatives numériques ou binaires Mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps Analyses de survie (études pronostiques) Un événement qui peut se produire à un temps t Des variables eplicatives numériques ou binaires M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 37 / 66

30 Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe Généralisation de la corrélation et de la régression linéaire simple Lien entre une variable numérique et p variables numériques (ou binaires) Une variable à epliquer Y et p variables eplicatives X 1, X 2,..., X p Ajustement sur des facteurs de confusion : une variable eplicative principale Prédiction : prédire la valeur de Y à partir de X 1, X 2,..., X p Eemple (ajustement) : Lien entre nombre de décès par mélanome malin et latitude. Autres variables : proimité de la mer, longitude,... Lien entre BMI et classe sociale. Autres variables = activité physique, âge, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 39 / 66

31 Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Principe On suppose que la relation est linéaire : Y = β 0 + β 1 X 1 + β 2 X β p X p + ϵ ϵ erreur aléatoire (loi normale, moyenne nulle, variance fiée, indépendante des X j pour la validité des tests) Test global = corrélation multiple significative Permet ltude de la corrélation entre Y et X j en tenant compte des autres variables = corrélations partielles X1 Y X2 Attention analyse complète = tests de liaison + validité du modèle M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 40 / 66

32 Statistique inférentielle multivariée Régression linéaire multiple Régression linéaire multiple - Ajustement Publicité sur un produit amaigrissant (stimulant du métabolisme = dosestimul) Lien avec perte de poids (après avant)? Facteur de confusion (voire prépondérant!) = durée activité sportive (eercice) Corrélations bivariées puis régression multiple Pertepoids Corrélations Corrélation de Pearson Sig. (bilatérale) N dosestimul EXERCICE -.551** -.717** **. La corrélation est significative au niveau 0.01 (bilatéral). Les deu corrélations linéaires simples sont significatives Coefficients a Coefficien ts Coefficients non standardi standardisés sés Erreur Modèle B standard Bêta t Signification 1 (constante) dosestimul -8.69E EXERCICE a. Variable dépendante : Pertepoids Régression linéaire multiple : seul eercice est significative M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 41 / 66

33 Statistique inférentielle multivariée Analyse discriminante Principe de la discrimination en statistique On cherche à prédire une variable qualitative qui définit k groupes La variable qualitative est appelée variable à epliquer Eemple : différents diagnostics à partir de variables socio-démographiques et/ou cliniques ou et/ou biologiques On veut construire des règles à partir de ces variables qui permettent de classer les individus dans les groupes Aide à la décision : aide au diagnostic Eemple hors médecine : credit scoring M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 43 / 66

34 Statistique inférentielle multivariée Analyse discriminante Différentes méthodes de discrimination Différentes méthodes en fonction Du nombre de groupes à prédire (variable à epliquer) Du type des variables eplicatives (mélange de différents types ou non) Du nombre de variables eplicatives De la facilité dinterprétation souhaitée En médecine on utilise plus fréquemment Lanalyse factorielle discriminante (k groupes (k 3) variables eplicatives numériques ou binaires) La régression logistique (2 groupes variables numériques ou binaires) Les arbres de décision (k groupes (k 3), mélange de variables, adapté au grands échantillons) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 44 / 66

35 Statistique inférentielle multivariée Analyse discriminante Analyse Factorielle Discriminante (AFD) k (k 3) groupes, variables eplicatives numériques ou binaires Si variables qualitatives, les transformer en variables binaires La méthode identifie des nouvelles variables qui prédisent le mieu possible les groupes Ce sont les combinaisons linéaires des variables initiales Ce sont des scores comme ceu employés fréquemment en médecine Modèle facile à interpréter (eplicatif) on peut donner un sens clinique au scores discriminants On dispose de graphiques pour visualiser la qualité de la séparation des groupes par les scores M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 45 / 66

36 Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Septicémie : antibiothérapie durgence Peut-on prédire le type de germe à partir de données cliniques dentrée en attendant la bactériologie? Groupes bactérien de sensibilité voisine (GBSV : 11 groupes) Eemple pour les groupes Ampicilline sensible Salmonelle Bacille gramme négatif Construire un système daide à la décision pour prédire le type de GBSV et améliorer lantibiothérapie durgence 28 Variables cliniques binaires : acquisition hospitalière, portes dentrée, tumeur, chimiothérapie, choc, BPCO, syndrome dysentérique, méningite, endocardite, diabète, insuffisance rénale, antibio antérieure, pyélonéphrite, artérite, M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 46 / 66

37 Statistique inférentielle multivariée Analyse discriminante AFD - Eemple Analyse discriminante GBSV 4 ae ae AMPI_S "Salmonelle" "BGN_Hospi" M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 47 / 66

38 Statistique inférentielle multivariée Régression logistique Régression logistique - Principe Méthode de discrimination particulière 2 groupes : eemple décès oui/non Score discriminant (comme AFD) + estimation de la probabilité dappartenir à lun des groupes Cette particularitépeut être très utile Score de mortalité probabilité de décès estimée Autre domaine : crédit scoring Autre avantage : les coefficients du score sont interprétables en terme de liaison avec la variable à epliquer (décès) Modèle logistique F (X ) fréquence dune maladie en fonction dune dose deposition M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 49 / 66

39 Statistique inférentielle multivariée Régression logistique Régression logistique - Principales applications Discrimination (2 groupes) Construction de scores de risque (mortalité gravité) Pour servir de critères dajustement dans les essais Pour servir de critère de jugement Ajustement (épidémiologie) Analogue à lajustement par régression multiple mais ici la variable à epliquer est binaire M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 50 / 66

40 Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Le critère de jugement est binaire, mais il faut ajuster sur des covariables Eemple : obésité (oui/non) en fonction de la classe sociale High Medium Low p n (% ) 221 (25,4) 372 (42,8) 277 (31,3) age (sd) (13.1) (13.9) (15,0) (++) Obesity% p=0.004 (**) Lge est peut être un facteur de confusion : les sujets sont plus âgés chez Low et il eiste plus dobèses chez les sujets plus âgés (données non fournies) Ajuster : Obesite = f (classe sociale ET age) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 51 / 66

41 Statistique inférentielle multivariée Régression logistique Régression logistique - Eemple d ajustement Obésité en fonction de la classe dge Low 11.9% ; Medium : 10.5% ; High : 3.7% (p=0.004 sans ajustement) Obésité en fonction de la classe sociale en ajustant sur lge Variables p OR 95% CI posocial 0.02 medium vs low high vs low age < M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 52 / 66

42 Statistique inférentielle multivariée Mesures répétées Eemple fréquent en recherche clinique : les mesures répétées les valeurs dun critère (principal ou secondaire) sont relevées à différents temps On veut tester lvolution et non une valeur ponctuelle lvolution dans un groupe donné est-elle statistiquement significative? lvolution est-elle différente selon des groupes? Critère numérique : modèle linéaire mite Cas particulier : 2 mesures avant traitement / après traitement sur critère numérique : test de Student apparié Le modèle mite généralise ce test au cas de plus de 2 mesures Critère qualitatif : modèle linéaire mite généralisé Cas particulier : 2 mesures dun critère binaire avant traitement /après traitement sur critère binaire : Chi-deu de Mc Neymar M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 54 / 66

43 Statistique inférentielle multivariée Mesures répétées Critère numérique - méthodes statistiques adéquates : Tenir compte de la corrélation entre les mesures prises sur un même patient et modéliser cette corrélation V1 V2 V3 V4 V5 ρ(x 1, X 2 ) > ρ(x 1, X 5 ) Les visites sont à des temps fiés équidistants (V1=1 mois, V2=2mois, etc) ou non. Nombre de mesures différent selon les patients (valeurs manquantes) Sujets V1 V2 V3 1 2? 3? Les temps de mesure peuvent être différents pour tous les sujets : régression par rapport au temps. M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 55 / 66

44 Statistique inférentielle multivariée Mesures répétées Le critère de jugement est lvolution dun paramètre numérique Eemple 2 méthodes de chirurgie coronarienne chez des patients diabétiques (groupes CPB et OP) Essai randomisé prospectif Critère principal : évolution de la microalbuminurie entre J1 et J5. Critère secondaire : clairance de la créatinine Diminution plus rapide de la microalbuminurie dans le groupe OP (p=0.003) Méthode moderne : tenir compte des corrélations entre les mesures, tenir compte de toutes les observations, tenir compte de possibles instants de mesure différents M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 56 / 66

45 Statistique inférentielle multivariée Analyse de survie Critère à analyser = apparition dun événement au cours du temps. Evénement = variable binaire. DC (O/N) mais aussi récidive (O/N), survie dune prothèse, dun greffon Études randomisées (critère DC) recherche de facteurs pronostiques 2 spécificités : prise en compte du temps (1) et des données censurées (2) (1) Prise en compte du temps (délai dapparition de lvénement) S(t) G2 G1 t 5 ans M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 58 / 66

46 Statistique inférentielle multivariée Analyse de survie (2) Prise en compte de toutes les observations : celles pour lesquelles lvénement est apparu ET celles pour lesquelles lvénement nest pas apparu Lvénement na pas encore été observé au moment de ltude (DC) Lvénement peut ne pas se produire pour certains individus Ces 2 types de données = donnée censurées. La méthode prend en compte ces observations dans les calculs Eemple : vaccin HB ; N=100 sur 1 an TP Temps 10HB, 10 perdus de vue % dhb à un an nest ni 10/100, ni 10/90 DO DP DDN TP Vivant Temps DO DDN DP M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 59 / 66

47 Statistique inférentielle multivariée Analyse de survie Applications % de survie 1 % de survie 1 Groupe 2 temps Groupe 1 temps Analyse descriptive = courbes de survie Analyses comparatives = comparaisons de courbes de survie Etude de facteurs pronostiques (étude multifactorielles) Construction de modèles prédictifs M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 60 / 66

48 Statistique inférentielle multivariée Analyse de survie Méthode de Kaplan Meier une seule population ou k populations définies selon une seule variable qualitative Estimation de la courbe de survie Comparaison par test du Log-Rank Si plusieurs variables à prendre en compte : Il faut choisir un modèle (comme en régression) Méthode la plus utilisée : modèle de COX h(t) = h 0 (t) ep(a1x aj X j apx p ) M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 61 / 66

49 Statistique inférentielle multivariée Analyse de survie Eemple : Construction dun score pronostique dans la maladie de Waldenström (Blood 2009) (p= 0 ) Proportion surviving Proportion surviving Survival Time in Years Survival Time in Years Low Int High M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 62 / 66

50 Approfondissements Approfondissements : M2 parcours E Journée thématique Modèles de régression Modèle linéaire et analyse de la variance Analyse des mesures répétées : modèle linéaire mite Journée thématique Analyses de survie Analyses multivariées par le Modèle de Co Validité du modèle : Analyse des résidus Plusieurs évènements par sujet Journée thématique Méthode fouille de données Méthodologie danalyse des grandes bases de données en santé Arbres de décision Classifications Gestion des données manquantes dans les analyses mutlivariées M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 64 / 66

51 Contacts Des questions?. Alain Duhamel - MRRC - aduhamel@univ-lille2.fr Patrick Devos - Délégation à la Recherche - pdevos@univ-lille2.fr Julien Labreuche - MRRC - julien.labreuche@chru-lille.fr. Michaël Genin - CERIM / EA michael.genin@univ-lille2.fr Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire) Contacter. Mme Bonneau Maison Régionale de la Recherche Clinique (MRRC). Tel : M.Genin, A.Duhamel, P. Devos (Université de Lille 2) Les statistiques dans la recherche médicale Master Biologie et Santé 66 / 66

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Cycle de formation certifiante Sphinx

Cycle de formation certifiante Sphinx Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives

Plus en détail

Études épidémiologiques analytiques et biais

Études épidémiologiques analytiques et biais Master 1 «Conception, évaluation et gestion des essais thérapeutiques» Études épidémiologiques analytiques et biais Roxane Schaub Médecin de santé publique Octobre 2013 1 Objectifs pédagogiques Connaitre

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement DIU HTA François Gueyffier Service de pharmacologie clinique UMR CNRS 5558 CIC 201, LYON francois.gueyffier@chu-lyon.fr

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version

Plus en détail

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident.

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident. Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident. Avant-propos L étude belge sur le stress au Travail, en abrégé BELSTRESS est une étude multidisciplinaire et longitudinale

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE PRISE EN CHARGE SYSTÉMATISÉE DES PERSONNES ATTEINTES D HYPERTENSION ARTÉRIELLE SOCIÉTÉ QUÉBÉCOISE D HYPERTENSION ARTÉRIELLE 23 ÉVALUATION DE

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Prise en charge de l embolie pulmonaire

Prise en charge de l embolie pulmonaire Prise en charge de l embolie pulmonaire Dr Serge Motte Liège 06.12.14 - Laack TA et Goyal DG, Emerg Med Clin N Am 2004; 961-983 2 PLAN Diagnostic Prise en charge: Phase aiguë: analyse de gravité Choix

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Application des courbes ROC à l analyse des facteurs pronostiques binaires

Application des courbes ROC à l analyse des facteurs pronostiques binaires Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre

Plus en détail

L axe 5 du Cancéropole Nord Ouest

L axe 5 du Cancéropole Nord Ouest L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

MODELES DE DUREE DE VIE

MODELES DE DUREE DE VIE MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions

Plus en détail

Parcours du patient cardiaque

Parcours du patient cardiaque Parcours du patient cardiaque Une analyse HAS à partir de la base QualHAS, des Indicateurs Pour l Amélioration de la Qualité & Sécurité des Soins (IPAQSS)- Infarctus du myocarde Linda Banaei-Bouchareb,

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU) 0 leçon 2 Leçon n 2 : Contact entre deu solides Frottement de glissement Eemples (PC ou er CU) Introduction Contact entre deu solides Liaisons de contact 2 Contact ponctuel 2 Frottement de glissement 2

Plus en détail

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente

Plus en détail

Évaluations aléatoires : Comment tirer au sort?

Évaluations aléatoires : Comment tirer au sort? Évaluations aléatoires : Comment tirer au sort? William Parienté Université Catholique de Louvain J-PAL Europe povertyactionlab.org Plan de la semaine 1. Pourquoi évaluer? 2. Comment mesurer l impact?

Plus en détail

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie Le quizz des stats Xavier Paoletti Sce de biostatistiques / Inserm U900 Institut Curie Qques questions pour entamer les hostilités 1. Description de la population Pourquoi parler d'âge médian et non moyen?

Plus en détail

La prise en charge de votre artérite des membres inférieurs

La prise en charge de votre artérite des membres inférieurs G U I D E - A F F E C T I O N D E L O N G U E D U R É E La prise en charge de votre artérite des membres inférieurs Vivre avec une artérite des membres inférieurs Novembre 2007 Pourquoi ce guide? Votre

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

ntred 2007 Résultats de l étude Description des personnes diabétiques

ntred 2007 Résultats de l étude Description des personnes diabétiques Résultats de l étude ntred 2007 EÉCHANTILLON NATIONAL TÉMOIN REPRÉSENTATIF DES PERSONNES DIABÉTIQUES Le diabète est une maladie chronique de plus en plus fréquente, qui touche en France plus de 2 millions

Plus en détail

REPOUSSER LES LIMITES DE LA CHIRURGIE BARIATRIQUE DANS LES OBESITES MASSIVES AVEC COMORBIDITES

REPOUSSER LES LIMITES DE LA CHIRURGIE BARIATRIQUE DANS LES OBESITES MASSIVES AVEC COMORBIDITES Première Journée du Centre Intégré Nord Francilien de prise en charge de l obésité de l adulte et de l enfant REPOUSSER LES LIMITES DE LA CHIRURGIE BARIATRIQUE DANS LES OBESITES MASSIVES AVEC COMORBIDITES

Plus en détail

Le traitement du paludisme d importation de l enfant est une urgence

Le traitement du paludisme d importation de l enfant est une urgence Le traitement du paludisme d importation de l enfant est une urgence Dominique GENDREL Necker-Enfants Malades Traiter en urgence en présence de trophozoïtes Plus de 80% des paludismes d importation en

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

La simulation probabiliste avec Excel

La simulation probabiliste avec Excel La simulation probabiliste avec Ecel (2 e version) Emmanuel Grenier emmanuel.grenier@isab.fr Relu par Kathy Chapelain et Henry P. Aubert Incontournable lorsqu il s agit de gérer des phénomènes aléatoires

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

Télé-expertise et surveillance médicale à domicile au service de la médecine générale :

Télé-expertise et surveillance médicale à domicile au service de la médecine générale : Télé-expertise et surveillance médicale à domicile au service de la médecine générale : Docteur DARY Patrick, Cardiologue, Praticien Hospitalier Centre Hospitalier de St YRIEIX - Haute Vienne 87500 Situé

Plus en détail

MINISTERE DE LA SANTE ET DES SOLIDARITES DIRECTION GENERALE DE LA SANTE- DDASS DE SEINE MARITIME

MINISTERE DE LA SANTE ET DES SOLIDARITES DIRECTION GENERALE DE LA SANTE- DDASS DE SEINE MARITIME Département des situations d urgence sanitaire Personne chargée du dossier : Evelyne FALIP/Nicole BOHIC Tél : 01 40 56 59 65/02 32 18 31 66 evelyne.falip@sante.gouv.fr MINISTERE DE LA SANTE ET DES SOLIDARITES

Plus en détail

«Les lombalgies chroniques communes à la consultation de rhumatologie du CHU de Fès»

«Les lombalgies chroniques communes à la consultation de rhumatologie du CHU de Fès» 2006-2007 Premier Prix : «La voie d abord postérieure mini-invasive modifiée de la hanche» Dr. Chbani Idrissi Badr Deuxième Prix «Éradication de l helicobacter pylori: quelle trithérapie en première intention?»

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86 LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : ÉTABLISSEMENT DE LIENS ENTRE LES PERSONNES CHEZ QUI UN DIAGNOSTIC D INFECTION À VIH A ÉTÉ POSÉ ET LES SERVICES DE SOINS ET DE TRAITEMENT

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR CLIMAT - PRODIGE 30 Etude de phase III randomisée évaluant l Intérêt de la colectomie première chez les patients porteurs d un cancer colique asymptomatique avec métastases hépatiques synchrones non résécables

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Terminale SMS - STL 2007-2008

Terminale SMS - STL 2007-2008 Terminale SMS - STL 007-008 Annales Baccalauréat. STL Biochimie, France, sept. 008. SMS, France & La Réunion, sept 008 3 3. SMS, Polynésie, sept 008 4 4. STL Chimie de laboratoire et de procédés industriels,

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

admission aux urgences

admission aux urgences Société française de neurologie RÉFÉRENTIEL D AUTO-ÉVALUATION DES PRATIQUES EN NEUROLOGIE Prise en charge hospitalière initiale des personnes ayant fait un accident vasculaire cérébral (AVC) : admission

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés Evaluations de la survie sans progression et du contrôle locoregional comme critère de substitution

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail