PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE

Documents pareils

Biostatistiques : Petits effectifs

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Principe d un test statistique

TABLE DES MATIERES. C Exercices complémentaires 42

Statistiques Descriptives à une dimension

Item 169 : Évaluation thérapeutique et niveau de preuve

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Séries Statistiques Simples

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

1. Vocabulaire : Introduction au tableau élémentaire

Estimation et tests statistiques, TD 5. Solutions

Logiciel XLSTAT version rue Damrémont PARIS

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Aide-mémoire de statistique appliquée à la biologie

Introduction aux Statistiques et à l utilisation du logiciel R

IBM SPSS Statistics Base 20

PROGRAMME (Susceptible de modifications)

Statistique Descriptive Élémentaire

TSTI 2D CH X : Exemples de lois à densité 1

A. Protocole de recherche (ainsi que l abrégé en langue française)

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Annexe commune aux séries ES, L et S : boîtes et quantiles

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Études épidémiologiques analytiques et biais

Audit et Inspection Les contraintes extérieures B.Malivoir

Statistique : Résumé de cours et méthodes

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

OUTIL D'EVALUATION DU TEMPS ARC / CHEF DE PROJET PROMOTEUR REQUIS POUR UNE RECHERCHE BIOMEDICALE V 2.3 DE L OUTIL NOTICE D UTILISATION

Lois de probabilité. Anita Burgun

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

GUIDE DE LECTURE CRITIQUE D'UN ARTICLE MEDICAL ORIGINAL (LCA)

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Evaluation de la variabilité d'un système de mesure

Représentation d une distribution

LES DIFFERENTS TYPES DE MESURE

Loi binomiale Lois normales

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

La classification automatique de données quantitatives

NOTE DE SYNTHESE RELATIVE AUX COMMENTAIRES SUR LE PROJET DE DECRET N RELATIF A L AUTORISATION DE MISE SUR LE MARCHE DES MEDICAMENTS A USAGE

Chapitre 3 - L'enquête descriptive simple

ELABORATION DU PLAN DE MONITORING ADAPTE POUR UNE RECHERCHE BIOMEDICALE A PROMOTION INSTITUTIONNELLE

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Analyse de la variance Comparaison de plusieurs moyennes

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Analyse de grandes bases de données en santé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Estelle Marcault. 20/01/2012 URC Paris Nord 1

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

La simulation probabiliste avec Excel

FORMULAIRE DE STATISTIQUES

23. Interprétation clinique des mesures de l effet traitement

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

données en connaissance et en actions?

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Arbres binaires de décision

Evaluation générale de la qualité des données par âge et sexe

SPHINX Logiciel de dépouillement d enquêtes

La politique européenne de la Mutualité Française en matière de dispositifs médicaux

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Introduction à l approche bootstrap

MATHÉMATIQUES. Mat-4104

First Line and Maintenance in Nonsquamous NSCLC: What Do the Data Tell Us?

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

Quelques rappels concernant la méthode expérimentale

Analyse et interprétation des données

Annexe A de la norme 110

Introduction à la Statistique Inférentielle

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

Introduction au métier d ARC. en recherche clinique

1. Les types d enquêtes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Partie 1. Principes. Karmela Krleža-Jerić, An-Wen Chan, Kay Dickersin, Ida Sim, Jeremy Grimshaw, Christian Gluud, for the Ottawa GroupT 1

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Modélisation aléatoire en fiabilité des logiciels

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

LES MODELES DE SCORE

Statistique inférentielle TD 1 : Estimation

Agenda de la présentation

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

Le traitement de données comportementales un tour d horizon avec des exemples traités par R

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

PROBABILITES ET STATISTIQUE I&II

Transcription:

PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE

PLAN Définition des statistiques Échantillonnage Mise en place d une étude Interprétation des résultats Petits échantillons Analyse des bases de données Méthodes multivariées Exemples Grands échantillons

INTRODUCTION

La Statistique et les Biostatistiques La STATISTIQUE : discipline traitant du recueil (plans d expérience, sondages, ), du traitement et de l interprétation de données caractérisées par une grande variabilité. Partie des mathématiques appliquées, utilisant la théorie des probabilités. Beaucoup de domaines d applications Sondages : enquêtes d opinion Industrie : contrôle de qualité Marketing : scoring, profil de consommateurs Médecine : épidémiologie, recherche clinique.. Statistiques appliquées à la Médecine = BIOSTATISTIQUES Données spécifiques : variabilité inter et intra, données interprétées, Méthodes spécifiques : survie, courbes ROC, plans d expérience

Problématique actuelle Révolution Informatique Multiplication des sources de données ( SIH, Internet,.) Explosion des moyens de calculs (PC 4GHz) Mise à disposition de plus en plus de logiciels de plus en plus évolués (SPSS, STATVIEW, S+, STATISTICA, R.) Nouveaux enjeux Politique de Recherche et de Publication Rigueur exigée Besoin de méthodes exploratoires efficaces (grandes bases de données) Nécessité d une méthodologie statistique rigoureuse

Méthodologie statistique Employer bien sûr la " bonne" procédure statistique pendant l analyse MAIS cela ne suffit pas Choisir le bon type d étude Choisir le bon plan d expérience Choisir les bons critères de jugement Qualité des données recueillies Avant l étude Analyse statistique rigoureuse (tests, modèles, ) Bonne interprétation des résultats Fin d étude

Schéma général d une étude Projet : Objectifs, Bibliographie Plan d analyse Echantillon Recueil des données Analyse Descriptive Analyse Inférentielle Interprétation Rapport

L Échantillonnage

L inférence statistique On désire étudier une population P Principe : On tire un échantillon E de taille n issu de P On analyse les caractéristiques de E On généralise à P Attention!! E doit être un échantillon représentatif de P E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats Définir très précisément la population que l on désire étudier!!

Les fluctuations d échantillonnage Quand on tire aléatoirement un échantillon, on a des fluctuations. Exemple : on s intéresse aux 10 premiers étudiants entrant dans l amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants sont des femmes? NON!!! Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 (on considère que dans la population totale, les proportions d hommes et de femmes sont les mêmes) et calculer la probabilité d observer 0,1,2,,10 femmes. 0.3 0.25 0.2 0.15 0.1 0.05 0 P(X=k) 0 1 2 3 4 5 6 7 8 9 10

Les prendre en compte Comment prendre en compte les fluctuations d échantillonnage? 1) En vérifiant que l échantillon est représentatif (tests d adéquation par exemple) 2) En donnant la marge d erreur que l on commet en raisonnant sur un échantillon (Intervalles de confiance) 3) En maîtrisant les risques d erreurs (puissance)

Mise en Place d une Étude

Les différents types d études + Étude rétrospective : Étude la plus fréquente Pas d inclusion de patients Collecte de données à partir des dossiers Rapide et simple à mettre en œuvre - Comparabilité des groupes Qualité des données recueillies + Étude prospective pilote En général, peu de patients Qualité des données Sert à déterminer des caractéristiques pour une étude comparative contrôlée. - Pas de comparaisons Résultats limités

Les différents types d études + Étude prospective contrôlée (essai contrôlé) : Cas le plus complexe Résultats fiables (Puissance calculée au début de l étude) Critères d inclusion + Randomisation / Comparabilité des groupes Critères de jugement définis au début - Étude longue ( en général, 3 ans minimum). Peut être coûteuse + Étude épidémiologique, Cohorte, Résultats fiables (Puissance statistique) - Grand nombre de sujets Suivi au cours du temps (10,15 ans!!) Multicentrique

Mise en Place d une Étude Dans tous les cas, rédaction d un protocole!! Protocole

Conseils pour la Rédaction du Protocole L'introduction : ce paragraphe a pour objectifs : de décrire l'état actuel des connaissances sur le sujet d'expliquer le problème scientifique Les objectifs de l'étude : il s'agit de décrire en quelques phrases l'objectif principal de l'étude et les objectifs secondaires. Ces objectifs doivent être précis et déduits du paragraphe précédent. La sélection des patients : ce paragraphe a pour objectifs : de décrire la méthode de recrutement, de définir des groupes éventuels, de préciser les critères d'inclusion et de non-inclusion. Les critères de jugement : définir précisément le critère de jugement principal et éventuellement les critères secondaires : pourcentage de guérison, mesure d'un paramètre biologique, score, durée de vie, Ce critère conditionne le type d'analyse statistique.

Conseils pour la Rédaction du Protocole Plan d'expérience : expliciter le plan d'expérience envisagé : groupes parallèles, plan 2x2, crossover, nombre de sujets recrutés : s'il est basé sur un calcul de nombre de sujets nécessaires, indiquer les éléments du calcul, sinon justifier le nombre choisi (données bibliographiques, étude exploratoire...). durée prévue de l'étude. Information recueillie : description des paramètres enregistrés, mode de recueil. Analyses statistiques : décrire brièvement le type d'analyses statistiques envisagées. Documents annexes : lettre d'information, consentement éclairé, références bibliographiques, cahier d'observation, CV des investigateurs.

Quelques aspects statistiques Détermination du plan d expérience groupes parallèles, plans factoriels appariement, stratification cross-over, carré latin Discussion sur les variables analysées : critères de jugement (principal et secondaires), dans le cas d un essai clinique Attention, la multiplication des hypothèses et des tests rend la conclusion de l étude très difficile : l étude doit être bâti autour de quelques questions précises Type d analyses statistiques prévues Détermination de la taille des échantillons

Que veut-on montrer?? Efficacité ou Équivalence? Les essais d efficacité : on suppose l égalité des traitements et on cherche à rejeter l hypothèse Les essais d équivalence : on considère que deux traitements sont équivalents si la différence entre-eux ne dépasse pas. Comparaison de moyennes, de fréquences, de courbes? Test Unilatéral ou Bilatéral? Plan d Expérience? Nombre de groupes? Indépendant / Apparié? Stratification, facteur de confusion,?

Les plans d expérience De nombreux types de plan d'expérience. Groupes parallèles +++ comparaisons intra-individuelles Mesures répétées. Le choix entre plusieurs plans doit être fait en tenant compte de leurs avantages et de leurs inconvénients. Le choix du plan détermine : la méthodologie statistique à employer pour l'analyse le nombre de patients à inclure dans l'étude Un plan d'expérience est choisi de manière à optimiser la puissance des tests statistiques tout en minimisant le nombre de patients à inclure dans l'étude.

Les Groupes Parallèles Certainement le plan le plus simple et le plus utilisé. L'ensemble des patients est divisé en plusieurs groupes homogènes, de même taille en général, de manière à avoir une comparaison statistique la plus "efficace" possible. Chaque patient reçoit un traitement et un seul. Méthodologie statistique d'analyse simple.(anova 1Facteur) Attention à la comparabilité des groupes de traitements. La variabilité entre les sujets peut être importante.

Les comparaisons intra-individuelles Dans ce type d'essai, le sujet est son propre témoin et reçoit donc successivement deux ou plusieurs traitements, dans un ordre aléatoire. Tailles d'échantillon plus faibles, chaque patient étant "utilisé" plusieurs fois Permet de minimiser la variance inter-sujet dans les différents stades de l'expérimentation (efficace si Variance Intra < Variance Inter). Suppose que le sujet soit dans les mêmes conditions dans les différentes phases d'expérimentation Aucun des traitements administrés au cours d'une phase ne doit influencer les résultats de la phase suivante WASH-OUT (période de "sevrage" )

Plans Intra-Individuels : 2 Traitements L'essai croisé (cross-over): on compare deux traitements A et B Chaque patient reçoit soit A puis B, ou B puis A. Indispensable d'étudier simultanément l'effet des traitements mais également l'ordre d'administration. Si plus de deux traitements, le cross-over est trop compliqué et l'on utilise alors le carré latin T0 X0 Baseline T0 X0 Baseline A B WASH-OUT X1 X2 X3 Contrôle WASH-OUT X1 X2 X3 Contrôle B A

Mesures Répétées 2 Groupes : A et B 1 variable numérique X mesurée k fois (T1, T2,, Tk) 55 55 55 A 50 45 A B 50 45 A B 50 45 B 40 40 40 35 35 35 30 30 30 25 1 3 5 25 1 3 5 25 1 3 5 Très utilisé!!!! Méthodologie statistique relativement simple (ANOVA en Mesures Répétées)

Nombre de cas à inclure dans l étude? On a déterminé le problème clinique On a déterminé le(s) critère(s) de jugement On a défini le plan d expérience adapté Pb : combien, doit-on inclure de patients pour répondre correctement à l hypothèse posée? On utilise un test statistique Notion de puissance

Notion de puissance d un test Puissance = F(,N, variabilité = DS) La variabilité peut masquer la différence (2) Puissance dépend du risque de première espèce α, mais inutile en pratique car α fixéà5% Puissance = F(,N,DS) En pratique, on estime et DS et on déduit N

Notion de puissance d un test Les deux risques sont antagonistes α = 0 β=1 et β = 0 α= 1 En pratique : on fixe α=5% on se donne sur critères cliniques on estime σ (étude pilote) on a donc «la main» que sur N : on calcule N pour assurer β = 10% ou 20% (puissance > 80%) Formules, tables, logiciels Exemple, pour 2 moyennes : n z = 2( + α 1 z 1 β ) 2 σ ² ²

Puissance d un test et Taille d échantillon Comparaison de deux antihypertenseurs avec : Différence à mettre en évidence ( ) : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% Puissance 1 0.8 0.6 0.4 0.2 1- β = 0.9 N1=N2=86 Si N1=N2=30 1-β = 0.48 (1- β = puissance) 0 0 50 100 150 200 Nombre de Patients par Groupe Ne pas confondre : Conditions d application du test et Puissance du test

Traitement statistique des données

Le recueil des données (Data Management) Les résultats statistiques sont fonction des données - Problème de la qualité des données Problème des données manquantes (analyses multivariées)!! Pour certains essais, nécessité de suivre des guidelines (FDA, AMM) 2 approches : Maximaliste : Guidelines ( double saisie, confrontation et gel de la base) Minimaliste : logiciel permettant le contrôle à la saisie (bornes, valeurs autorisées ) Approche 1 : Complexe, longue et coûteuse - A éviter si possible Approche 2 : Approche minimale, quelque soit l essai.

Méthodes Statistiques : définitions générales INDIVIDU : Objet sur lequel un ou plusieurs caractères peuvent être observés. POPULATION : Ensemble des individus pris en considération. VARIABLE : Propriété servant à distinguer les individus d'une population. Un caractère peut être qualitatif (attribut) ou quantitatif. DISCRETES (Nombre limité de valeurs) QUANTITATIVES CONTINUES (prend ses valeurs dans un intervalle VARIABLES BINAIRES ( Présent / Absent ) QUALITATIVES NOMINALES (SEXE, Couleur des Yeux, CSP, ) ORDINALES = SCORE (Notion d ordre)

Les méthodes statistiques Univariée (moyenne, DS, ) Descriptive Multivariée (ACP, ) La statistique Univariée (tests, ) Inférentielle Multivariée (modèles, )

La Statistique Descriptive BUTS : Contrôle de qualité des données, descriptifs simples (moyennes, ). Synthétiser, résumer, structurer l'information contenue dans les données. Mettre en évidence des propriétés de l'échantillon. Suggérer des hypothèses. Analyses univariées : moyennes, histogramme, box-plot, fréquences, Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles. Principales méthodes multivariées: Méthodes de classification : déterminer des sous-groupes homogènes Méthodes factorielles : réduire le nombre de variables par construction d'axes synthétiques (ACP, AFC, ACM,...), mais aussi sous-groupes d individus 2 classes de méthodes souvent complémentaires Cours N 2

La Statistique Inférentielle Univariée BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire. Utilisation de tests statistiques se référant à des modèles probabilistes. EXEMPLES : Comparaison de moyennes ANOVA (+ + +!!!) Comparaison de fréquences Tests de lois...

STATISTIQUE DESCRIPTIVE UNIVARIEE

Analyse descriptive univariée 3 Objectifs : Contrôle des données : Fréquences et Box-plots Calcul des statistiques descriptives : moyenne,. Présentation des résultats : Moyenne ± Déviation standard Fréquence avec Intervalle de confiance

Paramètres statistiques de base Moyenne : x = 1 n n i= 1 x i Variance estimée: n 1 = n 1 i= 1 ( i ) 2 s² x x Déviation standard : racine carrée de la variance Min, Max, Médiane, Quartiles, Centiles

Le Box-Plot ( Boîte à Moustaches ) Xmax 0 1,5 (Q3-Q1) Q3 Médiane + II=Q3-Q1 0 : valeur comprise entre 1.5 et 3 interquartiles * : valeur supérieure à 3 interquartiles Q1 1,5 (Q3-Q1) X min

Représentations graphiques VARIABLES DISCRETES Femme 45% Homme 55% Homme Femme VARIABLES CONTINUES VARIABLES QUALITATIVES

Intervalles de confiance à 95% d un paramètre numérique : si X suit une loi normale x ± 1.96 DS d une moyenne : quelque soit la loi de X, si n > 30 x ± 1.96 n DS d une fréquence si np, nq > 10 p ± 1.96 p(1 - n p)

Distribution d un paramètre (loi) Différentes formes observables D e n s i t y 0. 04 0. 02 0-2 2 6 10 14 18 22 26 30 34 38 X Modélisation de la distribution : Hypothèse de loi

Tests de Normalité -4-3 -2-1 0 1 2 3 4 Hypothèses de normalité requise pour test T, ANOVA régression, Intervalles de confiance (valeurs normales) SHAPIRO-WILK ( N< 50 ) ou KOLMOGOROV-SMIRNOV ( N> 50 ) TEST D'ADEQUATION DU χ²

4 Lois principalement rencontrées Loi normale : modélise des phénomènes observés (poids des bébés) ou loi limite Loi Log-normale : équivaut à LnX~ N(m,s) (paramètres biologiques) Loi de Weibull : utilisée en fiabilité des matériels ou survie Loi exponentielle : cas simple de loi de Weibull (survie des ampoules)

4 Lois principalement rencontrées 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05-3 -2-1 0 1 2 3 Loi Normale (Laplace-Gauss) 0 0 2 4 6 8 10 12 Loi Log-Normale 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 Loi de Weibull 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 Loi Exponentielle

Comparaison de groupes, quel(s) test(s) utiliser?

Comparaison de Groupes Choix du test statistique Dépend de : La nature de la variable Du nombre de groupes De la taille des groupes Cas des variables binaires ou qualitatives : Test du χ² ou Fisher exact Variables numériques : plusieurs cas : <5 valeurs différentes : variables nominales. On utilise des tests de rang (nonparamétriques) tels que les tests de Wilcoxon ou Kruskal-Wallis. > 5 valeurs différentes : on considère que la variable est continue. Choix du test fait en fonction de plusieurs critères (algorithme suivant)

Comparaison de groupes : variable numérique Variable continue 2 groupes >2 groupes n 1 et n 2 > 30 n 1 ou n 2 < 30 n i < 30 Ecart-réduit X ~ N(m,σ) (biblio) OUI NON Tester variances n i > 30 2 parmi les 3 : 1) groupes équilibrés 2) variances égales 3) distributions similaires homogénéité Non homogénéité OUI NON Student Wilcoxon ANOVA Kruskal-Wallis

Des Questions? Patrick Devos Délégation à la Recherche Direction Générale CHRU de Lille CERIM Faculté de Médecine Université de Lille 2 patrick.devos@univ-lille2.fr