Population et Échantillon Principes des Tests et Tests Pr Roch Giorgi LERTIM, Faculté de Médecine, Université de la Méditerranée, Marseille, France http://cybertim.timone.univ-mrs.fr
Population et Échantillon Population : ensemble d objets ou d individus ayant des caractéristiques qui leurs sont propres Ex : la population masculine marseillaise Échantillon : sous-ensemble d une population. Un bon échantillon («sans biais») doit être représentatif de la population dont il est issu Les études portent généralement sur un échantillon tiré d une population
Population et Échantillon Population Échantillon 1 Échantillon 2 Biais de sélection
Population et Échantillon Population Échantillon 3 = 28 % = 40 % = 32 % = 65 % = 15 % = 20 % Biais de sélection
Population et Échantillon Population Échantillon 4 = 28 % = 40 % = 32 % = 25 % = 40 % = 35 % Échantillon représentatif
Population et Échantillon Échantillonnage Population Critère d intérêt Caractéristique A - glycémie - décès à 5 ans -... Échantillon Critère d intérêt Estimation de la Caractéristique A - glycémie moyenne écart-type - probabilité de décès à 5 ans -...
Échantillonnage Processus permettant d obtenir un échantillon à partir d une population Doit permettre d obtenir un échantillon représentatif de la population L échantillonnage aléatoire (randomisation) en est le meilleur moyen Le choix du processus peut dépendre de l objectif de l étude, donc du type d étude
Différents Types d Études (1) Étude de cohorte Avant l exposition au(x) facteur(s) Fixé Exposés Aléatoire Malades Non Malades Non Exposés Malades Cause Non Malades Effet Temps
Différents Types d Études (2) Étude de cohorte Après l exposition au(x) facteur(s) Fixé Aléatoire Exposés Malades Non Malades Cohorte Non Exposés Malades Cause Non Malades Effet Temps
Différents Types d Études (3) Étude cas-témoins Comparaison de malades et de non malades «identiques» Biais de classement Aléatoire Fixé Exposés Malades Non Exposés Exposés Non Malades Exposition? Non Exposés Détermination de la maladie
Différents Types d Études (4) Étude transversale Unique Répétée Malades Non Malades Non Malades Non Malades Malades Non Exposés Exposés Exposés Malades Non Malades Non Malades Exposés Exposés Non Exposés Exposés Non Exposés Non Exposés Temps
Commentaires (1) Objectifs et schémas des études Objectifs Evaluer la validité d'un test diagnostique Evaluer l'effet d'une action thérapeutique ou préventive Evaluer l'effet d'un facteur de risque Evaluer le rôle d'un facteur pronostique Schémas des études Comparaison des résultats du test avec une référence : cas-témoins ou étude de cohorte Essais randomisé Eventuellement : étude cas-témoins Etude de cohorte Etude cas-témoins Etude transversale Etude de cohorte Etude cas-témoins
Commentaires (2) Échantillon et représentativité Méthode de sélection a priori Critères d inclusion et de non inclusion Description des sujets de l étude Écarts au protocole
Mesure Comment est mesuré le critère d intérêt? Méthode fiable, précise, reproductible, facile? Bonne définition du «gold standard» dans les études d évaluation d un test ou d une procédure diagnostique?
Types de Données Données quantitatives : Ex : taille (cm, m), poids (kg), age (années) Données qualitatives : nominales : Ex : consommation de tabac blond - brun - mixte ordonnées : Ex : taille tumorale T1 -T2 -T3 -T4 Remarque : une même donnée peut être exprimée selon différents types : Ex : age (années) : 25, 26, 29, 32, 36, 39, 50, 55, [20, 29] ; [30, 39] ; Choix du seuil
Distribution d une Variable Quantitative Glycémie dans un échantillon de n = 100 sujets Glycémie Effectif [0,1-0,3[ 1 [0,3-0,5[ 4 [0,5-0,7[ 8 [0,7-0,9[ 24 [0,9-1,1[ 25 [1,1-1,3[ 28 [1,3-1,5[ 5 [1,5-1,7[ 4 [1,7-1,9[ 0 [1,9-2,1[ 1 n 30 25 20 15 10 5 0 0,2 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 Glycémie
Distribution d une Variable Quantitative Glycémie dans un échantillon de n = 100 sujets Glycémie Effectif [0,1-0,3[ 1 [0,3-0,5[ 4 [0,5-0,7[ 8 [0,7-0,9[ 24 [0,9-1,1[ 25 [1,1-1,3[ 28 [1,3-1,5[ 5 [1,5-1,7[ 4 [1,7-1,9[ 0 [1,9-2,1[ 1 n 30 25 20 15 10 5 0 0,2 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 Glycémie
Distribution d une Variable Quantitative Glycémie dans un échantillon de n = 100 sujets Glycémie Effectif [0,1-0,3[ 1 [0,3-0,5[ 4 [0,5-0,7[ 8 [0,7-0,9[ 24 [0,9-1,1[ 25 [1,1-1,3[ 28 [1,3-1,5[ 5 [1,5-1,7[ 4 [1,7-1,9[ 0 [1,9-2,1[ 1 n 30 25 20 15 10 5 0 0,2 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 Glycémie
Distribution d une Variable Quantitative Glycémie dans un échantillon de n = 100 sujets Glycémie Effectif [0,1-0,3[ 1 [0,3-0,5[ 4 [0,5-0,7[ 8 [0,7-0,9[ 24 [0,9-1,1[ 25 [1,1-1,3[ 28 [1,3-1,5[ 5 [1,5-1,7[ 4 [1,7-1,9[ 0 [1,9-2,1[ 1 n 30 25 20 15 10 5 0 0,2 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 Glycémie
Distribution d une Variable Quantitative Glycémie dans un échantillon de n = 100 sujets Glycémie Effectif [0,1-0,3[ 1 [0,3-0,5[ 4 [0,5-0,7[ 8 [0,7-0,9[ 24 [0,9-1,1[ 25 [1,1-1,3[ 28 [1,3-1,5[ 5 [1,5-1,7[ 4 [1,7-1,9[ 0 [1,9-2,1[ 1 n 30 25 20 15 10 5 0 N( 1,0.2 ) 0,2 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 Glycémie
Statistique Descriptive (1) Paramètres de position d une distribution pour des données quantitatives : Ex : - la moyenne de la distribution : rapport de la somme des mesures au nombre de mesures observées -le mode de la distribution : valeur de la variable dont la fréquence est la plus élevée (également pour les variables qualitatives) -la médiane de la distribution : valeur de la variable partageant la distribution en 2 moitiés égales
Statistique Descriptive (2) Paramètres de dispersion d une distribution pour des données quantitatives : Ex : - la variance : paramètre de dispersion généralement le plus utilisé. Calcul : moyenne arithmétique des carrés des écarts à la moyenne de l échantillon. -l écart-type : également très utilisé. Permet d exprimer la dispersion dans la même unité que la variable mesurée. Calcul : racine carrée de la variance. -autres : quantiles, étendues,...
Statistique Descriptive (3) Les deux paramètres, dispersion et position, doivent toujours être donnés 70 60 50 40 30 20 10 0 70 60 50 40 30 20 10 0 10 20 20 30 40 50 60 70 80 Positions différentes même dispersion 10 20 20 30 40 50 60 70 80 90 100 Dispersions différentes même position
Estimation et Intervalle de Confiance Estimation : valeur ponctuelle que l on souhaite proche de la vraie valeur de la caractéristique estimée (plus petite ou plus grande due aux erreurs d échantillonnage). nécessité de donner un degré (intervalle) de confiance à l estimation obtenue. Généralement on prend un seuil de 95 %. Pr = 0,95 Il y a 95 chances sur 100 que la vraie valeur soit comprise entre la borne inférieure et la borne supérieure IC 95% inf µ IC 95% sup
Indicateurs Paramètres de position Moyenne Médiane et Paramètres de dispersion Ecart-type Min - Max Pourcentage Intervalle de confiance (95%) Risque relatif ou Odds ratio Intervalle de confiance (95%)......
Test Statistique : Exemple 1 Dans un registre régional exhaustif de cancers, la mortalité par cancer, en 1990, est la suivante : Cancer du poumon Cancer colorectal Cancer du sein Autres cancers 24 % 14 % 19 % 43 % Question : cette répartition a t-elle évoluée (effet des traitements, de mesures de préventions, ) Sondage (sans biais) sur 1 000 décès par cancers en 2000 Comparaison d une répartition observée à une répartition théorique
Test Statistique : Exemple 1 (suite) Si la répartition n a pas du tout évolué observera t- on obligatoirement? Cancer du poumon Cancer colorectal Cancer du sein Autres cancers Total Référence 24 % 14 % 19 % 43 % Observée 240 140 190 430 1 000 NON Fluctuations d échantillonnage
Test Statistique : Exemple 1 (suite) Les valeurs observées ci-dessous assurent-elle que la répartition a changé? Cancer du poumon Cancer colorectal Cancer du sein Autres cancers Total Référence 24 % 14 % 19 % 43 % Observée 260 120 200 420 1 000 NON Loi avec une variabilité
Test Statistique : Exemple 1 (suite) L évolution est plus fortement probable si on a : Cancer du poumon Cancer colorectal Cancer du sein Autres cancers Total Référence 24 % 14 % 19 % 43 % Observée 100 190 90 620 1 000 OUI Absence d évolution pas impossible Évolution plus probable
Test Statistique : Exemple 2 Situation : patients ayant un pneumothorax spontané traité par talcage et patients ayant un pneumothorax spontané traité par drainage Problématique : le nombre moyen de récidives de pneumothorax est-il différent selon le traitement du premier pneumothorax? Comparaison de 2 échantillons indépendants Indicateurs : nombre moyens de récidive et intervalles de confiance à partir d un échantillon de patients
Test Statistique : Exemple 2 (suite) La zone de recouvrement des intervalles de confiance est : «grande» : la différence observée entre les moyennes est due aux fluctuations d échantillonnage ; les 2 échantillons proviennent d une même population. Exemple «petite» : il est «peu» probable que la différence observée entre les deux moyennes soit due au hasard ; la probabilité que les 2 échantillons proviennent de la même population est «faible». Exemple Suite
Zone de Recouvrement «Grande» m 1 m 2 Estimation de la moyenne (m 1, m 2 ) Bornes des intervalles de confiance Zone de recouvrement des intervalles de confiance Retour
Zone de Recouvrement «Petite» m 1 m 2 Estimation de la moyenne (m 1, m 2 ) Bornes des intervalles de confiance Zone de recouvrement des intervalles de confiance Retour
Principes d un Test Problème : définir une limite entre zone de recouvrement «grande» et «petite» Valeur vérifiant l hypothèse que la différence observée entre les moyennes est due aux fluctuations d échantillonnage : hypothèse nulle (H 0 ) On rejettera cette hypothèse si l écart entre la distribution observée et la distribution théorique est trop «grand», c est-à-dire que H 0 est trop invraisemblable
Exemple 2 (suite) Groupe A : traitement par talcage ; nombre moyen de récidive = m A Groupe B : traitement par drainage ; nombre moyen de récidive = m B H Hypothèse nulle (H 0 ) : µ A = µ B, il n y a pas de différence entre les traitements Hypothèse alternative (H 1 ) : µ A < µ B, le traitement par talcage donne moins de récidives (exemple en situation unilatérale) Statistique du test : d = M A -M B On détermine un seuil de signification L à partir duquel d est considérée comme étant «trop grande», c est-à-dire tel que : α = Pr[ d > L sous H 0 ] (de manière arbitraire, α = 5 %) On réalise le test de comparaison de 2 moyennes : si le degré de signification du test p est > à Pr[ d > L sous H 0 ], on accepte H 0, sinon on rejette H 0.
Principes d un Test : Notion de Risque = β = Pr[ M A -M B < L sous H 1 : (µ A - µ B ) = ] α = Pr[ M A -M B > L sous H 0 ] Notations : M A -M B : variables aléatoires µ A - µ B : différence théorique m A -m B : différence observée
Principes d un Test : Notion de Risque Une décision de rejet ou de non rejet de H 0 est faite sous certains risques puisque l état réel est inconnu : Réalité (inconnue) Non Rejet de H 0 Rejet de H 0 Décision H0 vraie Décision correcte Probabilité = 1 α Seuil de confiance Erreur de 2 ème espèce Probabilité = β H1 vraie Erreur de 1 ère espèce Probabilité = α Seuil du test Décision correcte Probabilité = 1 β Puissance du test
Interprétation d un Test Statistique Degré de signification d un test : p p = Pr[(M A -M B ) > d sous H 0 ] Probabilité d observer une valeur au moins aussi grande que la valeur observée, si H 0 est vraie Interprétation d un test si p > α : on ne rejette pas H 0 (ns) si p α : on rejette H 0 (s) Remarque : dans un test de différence ou de supériorité Ne pas rejeter H 0 démonstration de l égalité
Degré de Signification : p Traduction en terme de probabilité de l éloignement entre la valeur observée de la statistique et une valeur attendue sous H 0 Ne correspond pas à la probabilité de rejeter à tort H 0 N est pas une mesure de la force d une différence d effet exemple : «les durées moyennes de récidive différent fortement (p=0,0001)» est abusif) grand p petit 1 - β élevée Hasard Risque α
Interprétation d un Test : Exemple 1 Caractéristiques des patients après randomisation : Groupe A (n = 150) Groupe B (n = 152) p Age (ans) moyenne (écart-type) 63 (6,2) 61 (5,3) 0,0024 Différence d effet : 2 ans Degré de signification Groupe A (n = 150) Groupe B (n = 152) p Homme n (%) 66 (44,0%) 81 (53,3%) 0,106
Interprétation d un Test : Exemple 2 Risques Relatifs (RR) de décéder d un cancer colorectal en fonction de certains facteurs (n = 504) RR IC 95% P Masculin 1 Féminin 1,35 [1,05 1,98] 0,03 Quantification de l effet Degré de signification RR IC 95% P < 65 ans 1 65 74 ans 1,29 [1,20 1,58] 0,002 > 74 ans 1,38 [1,26 1,69] 0,01
Analyse Statistique (1) Objectif d une étude Critère de jugement Thérapeutique taux guérison Pronostic taux de mortalité Effet (poids) de certains facteurs (variables) Age, sexe, des patients sur le taux de guérison, taux de mortalité,
Analyse Statistique (2) 1 facteur (variable) à expliquer Taux guérison, taux de mortalité, par 1 ou plusieurs facteurs (variables) explicatifs 1 seul à la fois analyse unifactorielle (univariée) Plusieurs à la fois analyse multifactorielle (multivariée)
Analyse Univariée Étude de l action d 1 seule variable (facteur) à la fois sur un phénomène observé que l on cherche à expliquer Y : phénomène observé V 1, V 2, V 3, V 4, V 5 et V 6 : variables potentiellement explicatives Y=b 1 V 1 Y=b 6 V 6 étudie de manière univariée l association entre V 1 et Y dont le lien est estimé par b 1 étudie de manière univariée l association entre V 6 et Y dont le lien est estimé par b 6 Estimation d un effet brute
Analyse Multivariée (1) Étude simultanée de l action de plusieurs variables (facteurs), en tenant compte de leurs effets les unes sur les autres, sur un phénomène observé que l on cherche à expliquer Y : phénomène observé V 1, V 2, V 3, V 4, V 5 et V 6 : variables potentiellement explicatives Y=b 1 V 1 + b 2 V 2 + b 3 V 3 + b 4 V 4 + b 5 V 5 + b 6 V 6 étudie de manière multivariée l association entre V 1, V 2, V 3, V 4, V 5 et V 6 et Y le lien entre V 1 et Y est estimé par b 1 Estimation d un effet ajusté
Analyse Multivariée (2) Y=b 1 V 1 + b 2 V 2 + b 3 V 3 + b 4 V 4 + b 5 V 5 + b 6 V 6 b 1 quantifie le lien entre V 1 et Y, après ajustement sur les autres variables (facteurs de confusions) Si b 1 «statistiquement significatif», V 1 variable significative indépendante
Analyse Multivariée (3) Risques Relatifs (RR) de décéder d un cancer colorectal en fonction de certains facteurs (n = 504) Analyse Univariée Analyse Multivariée RR IC 95% P RR* IC 95% P Masculin 1 1 Féminin 1,35 [1,05 1,98] 0,03 1,21 [0,94 1,51] 0,123 < 65 ans 1 1 65 74 ans 1,29 [1,20 1,58] 0,002 1,21 [1,18 1,39] 0,001 > 74 ans 1,38 [1,26 1,69] 0,01 1,33 [1,24 1,53] 0,02 * Risques Relatifs ajustés
Étapes d une Analyse Statistique Analyse univariée testant, pour chaque variable explicative potentielle, le lien avec la variable à expliquer Identifier le sous-groupe des variables statistiquement significatives, au risque d erreur α accepté ensemble des variables candidates pour l étape suivante Analyse multivariée déterminant, parmi l ensemble des variables candidates, les variables qui permettent à elles seules d expliquer le phénomène observé indépendamment de la présence des unes et des autres
Exemple Etude rétrospective 315 patients opérés pour dissection aortique aiguë type A Objectif : identifier les facteurs de risque indépendants de mortalité hospitalière Variable à expliquer Mortalité hospitalière Variables potentiellement explicatives Présence d une hypotension, d un choc, d un arrêt cardiaque, d une insuffisance rénale aiguë et d une paraplégie en préopératoire, et d un traitement antithrombotique préhospitalier Lien estimé par l Odds ratio (OR) puis testé (H 0 : OR = 1 ; H 1 : OR 1) à l aide de la statistique appropriée
Répartition de la Mortalité Hospitalière Variables Décès (%) N=71 (22) Survivants (%) N=244 (78) Hypotension 28 (41) 19 (8) Choc 23 (35) 23 (9) Arrêt cardiaque 15 (21) 19 (8) Insuffisance rénale aiguë 5 (8) 15 (6) Paraplégie 2 (3) 1 (0,4) Traitement antithrombotique 21 (30) 42 (17)
Résultats Analyse Univariée Variables Odds ratio brutes IC à 95 % p Hypotension Non 1 Oui 7,71 3,95 15,03 <0,001 Choc Non 1 Oui 4,60 2,39 8,88 <0,001 Arrêt cardiaque Non 1 Oui 3,17 1,52 6,63 0,001 Insuffisance rénale aiguë Non 1 Oui 1,16 0,40 3,30 0,56 Paraplégie Non 1 Oui 7,04 0,63 78,84 0,09 Traitement antithrombotique Non 1 Oui 2,02 1,10 3,71 0,02 Variables candidates pour l analyse multivariée
Analyse Multivariée Mortalité Hospitalière = f(var. candidates)? MH = Var Candidate (i=1,,4) Si i ème Var Candidate est significative, alors MH = Var Significative + Var Candidate (j=1,,3) Si j ème Var Candidate est significative, alors MH = Var Significative(s)
Résultats Analyse Multivariée Facteurs de risque indépendants de mortalité hospitalière Variable Odds ratio ajustés IC à 95 % p Hypotension Non 1 Oui 8,29 4,23 16,24 <0,001 Choc Non 1 Oui 5,26 2,70 10,24 <0,001 Remarques Après ajustement sur ces 2 variables, arrêt cardiaque et traitement antithrombotique préhospitalier ne sont plus statistiquement liées à la mortalité hospitalière Valeurs des OR ajustés différentes des valeurs des OR brutes
Choix d un Test (1) Fonction du type de variable : Qualitative x Qualitative Sexe x Stade tumorale Qualitative x Quantitative Sexe x Taille tumorale (mm) Quantitative x Quantitative Marqueur sérique (UI/ml) x Taille tumorale (mm) Séries non appariées (indépendantes) ou appariées (mesure de TA avant-après traitement) Fonction de conditions de validités et d hypothèses méthodologiques propres aux méthodes
Choix d un Test (2) Données censurées ou non censurées Censurées : le suivi des patients a pris fin avant l apparition de l évènement d intérêt Événement : décès, récidive d une pathologie, censuré : Évènement + : Évènement - Temps Non censurées : on a des quantités qui sont fixes et indépendantes du temps de suivi
Choix d un Test (3) Analyse unifactorielle (univariée) ou multifactorielle (multivariée) Unifactorielle : un facteur est analysé sans tenir compte des autres facteurs On parlera d effet brut cancer du pharynx = f(tabac) Multifactorielle : un facteur est analysé en tenant compte d autres facteurs On parlera d effet ajusté cancer du pharynx = f(tabac, alcool, age, )
Analyse Univariée, Données non Censurées Qualitative Quantitative Qualitative Chi-deux Quantitative Comparaison de moyenne * Analyse de la variance Coefficients de corrélations + Régression linéaire simple * «Grands» échantillons : test de Student (séries appariées ou non) «Petits» échantillons : tests non paramétriques séries non appariées : test U de Mann-Whitney, Kruskal-Wallis séries appariées : test de Wilcoxon, Friedman + «Grands» échantillons : corrélation de Pearson «Petits» échantillons : corrélation de Spearman
Analyse Univariée, Données Censurées Méthodes d analyse de survie Kaplan-Meier Actuarielle Comparaisons des courbes de survie par le test du Log-Rank
Analyse Multivariée, Données non Censurées Variable à expliquer Quantitative Qualitative Variables explicatives Quantitatives ou Qualitatives Quantitatives ou Qualitatives Méthode Régression linéaire multiple Régression logistique
Analyse Multivariée, Données Censurées Analyse de survie Modèle de Cox (variables explicatives quantitatives ou qualitatives)