Méthodologie et outils statistiques : indicateurs Dr Roch Giorgi roch.giorgi@ap-hm.fr LERTIM, Faculté de Médecine, Université de la Méditerranée, Marseille, France http://cybertim.timone.univ-mrs.fr
Préambule L acquisition de la partie «Méthodologie et outils statistiques : bases épidémiologiques» est un pré-requis avant l étude de ce cours. L étudiant pourra faire abstraction de certaines formules mathématiques dans une première lecture de cette partie. Il cherchera surtout à comprendre le sens des indicateurs présentés.
Indicateurs et outils Nécessité de disposer d indicateurs pour : mesurer comparer Doivent être : fiables facilement reproductibles Nécessité de disposer d outils pour quantifier les effets Nous allons maintenant présenter un certain nombre d indicateurs utilisés dans le domaine médical. Leur utilisation repose sur certaines hypothèses de bases. Elle peut également dépendre du type d enquête.
Incidence Quantifie la production de nouveaux cas de malades dans une population sur une période de temps donnée ( t). Mesure relative qui rapporte un nombre de malades (nouveaux cas) à un nombre de sujets. Seuls les non malades peuvent produire des nouveaux cas. Hypothèses : risque de maladie le même entre les sujets risque instantané de survenue de la maladie constant au cours du temps Différentes mesures : Incidence cumulée Incidence instantanée
Incidence cumulée : exemple Dans un registre de population de cancers du sein on dispose : du nombre de cas de cancers du sein diagnostiqués annuellement de la population annuelle dans la zone géographique couverte par le registre Année Nouveaux cas Population 1995 22 220 335 1996 28 250 236 1997 26 244 369 1998 28 249 875 1999 30 252 002 On va mesurer la survenue de cancers dans du sein dans cette population en calculant l incidence cumulée de cancer du sein.
Incidence cumulée Les sujets doivent être suivis pendant toute la période de temps. I c = m t N [, t + t] [ t, t + t] 0 m = nombre de nouveaux cas N 0 = nombre de personnes non malades en début de période t = période de temps Utilisée pour des maladies dont l exposition au risque est courte, des maladies aiguës le plus souvent.
Incidence cumulée : exemple (suite) L incidence cumulée du cancer du sein en 1998 est de : Année Nouveaux cas Population 1995 22 220 335 1996 28 250 236 1997 26 244 369 1998 28 249 875 1999 30 252 002 I c 28 249875 ( 1998 ) = = 11,2 pour 100000 L incidence cumulée moyenne annuelle du cancer du sein entre 1995 et 1999 est de : Année Nouveaux cas Population 1995 22 220 335 1996 28 250 236 1997 26 244 369 1998 28 249 875 1999 30 252 002 I c = ( 22 +... + 30) 5 ( 220335 +... + 252002) = 11,0 pour100000 5
Incidence instantanée ou taux d incidence Les sujets ne sont pas forcement suivis sur toute la période. Chacun des temps de suivi est pris en compte au dénominateur pour calculer la durée totale d exposition au risque d être malade. TI = m[ t, t + t[ PT[ t, t + t[ m = nombre de nouveaux cas PT = nombre de personnes-temps non malades (somme des durée de suivi des sujets pouvant devenir malade) t = période de temps
Incidence instantanée : exemple Personnes M + M + M + M - M - M - Durée de suivi M - : Absence de la maladie M + M + M - M + : Présence de la maladie M - 0 2 4 6 8 10 12 Durée d observation en mois révolus Durée d exposition totale = 80 mois Nombre de malades = 5 (t) = 1 an 5 TI = = 0,75 par an 6,6
Incidence instantanée : remarque Remarque : on n a pas forcement la durée de suivi des patients. On se réfère alors à une population moyenne. Années Population Cas Personnes TI -années 1975 2 031 35 10 427,5 3,36 1980 2 140 32 10 837,5 2,95 1985 2 195 38 11 112,5 3,42 1990 2 250 43 10 925 3,94 1995 2 120 Total 148 43 302,5 3,4 Calcul de TI 1975-80 : - population moyenne : - d où TI 1975-80 = 2031+ 2140 2 35 1000 = 3,36 10427,5 148 43302,5 et donc TI 1975-95 = 1000 3, 42 = 5 = 10427,5 Le calcul de TI 1975-95 en considérant d emblée l intervalle 1975-1995 dans son ensemble donne un résultat différent (TI = 148 cas pour 41 510 PA = 3,57) du fait des variations de population. Il faut découper en périodes homogènes.
Prévalence On s intéresse non plus à la survenue d une maladie mais aux malades présents dans une population à un moment donné. Mesure relative qui rapporte un nombre de malades (anciens et nouveaux cas) à un nombre de sujets. Différentes mesures : Prévalence instantanée Prévalence au cours du temps
Prévalence instantanée Prévalence instantanée : proportion de malades dans une population à un moment donné.
Prévalence instantanée : exemple 1 3 2 5 4 t 1-1-97 1-5-97 1-9-97 1-1-98 Prévalence à l instant t = (cas1 + cas2 + cas5) / population à l instant t
Prévalence au cours du temps Prévalence au cours du temps : proportion de malades (initialement présents et nouveaux cas) dans une population sur une période donnée.
Prévalence au cours du temps : exemple 1 3 2 5 4 1-1-97 1-5-97 1-9-97 1-1-98 Prévalence du 1-1-97 au 1-5-97 = (cas1 + cas2 + cas3 + cas5) / population moyenne au 1 er quadrimestre 97
Prévalence : remarques (1) La notion de prévalence intègre deux dimensions différentes : durée de la maladie : plus la maladie dure, plus le nombre de malades présents est grand ex 1 : dans une maladie chronique P (prévalence) peut augmenter car les traitements ont amélioré la survie ex 2 : P population A < P population B peut refléter que la mortalité dans la population A > à celle de B vitesse d apparition des nouveaux cas : plus elle est grande plus P augmente Exemple : Population A Population B 1-1-90 1-1-97 1-1-90 1-1-97 M+ 5 100 15 330 25 160 48 300 M- 37 400 28 470 100 640 89 700 Total 42 500 43 800 125 800 138 000 P 12 % 35 % 20 % 35 % Évolution différente entre les 2 populations pour une même prévalence au 1-1-97
Prévalence : remarques (2) Sous certaines conditions, la prévalence est le produit de l incidence instantanée par la durée moyenne de la maladie incidence faible population stable incidence et prévalence constantes au cours du temps
Notations : remarques préliminaires Nous allons à présent poser des notations utiles au calcul des différents indicateurs de risque qui vont être abordés. Lors du calcul d indicateurs, il faudra bien veiller à construire le tableau de contingence 2 lignes - 2 colonnes de la manière dont il est présenté. Le même tableau est utilisé pour les enquêtes exposés-non exposés et les enquêtes cas-témoins. La variable d intérêt n étant pas la même dans ces 2 cas (la maladie dans les enquêtes exposés-non exposés et l exposition dans les enquêtes cas-témoins) les notations seront différentes.
Notations M + M - Total E + a b n1 E - c d n0 Total m1 m0 n Exposés - non Exposés Cas-témoins Fréquence de la maladie chez les exposés + + ( M E ) R = P = a 1 n1 Fréquence de la maladie chez les non exposés + ( M E ) R = P = c 0 n0 Fréquence de l exposition chez les malades + + ( E M ) P E = P = a 1 m Fréquence de l exposition chez les non malades + ( E M ) P E = P = b 0 m 0 1 Voir exercice 1
Risque de maladie ou risque absolu Définition : c est la probabilité de présenter un événement donné pendant une période de temps (horizon du risque). R t = nombre de nouveaux cas nombre d' exposés au début Et si TI est constant et petit : R t TI t
Risque de maladie ou risque absolu Réduction relative du risque : réduction proportionnelle du risque entre les deux groupes R 0 ( t) : risque absolu quand on n est pas exposé au facteur R 1 ( t) : risque absolu quand on est exposé au facteur RRR t = R 1 ( t) R0 ( t) R ( t) 0 Réduction absolue du risque : RAR t = R 1 ( t) R ( t) 0 Nombre de sujets à traiter pour éviter un événement (en thérapeutique) : NST = 1 RAR ( t) Voir exercice 2
Risque de maladie ou risque absolu Remarque : les formules précédentes correspondent au cas où le traitement expérimental réduit le risque d un événement défavorable on aura le même type d indicateurs dans deux autres cas : Probabilité de l évènement favorable est augmentée par le traitement Probabilité de l évènement défavorable est augmentée par le traitement Augmentation Relative du Bénéfice Augmentation Absolue du Bénéfice NST Augmentation Relative du Risque Augmentation Absolue du Risque NSTD
Risque relatif Définition : mesure l augmentation du risque de maladie chez des sujets exposés par rapport à des sujets non exposés + + ( M /E ) R1 + ( M /E ) R0 P RR = = P Remarque : si RR < 1, effet protecteur si RR = 1, pas d effet si RR > 1, effet néfaste L estimation des probabilités de maladies, donc de RR, n est possible que dans les enquêtes de cohorte Voir exercice 3
Odd ratio Définition : mesure la force de l association entre la maladie et un facteur de risque. Il est défini à partir des probabilités de maladie chez les exposés et les non exposés, ou par les probabilités d exposition chez les cas et les témoins. OR = R R 1 0 ( 1-R ) 1 ( 1-R ) 0 = P P E E 1 0 ( 1 P ) E ( 1 P ) E 1 0 = ad cb Remarque : OR est estimable quel que soit le type d étude (enquêtes cas-témoins +++)
Risque individuel / Risque pour une population Les RR et OR sont des indicateurs mesurant l intensité d un risque au niveau individuel. Il ne donnent pas d information concernant l importance d un facteur de risque au niveau d une population. Les indicateurs qui vont être maintenant présentés permettent de mesurer l importance d un facteur de risque au niveau d une population. Se sont des indicateurs de mesure d impact potentiel.
Fraction de risque attribuable Définition : proportion de cas attribuables à l exposition étudiée. Mesure le nombre de cas qui seraient évités si l exposition au FDR était supprimée M E RA = + M M E + : nb de nouveaux cas dus à l exposition M : nb de nouveaux cas pendant la période étudiée Selon le type d enquête : Exemple : enquête de cohorte (enquête cas-témoins : RR est remplacé par OR). RA = P P E E ( RR-1) ( RR-1) + 1 P E : fréquence de l exposition dans la population
Fraction étiologique Définition : proportion de cas dus à l exposition parmi les sujets exposés FE = RR -1 RR Il s agit donc de la même expression que pour la fraction de risque attribuable dans le cas où 100 % des sujets sont exposés (P E = 1). Voir exercice 4
Fraction préventive Définition : proportion de cas de maladie évités par la présence du FDR FP = PE (1 RR) P E : fréquence de l exposition dans la population
Indicateur et précision de l estimation : préambule Jusqu à présent nous nous sommes intéressé à la valeur ponctuelle estimée de l indicateur (RR, OR, ). Cette information seule n est pas suffisante. L interprétation et la production d un résultat statistique doit intégrer une autre dimension : la précision (ou la variabilité) de l estimation. L intervalle de confiance (IC est décrit dans ce qui suit) à également valeur de test : si l intervalle de confiance d un RR ne contient pas la valeur 1, alors ce RR est significatif; le RR est non significatif lorsque l IC contient la valeur 1.
Indicateur et précision de l estimation Paramètre de position : estimation ponctuelle de la mesure Paramètre de dispersion : variance de la mesure 70 60 50 40 30 20 10 0 10Positions 20 20 différentes, 30 40 50même 60 dispersion 70 80 50 70 60 50 40 30 20 10 0 10 20 20 30 40 50 60 70 80 90 100 Dispersions différentes, même position 40 30 Intervalle de confiance 20 10 Pr = 0,95 0 IC 95% inf 1 2 3 4 5 6 7 8 9 10 11 12 13 µ IC 95% sup La probabilité que IC 95% inf < µ < IC 95% sup est de 95%
Indicateur et précision de l estimation : exemple M+ M- E+ 210 52 262 E- 120 180 300 Total 330 232 562 + + ( E ) + ( / E ) P M / 210 262 RR = = = 2,00 P M 120 300 Var IC IC 50 40 b n a ( Log( RR) ) = + = 0, 006 1 d n c 0 ( Log( RR) ) = 0,69 ± 1,96 0,006 [ 0,54;0,84] 95 % = ( RR) [ 1,71;2,32] 95 % = Le calcul de l IC du RR nécessite d estimer la variance du logarithme du RR, de calculer l IC de Log(RR), puis de prendre l exponentielle de l IC de Log(RR) 30 20 10 0 Pr = 0,95 1,71 2,32 2,00 IC(RR) avec α=5% 1 2 3 4 5 6 7 8 9 10 11 12 13 La probabilité que 1,71 < RR < 2,32 est de 95%
Quelques relations entre les risques Risque absolu et RR : ( t) = R 0( t) 01 R 1 RR R 0 ( t) = risque absolu dans le groupe de base (référence) R 1 ( t) = risque absolu dans le groupe «à risque» RR et OR : OR ( 1-R ) RR 0 = 1-RR R 0 OR RR si le risque de maladie chez les sujets non exposés (R 0 ) est faible.
Quelques relations entre les risques RR A et RR B : RR = RR RR AB A B Hypothèses : modèle multiplicatif, pas d inter-action entre les deux facteurs. Idem pour les OR
Etude de survie à 5 ans de patients atteints de cancer de la sphère ORL Variables RR IC Localisation Larynx 1 - Bouche 1,65 [1,16 ; 2,34] Pharynx 1,55 [1,13 ; 2,21] Autres 1,78 [1,17 ; 2,69] T Petite 1 - Grande 2,10 [1,63 ; 2,72] N Non 1 - Oui 1,34 [1,05 ; 1,70] M Absente 1 - Présente 2,78 [1,66 ; 4,66] RR pour un patient ayant une tumeur laryngée, grande, avec envahissement ganglionnaire et sans métastases (en l absence d inter-action entre les différents facteurs) : RR = RR Larynx xrr T Grande xrr N Oui xrr M Absente RR= 1x2,10x1,34x1 = 2,81 (par rapport une tumeur petite N-).
Quelques références Bouyer J, Hémon D, Cordier,. et al. Épidémiologie : principes et méthodes quantitatives. INSERM, Paris, 1995. Rumeau-Rouquette C, Blondel B, Kaminski M, Bréart G. Epidémiologie méthodes et pratique, Médecine-Sciences Flammarion, Paris, 1994.
Probabilité conditionnelle La notation P(A / B) correspond à une probabilité conditionnelle. Il s agit de connaître la probabilité d avoir A lorsque l on dispose déjà d une information sur B (probabilité d avoir A sachant B). L information apportée est donc différente de la probabilité élémentaire de A. La probabilité de A sachant B est définie par : d où P(A B ) = P(A / B)P(B) = P(B / A)P(A) et P ( A B) / = P P ( A/ B) ( B / A) P( A) P( B) Théorème de Bayes = P ( A B) P( B) P ( A / B) i = P P( B / Ai ) P( Ai ) ( B / A ) P( A ) +... P( B / A ) P( A ) 1 1 + Formule développée de Bayes n n