Examen de l UE de biostatistique du 9 avril 2015

Examen de l UE de biostatistique du 9 avril 015 Les questions sont indépendantes et peuvent être traitées dans le désordre. Les carcinomes hépatocellulaires (CHC) ou cancers du foie peuvent se développer chez des sujets contaminés par le virus de l hépatite C (VHC). On connait cependant le rôle de la présence d'autres pathologies et une étude s'est intéressée au rôle de la co-infection par le VIH (Virus de l Immunodéficience Humaine). Deux groupes de patients ont donc été constitués à partir du recrutement des 3 derniers mois des services de cancérologie hépatique participant : 35 patients mono infectés par le VHC et 35 patients infectés par le VHC et co-infectés par le VIH (tous les patients co-infectés ont été inclus). Le but de cette étude était de comparer les caractéristiques des patients et des tumeurs cancéreuses selon qu'il y avait ou pas une co-infection par le VIH. Il y a plusieurs types de tumeurs du foie, on distinguera ici les tumeurs infiltrantes et les tumeurs nodulaires et parmi ces dernières les tumeurs nodulaires uniques ou multiples. Une partie des résultats de l'enquête est donnée dans les tableaux en fin d'énoncé. On considérera que les variables continues ont des distributions normales. 1. a. Quel est le pourcentage d hommes dans l étude et son intervalle de confiance? b. Quelle est l intervalle de confiance de l âge au diagnostic de CHC sur l ensemble des patients inclus dans l étude?. Les facteurs suivants diffèrent-ils selon que les patients sont mono infectés ou coinfectés : a. le sexe? b. l âge au diagnostic de CHC? c. le délai depuis le diagnostic de sérologie positive pour le VHC? d. le type de tumeur? 3. L alpha foeto-protéine (AFP) a été dosé chez les patients de l'étude. C'est un marqueur tumoral dont le taux sanguin est augmenté en cas de cancer du foie et qui est utilisé pour le dépistage et le suivi du traitement. a. Le taux sanguin d AFP (Y) a été mesuré au moment du diagnostic de CHC chez 66 sujets. Diffère-t-il selon le type de tumeur? b. Le taux sanguin d AFP (Y) est-il lié au diamètre de la tumeur (X)? (On vous donne en plus m x = 37,3 mm, s x = 30,1 mm, m y = 165,1 ng/ml et s y = 343,1 ng/ml et Σ xy = 593340). 4. Un nouveau traitement, utilisé chez des patients mono-infectés parait améliorer Master de Santé Publique - 014-015 1 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

significativement la survie. On voudrait tester son efficacité chez des patients co-infectés en le donnant à un malade sur 3, les autres recevant le traitement standard. On souhaiterait pouvoir mettre en évidence une différence de durée moyenne de survie de 6 mois et calculer le nombre de sujets nécessaire. a. Combien faudrait-il de sujets pour une puissance de 95%? b. Même question avec une puissance de 80%? c. Lequel de ces deux choix de nombre de sujets conseilleriez-vous? Master de Santé Publique - 014-015 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

ableau 1 : Principales caractéristiques des patients au moment du diagnostic de Carcinome Hépatocellulaire. Groupes de patients Mono-infectés Co-infectés Effectif 35 35 Femmes (%) 6 (17,1 %) 3 (8,6 %) Age (ans) m= 58,5; s =104,5 m= 50,1; s =3,7 Délai depuis le diagnostic VHC (ans)* n=4 ; m=13,04 ; s =77,3 n=33 ; m=15,30 ; s =34,7 ype de tumeur Infiltrante Nodulaire unique Nodulaire multiple 0 19 16 8 0 7 Nombre de décès (%) 11 (31,4 %) 1 (60,0 %) Durée de survie (mois) m= 9,7; s = 308,5 m= 19,5; s = 76,9 * attention, les effectifs sont différents pour cette variable en raison de données inconnues ableau : aux sanguin d'afp en fonction du type de tumeur au diagnostic. ype de tumeur Infiltrante Nodulaire unique Nodulaire multiple Effectif 8 38 0 AFP (ng/ml) m= 500 ; s = 1869,4 m= 13,4; s = 131045,7 m= 110,5; s = 48351,4 Master de Santé Publique - 014-015 3 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

Unité d'enseignement de biostatistiques Examen du 9 avril 015 - Corrigé 1. a. Le pourcentage observé d hommes peut être calculé à partir du tableau 1. Il y a en effet 9 femmes et donc 61 hommes parmi les sujets de l'étude et le pourcentage d'hommes est donc p o = 61 = 0,871 soit 0,87. Pour trouver l intervalle de confiance du pourcentage vrai P 70 dans la population, on utilise la formule p 0 ± z α / p o q o n qui fait appel à l approximation de la loi binomiale par la loi normale (rappelons que la vérification de la validité de l utilisation de cette approximation ne peut être faite qu après le calcul de l intervalle de confiance). 0,87 0,13 On obtient ici : 0,87 ± 1,96 = 0,87 ± 0,08 soit : [0,79 ; 0,95] 70 Ici, les conditions d application ne sont pas satisfaites puisque nq s = 70 x 0,05 = 3,5 < 5. L intervalle trouvé ne doit donc pas être retenu. Il faut donc recourir à la table 5 qui donne : [76,99 % ; 93,95 %] [0,77 ; 0,94]. b. Pour calculer l intervalle de confiance de la moyenne de l âge au diagnostic de CHC sur l ensemble des patients inclus dans l étude il faut aussi se servir aussi des données du tableau 1 et commencer par calculer la moyenne m et la variance s et la variance de l'âge sur l'ensemble de l'échantillon. En repérant les sujets mono-infectés par l indice 1 et les sujets co-infectés par l indice, on nm + nm 35 58,5 + 35 50,1 1 1 a : m = = = 54,3 n + n 70 1 La moyenne de l âge sur l ensemble des sujets de l étude est donc de 54,3 ans. Le calcul des variances est un peu plus compliqué. Rappelons qu il s agit de la variance de l échantillon réunissant les sujets mono-infectés et les sujets co-infectés et non pas de la variance commune aux sujets mono-infectés et co-infectés. Le calcul est le suivant avec toujours la même règle, à savoir les sujets mono-infectés repérés par l indice 1 et les sujets co-infectés par l indice : s 1 x + nm x x n m = = n 1 n 1 = ( ) (n 1)s + n m + (n 1)s + n m n m 1 1 1 1 (n 1) ( ) 34 104,5 + 35 58,5 + 34 3,7 + 35 50,1 70 54,3 = = 81,066 81,07 69 Master de Santé Publique - 014-015 4 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

La variance de l âge sur l ensemble des sujets de l étude est donc de 81,07 ans. Nous pouvons désormais calculer l intervalle de confiance de la moyenne de l âge sur l ensemble des sujets de l étude. Comme la taille de l'échantillon est supérieure à 30, l'intervalle de confiance est donné par : s 81,07 m ± zα/ = 54,3 ± 1,96 = [ 5,19 ; 56,40] [ 5, ; 56,4]. n 70 Aucune autre condition d'application n'est requise puisque l effectif est supérieur 30.. a. Les hypothèses à tester sont : H 0 : P 1 = P et H 1 : P 1 P où P 1 et P sont les pourcentages vrais d hommes chez les patients mono ou co-infectés. Le tableau de χ permettant de faire le test peut être reconstitué à partir des données de l énoncé. Sexe Hommes Femmes Mono-infectés Co-infectés 9 3 (30,5) (30,5) 61 6 3 (4,5) (4,5) 9 35 35 70 Les conditions d application du test de χ ne sont pas satisfaites puisqu'au moins un des effectifs théoriques (entre parenthèses) est inférieur à 5. Comme tous les effectifs théoriques sont supérieurs à 3, on peut (et on doit!) utiliser la correction de Yates. On obtient : ( 9 30,5 0,5) ( 3 4,5 0,5) χ o = +... + = 0,51. 30,5 4,5 La valeur de χ o étant inférieure à la valeur seuil de la loi de χ à 1 ddl (3,84) on ne rejette pas H 0. On ne met donc pas en évidence de lien entre le sexe et le statut mono ou coinfectés par le VIH des patients. b. Les hypothèses à tester sont : H 0 : µ 1 = µ et H 1 : µ 1 µ, où µ 1 et µ sont les moyennes vraies de l âge au diagnostic de CHC chez les mono ou co-infectés par le VIH. Comme les deux échantillons ont des effectifs supérieurs à 30, on peut utiliser l'approximation par la loi normale (aucune condition d'application n'est nécessaire). Le test est donc : z 0 m1 m 58,5 50,1 = = = 4,39. s1 s 104,5 3,7 + + n n 35 35 1 Master de Santé Publique - 014-015 5 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

La valeur de z 0 étant supérieure à 1,96, on rejette l hypothèse H 0. On met donc en évidence une différence entre les moyennes de l âge au diagnostic selon le statut VHC du patient. Le degré de signification est ici égal à p < 10-5. La différence est dans le sens d une moyenne de l âge des sujets mono-infectés plus grande que dans le groupe des sujets co-infectés. c. Les hypothèses testées sont : H 0 : µ 1 = µ et H 1 : µ 1 µ, où µ 1 et µ sont les moyennes vraies du délai écoulé depuis le diagnostic VHC jusqu à la découverte du CHC. Le nombre de sujets du groupe mono-infectés étant inférieur à 30, il faut utiliser le test de Student qui nécessite que les distributions des délais soient normales, ce qui est supposé dans l énoncé, et de même variances. On peut vérifier l'hypothèse d'égalité des variances en s1 77,3 3 calculant F0 = = =,3 qu'il faut comparer à la valeur seuil à,5% de F qui est 3 s 34,7 comprise entre F 0 30 variances avec p<5%. (,0) et On doit donc utiliser le test approché qui donne : 4 F (,14). On met en évidence une différence entre les deux 40 13,04 15,30 t ' 0 = = 1,09. Cette valeur 77,3 34,7 + 4 33 doit être comparée à la valeur seuil à,5% de la loi de Student à 38 ddl qui est l entier le s 1 s + plus proche de : = n1 n 18,59 k = = 37,59. 1 s 1 1 s 0,4855 + n1 1 n1 n 1 n Cette valeur seuil est comprise entre celle pour 30 ddl (,04) et celle pour 40 ddl (,01). On ne met donc pas en évidence de différence du délai depuis le diagnostic VHC entre les sujets mono-infectés et les autres. d. Pour répondre à la question, il faut comparer les distributions du type de tumeur chez les mono et co-infectés. Les hypothèses testées sont : H 0 : P 1 = P = P 3 et H 1 : il y a au moins une différence, où P 1, P et P 3 sont les pourcentages vrais de mono-infectés dans les trois catégories de type de tumeur. Remarque : on pourrait aussi écrire, de façon équivalente, les hypothèses testées : H 0 : P 11 = P 1 ; P 1 = P ; P 31 = P 3 et H 1 : il y a au moins une différence, où P i1 et P i sont les fréquences de la catégorie i de fréquence de type de tumeur chez les mono-infectés et chez les coinfectés. Le tableau de χ correspondant, qui peut être constitué à partir des données du tableau 1, est le suivant : Master de Santé Publique - 014-015 6 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

Mono-infectés Co-infectés otal Infiltrante 0 (4,0) 8 (4,0) 8 Unique 19 (19,5) 0 (19,5) 39 Multiple 16 (11,5) 7 (11,5) 3 otal 35 35 70 Les conditions d'application du test de χ ne sont pas satisfaites car deux effectifs théoriques sont inférieurs à 5. Comme il ne s'agit pas d'un tableau à 4 cases, la correction de Yates n'est pas possible. Il est, par contre, possible de regrouper les colonnes «Nodulaire Unique» et «Nodulaire Multiple» pour former une nouvelle catégorie «Nodulaire» et comparer cette catégorie aux «Infiltrants». Les nouvelles hypothèses à tester sont alors : H 0 : P 1 = P et H 1 : P 1 P où P 1 et P sont les pourcentages vrais de tumeurs infiltrantes entre les patients mono et co-infectés. Le nouveau tableau ainsi obtenu est le suivant : Mono-infectés Co-infectés Infiltrante 0 (4,0) Nodulaire 35 (31,0) 8 (4,0) 7 (31,0) 35 35 70 Les conditions d application du test de χ ne sont pas satisfaites puisque deux des effectifs théoriques (entre parenthèses) est inférieur à 5. Comme tous les effectifs théoriques sont supérieurs à 3, on peut utiliser la correction de Yates. On obtient : 8 6 0 4 0,5 8 4 0,5 35 31 0,5 7 31 0,5 χ = + + + 0 = 6,915 soit 6,9 4 4 31 31 La valeur obtenue étant supérieure à la valeur seuil de la loi de χ à 1 ddl (3,84), le test est significatif. On rejette H o. On met donc en évidence une différence entre les pourcentages de tumeurs infiltrantes chez les mono et les co-infectés. Le degré de signification de cette différence est p<1%. On observe que le pourcentage de tumeurs infiltrantes est plus grand chez les sujets co-infectés. 3. a. Il s'agit de comparer les 3 moyennes du niveau d AFP selon le type de tumeur. Les hypothèses testées sont : H 0 : µ 1 = µ = µ 3 et H 1 : il y a au moins une différence où les µ i sont les moyennes vraies du niveau d AFP dans les 3 groupes de type de tumeur. Les conditions d'application sont : distribution du niveau d AFP dans chaque groupe normale et de même variance. La normalité est supposée dans l énoncé (mais ne peut pas être Master de Santé Publique - 014-015 7 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

vérifiée avec les données de l'énoncé), et on peut constater que les variances qui figurent dans le tableau ne sont pas trop différentes (leurs rapports ne dépassent pas 3) (un test non au programme confirmerait qu'elles ne sont pas significativement différentes). Les calculs intermédiaires pour établir le tableau d'analyse de la variance, obtenus à partir du tableau, sont les suivants : n i m i = 8 500 + 38 13,4 + 0 110,5 = 885,8 G = n i m i = 8 76, + 38 13,4 + 0 110,5 = 10899, (n s R = i 1)s i = (n i 1) 5197,671 7 1869,4 + 37 131045,7 +19 48351,4 7 + 37 +19 Le tableau d'analyse de la variance est donc : Source de variation Entre types de tumeur = 667453,3 63 = 105197,67110 Somme des carrés des ddl Variance F écarts 51148,50 G nm i i = 10965,00 51148,50 F0 = = 4,86 n 105197,67 n k s R = 63 105197,67 63 105197,67 Résiduelle ( ) F 0 doit être comparé à la valeur seuil lue pour 5% dans la table F, qui est comprise entre 63 F (3,18) et 50 F (3,1). On rejette donc H 75 0. On met en évidence un lien entre le niveau mesuré d AFP au diagnostic de CHC et le type de tumeur. Le degré de signification est p < 1%. On observe que le lien est dans le sens d'un dosage d AFP plus élevé lorsque le type de tumeur est infiltrant. b. Pour étudier le lien entre le dosage de d AFP (Y) et le diamètre de la tumeur (X), il faut calculer leur coefficient de corrélation et tester s'il est différent de 0. Le coefficient de corrélation est égal à : xy nmxmy 593340 66 37,3 165,1 r = = = 0,8 (n 1) s s 65 30,1 343,1 X Y Il faut alors tester les hypothèses : H 0 : ρ=0 et H 1 : ρ 0 où ρ est le vrai coefficient de corrélation entre Y et X. Les conditions d'applications sont : régression linéaire entre Y et X et distributions de Y à X fixé (ou de X à Y fixé) normales de variance constante. r n 0,8 64 Le test consiste à calculer t0 = = =,33. t 0 dépasse la valeur seuil de la 1 r 1 0,8 loi de Student à 64 degrés de liberté (intermédiaire entre le seuil lu sur la ligne ddl=60 et la ligne ddl=100). On rejette donc H 0 et on conclut que le coefficient de corrélation est différent Master de Santé Publique - 014-015 8 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

de 0; le degré de signification est p < 0,05. Puisque que r est positif la relation observée est dans le sens : plus le diamètre de la tumeur est élevé, plus le taux sanguin d AFP est élevé. 4. Le nombre de sujets nécessaire pour un test de comparaison de deux moyennes est donné par les formules : n 1 = k + 1 σ k Δ φ et n = k n 1. a. L énoncé nous indique que k = (il y a deux fois plus de malades qui reçoivent le placebo) et Δ = 6. Pour la variance, on prend σ = 76,9, valeur observée dans le groupe des coinfectés. Pour une puissance de 95%, avec un test bilatéral, la table 7A donne φ = 3,605. On obtient donc : 3 76,9 n1 = 3,605 = 149, 9 150 et n = 300 6 Il faudra donc 150 malades traités par le nouveau traitement et 300 par le placebo soit 450 sujets en tout. b. Pour une puissance de 80%, la table 7A donne φ =,80. D où : 3 76,9 n1 =,80 = 90,58 91 et n = 18 6 Il faudra donc 91 malades traités par le nouveau traitement et 18 par le placebo soit 73 sujets en tout. c. Les services qui participent à l'étude ont recruté 35 patients co-infectés en 3 mois. Il faudra donc 39 mois, soit un peu plus de 3 ans pour recruter les 450 patients nécessaires pour avoir une puissance de 95%. Avec une puissance de 80%, moins de ans seront suffisants. Si une puissance de 80% semble satisfaisante pour les investigateurs, on voit donc que cela facilite la réalisation de l'essai. Il ne faut cependant pas oublier que cela fait passer de 5% à 0% le risque de ne pas mettre en évidence l'efficacité du traitement. Master de Santé Publique - 014-015 9 Unité d'enseignement de biostatistiques - Examen du 9 avril 015

Histogramme des notes nombre de copies : 51 moyenne : 8,3 notes supérieures à 10 : 35% Master de Santé Publique - 014-015 10 Unité d'enseignement de biostatistiques - Examen du 9 avril 015