Faculté de Médecine Pierre et Marie Curie PAES UE4 : Evaluation des méthodes d analyse appliquées aux sciences de la vie Cours 5 : 4 Février 2013 A-J Valleron Hôpital Saint Antoine http://aj.valleron.free.fr/ajv 1 AJ Valleron, 2013 1
5 ème Cours : principaux tests statistiques document de cours : http://aj.valleron.free.fr/ajv/livre_ue4_cours.html livre AJV : fiches 16, 17, 19, 20, 24 (Mc Nemar), 29 Test de l hypothèse m A =m B puissance du test en fonc7on de l hypothèse alterna7ve. Calcul du nombre de sujets nécessaires Test non paramétrique Tests concernant la valeur théorique d un paramètre Tests concernant la comparaison de deux popula7ons Moyennes (cf cours 4) Propor7ons Tests du chi- deux test d «adéqua7on» à une distribu7on théorique Test de Mc Nemar pour comparer des données appariées test du logrank de comparaison de courbes de survies 2 AJ Valleron, 2013 2
étapes de l ETC Choisir un critère principal de jugement. (+ +) ( exemple : durée moyenne de survie) Déterminer la valeur Δ de différence entre les 2 groupes jugée intéressante à démontrer, si elle existe. Déterminer le risque β consenti de ne pas voir Δ, si elle existe. Calculer n Randomiser Analyser en intention de traiter. 3 AJ Valleron, 2013 3
Critère principal de jugement Dans la suite de CE cours, on choisira la survie moyenne. On pourrait choisir beaucoup d autres critères: exemple: % de patients avec survie > 12 mois, etc 0,4! 0,35! 0,3! 0,25! 0,2! 0,15! 0,1! 0,05! 0! 0! 4! 8! 12! 16! 20! 24! 28! 32! Survie après B (mois)! 36! 40! 44! 48! 4 AJ Valleron, 2013 4
Pratique du test de comparaison (critère : valeur moyenne) On se demande si deux traitements (A et B) ont des efficacités différentes. Le critère est la survie moyenne après traitement. La survie d un sujet traité par A est une v.a. X A (de moyenne µ A) On veut savoir si µ A et µ B diffèrent. pour résoudre ce problème, on dispose de deux échantillons sur lesquels on calcule m A et m B. ces données mènent elles à rejeter l hypothèse µ A = µ B? 5 AJ Valleron, 2013 5
6 AJ Valleron, 2013 6
On traite deux échantillons de n patients par A et B ; les survies moyennes calculées sont m A et m B ; d= m A m B. A partir de quelle valeur de d va-t on conclure que les survies moyennes µ A et µ B diffèrent? C est-à-dire : conclure que (Δ= µ A -µ B 0) Ou (identique) rejeter (Δ = µ A -µ B =0) 7 AJ Valleron, 2013 7
bon sens : Si d est nul, ou très petit, on n a pas envie de conclure que Δ est différent de zéro. Si d est très grand, on peut penser que Δ est différent de zéro. La théorie des tests permet de définir une valeur d lim séparant les «petites» et les «grandes» valeurs de d. 8 AJ Valleron, 2013 8
Formulation du Test (cas du test d efficacité) Dans un test d efficacité, on cherche à savoir si les traitements ont des efficacités différentes. D où le choix de H 0 : Δ =0 et H 1 : Δ 0 Si on rejette H0, on conclut à l efficacité du traitement. Le test garantira que le risque de dire que deux traitements sont différents, alors qu ils sont identiques est «faible» (risque de 1ère espèce) 5% Quand la différence d entre les moyennes observées de survie sera «grande» on rejetera H 0. 9 AJ Valleron, 2013 9
Test Bilatéral vs Unilatéral Hypothèse nulle : Δ = 0 Hypothèse alternative : test bilatéral : Δ 0 test unilatéral : Δ > 0 NB : pas de test unilatéral au concours, sauf si explicitement précisé. 10 AJ Valleron, 2013 10
loi de D = M A - M B E(D) = E(M A ) - E (M B ) = µ A - µ B = Δ D fluctue autour de la «vraie» valeur inconnue Δ Si l hypothèse nulle est vraie, Δ= 0 11 AJ Valleron, 2013 11
Si l 'hypothèse nulle est vraie,δ = 0 D fluctue autour de 0 et z = m A m B σ A 2 n A + σ 2 B n B = σ A 2 n A une loi normale réduite. z est inf érieur à 1,96 d + σ 2 B n B suit 95 fois sur100 Rappel: dans tous les exercices et QCM, arrondir 1,96 à 2 12 AJ Valleron, 2013 12
test comparant deux moyennes +++ «langage statisticien» NB: Comme on ne connait pas σ 2 A et σ 2 B, calculer z = m A m B s A 2 - Si z est compris entre -1,96 et +1,96 (= u 5% ), - la différence n est pas significative - on ne peut rejeter l hypothèse nulle - si z< -1,96 ou z>1,96, - la différence est significative, - on rejette l hypothèse nulle 2 n A + s B n B = d s d on les remplace par leurs estimations s A 2 et s B 2 n A et n B >30 le degré de signification p est cherché en comparant z à u p (par exemple, si z=-2,6, on a p=1%) 13 AJ Valleron, 2013 13
test comparant deux moyennes + + + langage normal calculer z = m A m B 2 2 s A n A + s B n B = d s d n A et n B >30 - Si z est compris entre -1,96 et +1,96 (= u 5% ), On ne peut dire que les deux traitements différent en moyenne - si z< -1,96 ou z>1,96, Les deux traitements diffèrent en moyenne (si z=-2,6, p= 1%) 14 AJ Valleron, 2013 14
comparaison de 2 moyennes +++ risques de 1ère et seconde espèce On rejette H 0 lorsque z > 1,96. Ceci, quand l hypothèse nulle est vraie, a une probabilité 5%. Le risque de 1ère espèce vaut toujours α = 5%. β dépend de Δ Δ est la différence (inconnue) entre les moyennes µα et µ Β (les «vraies» valeurs des moyennes selon la terminologie du polycopié) 15 AJ Valleron, 2013 15
Les 3 questions type + + + On compare deux traitements A et B. Deux groupes de 50 patients reçoivent A et B. Le critère de comparaison est la survie moyenne. On trouve comme estimations de la variance autour de 100 mois 2 dans les 2 groupes. 1. donner la valeur d lim de différence entre les deux moyennes à partir de laquelle on rejette l hypothèse nulle. 2. évaluer la puissance de cet essai sous différentes hypothèses d efficacité. 3. Donner le nombre de sujets par groupe qu on auarit dû employer dans cet essai thérapeutique AJ Valleron, 2013 16
c est la distribution de D sous H0 qui définit la zone de rejet On cherche à partir la valeur I d lim I pour laquelle z = 1,96 (en pratique on arrondit toujours à 2) Pour les valeurs de d < - d lim, ou > +d lim, on rejettera H 0 et on conclura : «les deux traitements sont différents» Dans cet exemple, d lim vaut 4. 17 AJ Valleron, 2013 17
1: à partir de quelle différence d lim entre les deux survies moyennes conclut on A B? Lorsque : z = m A m B s A 2 2 n A + s B n B = d s d >1,96 Donc, quand 18 d >1,96 s 2 A 2 + s B 2 100 n n 50 + 100 50 = 4 A B AJ Valleron, 2013 18
2 - Puissance de l expérience = 1-β +++ C est la probabilité de détecter que A et B sont d efficacité différente s ils le sont. C est donc la probabilité pour que z >1,96 quand A et B sont différents : équivalent : c est la probabilité pour que d > d lim = 4. Cette probabilité dépend de Δ 19 AJ Valleron, 2013 19
cas Δ = 1ms Δ = 1ms, donc Δ 0 La probabilité de trouver z >1,96 quand Δ = 1ms est (à très peu près) la même que lorsque Δ =0, c est à dire 5%. Puissance = 5% risque β = 95% 20 AJ Valleron, 2013 20
Distribution de D sous H 1 (Δ=3) On cherche la probabilité de rejeter H0 C est la probabilité pour que D> d lim z = (4-3)/2 = 0,5 On lit dans la table u 62% = 0,5 Puissance = 31% 21 AJ Valleron, 2013 21
Distribution de D sous H 1 (Δ=7) On cherche la probabilité de rejeter H0 C est la probabilité pour que D> d lim Ici z = (7-4)/2 = 1,5 On lit dans la table u 13% = 1,5 Puissance = 100% - 13%/2 = 93,5% 22 AJ Valleron, 2013 22
3 - Calcul du nombre de sujets nécessaires 1- il faut fixer la différence Δ i jugée intéressante. (( exple Δ i = 6mois )) 2- il faut fixer la puissance que l on désire (( exemple P = 90%, c. à d. β= 10% )) 23 AJ Valleron, 2013 23
La «différence intéressante» à démontrer Supposons que le critère de comparaison de deux traitements A et B soit la survie moyenne. Si µ A >µ B, le traitement A sera préferré au traitement B. On pose Δ = µ A -µ B Si Δ >0, et si la conclusion de l essai n est pas A>B, on a un défaut de puissance. Ce défaut pourrait être surmonté par un essai portant sur plus de sujets. Si Δ = 1 heure de survie, on ne regretterait sûrement pas le défaut de puissance. Si Δ = 2 ans de survie, on regretterait sûrement le défaut de puissance. On appelle Différence Intéressante Δ ι à démontrer la valeur de Δ à partir de laquelle on regretterait le défaut de puissance de l essai. très difficile à déterminer dans la pratique donné dans l énoncé dans les problèmes 24 AJ Valleron, 2013 24
Principe du calcul du nombre de sujets nécessaires dans un test de comparaison de moyennes Le nombre de sujets doit être tel que si la différence entre traitements vaut la valeur Δ ι jugée intéressante, la différence d entre les deux moyennes observées sur les échantillons ait une probabilité forte 1-β de tomber dans la zone de rejet de l hypothèse nulle ( car c est là qu on déclarera à juste titre que A B). 1-β = P (puissance) 25 AJ Valleron, 2013 25
ddp de d sous H0 d lim Zône de rejet Zône de rejet d ddp de d sous H1 d lim d 26 AJ Valleron, 2013 26
On calcule d lim (valeur limite pour rejeter H 0 ) de deux façons On rejette H 0 quand Pour que la Puissance soit P = 1 - β, il faut que d > d lim = 1,96 s A 2 2 n + s B n 2 s d lim = Δ 1 u A 2β n + s 2 B n où u 2β est lu dans la table "aux deux extrémités " 27 AJ Valleron, 2013 27
Nbre de sujets nécessaires ++++ n > (1,96 +u 2β )2 Δ i 2 (2s 2 ) s 2 est l estimation de la variance du critère dans les deux groupes. Avec 2 groupes de n sujets calculés ainsi : il y a seulement probabilité β pour que - dans le cas où la différence d efficacité moyenne est égale, ou supérieure à Δ i - le test statistique ne rejette pas H 0 et que, par conséquent on ne déclare pas les traitements différents. 28 AJ Valleron, 2013 28
application numérique Δ i = 6 mois β = 10% z 1-β = 1,28 s 2 =200 n = 3,28 2 x (200+200) / 36 = 120 29 AJ Valleron, 2013 29
Principes de construction communs à tous les tests 1 : poser le problème : On cherche si les données observées sur l échantillon permettent de conclure que : A. Les traitements A et B ont des efficacités différentes B. La valeur d un paramètre (moyenne, médiane, proportion, variance, ) d une population estimée sur un échantillon diffère d une valeur «théorique» donnée à l avance. C. La distribution de probabilité d une variable diffère d un modèle théorique donné à l avance. D. La quantité X et la quantité Y sont «corrélées» entre elles E. Les sujets qui ont telle caractéristique ont plus souvent que les autres telle autre caractéristique 30 AJ Valleron, 2013 30
Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : A : Pour conclure : Les traitements A et B ont des efficacités différentes Il faut rejeter H0 : «les traitements sont de même efficacité» 31 AJ Valleron, 2013 31
Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : B : Pour conclure : La valeur d un paramètre (moyenne, médiane, proportion, variance, ) d une population estimée sur un échantillon diffère d une valeur «théorique» donnée à l avance Il faut rejeter H0 : «le paramètre a la valeur théorique donnée» 32 AJ Valleron, 2013 32
Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : C. Pour conclure : La distribution de probabilité d une variable diffère d un modèle théorique donné à l avance. Il faut rejeter l hypothèse nulle H0 : «l échantillon provient d une population où la variable suit le modèle XXX» 33 AJ Valleron, 2013 33
Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : D. Pour conclure : La quantité X et la quantité Y sont «corrélées» entre elles. Il faut rejeter l hypothèse nulle H0 : X et Y sont indépendantes. 34 AJ Valleron, 2013 34
Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : E. Pour conclure : Les sujets qui ont telle caractéristique ont plus souvent que les autres telle autre caractéristique Il faut rejeter l hypothèse nulle H0 : «les sujets qui ont, et ceux qui n ont pas, telle caractéristique ont aussi souvent l autre caractéristique» 35 AJ Valleron, 2013 35
Principes de construction communs à tous les tests 3 : déterminer le critère utilisé dans le test Déterminer un critère dont on connaît la distribution quand H0 est vraie (cours 4 : le critère était z). Identifier la zone de rejet de H 0 Le critère a 5 chances sur 100 d y tomber si H 0 est vraie Il a P chances sur 100 d y tomber si H 0 n est pas vraie ( P = puissance = 1 β avec β = risque de seconde 36 espèce) AJ Valleron, 2013 36
Principes de construction communs à tous les tests 4 : faire les calculs, conclure. Si le critère tombe dans la zone de rejet, dire : Les données permettent de rejeter l hypothèse nulle (et le degré de signification vaut ) Ou : on a mis en évidence une différence significative entre et (degré de signification) Si le critère ne tombe pas dans la zone de rejet, dire : Les données ne permettent pas de rejeter l hypothèse nulle Ou : on n a pas mis en évidence de différence entre les deux groupes, d écart à la loi théorique testée, une relation entre els 2 variables, etc 37 AJ Valleron, 2013 37
Tests concernant la valeur théorique d un paramètre La probabilité π d un événement est-elle différente de π 0? Cas traité au cours 4 (Loi de Mendel avec π 0 =3/4) La moyenne µ de la variable X est elle différente d une valeur donnée µ 0? Cas traité ici : séries appariées, avec µ 0 =0 + + La variance de la variable X est elle différente d une valeur donnée σ 02? Cas traité ici: test de la loi de Poisson 38 AJ Valleron, 2013 38
Séries appariées Méthode des couples - On se demande si la valeur moyenne d un paramètre change après un traitement : X est la valeur «avant», Y est la valeur «après», D = Y X est la différence. E(D) = µ. - On a un échantillon de n couples de valeurs M = (D 1 + D 2 +. +D n )/n et E(M) = µ - Hypothèse nulle : E(D) = µ = 0 On calcule la moyenne d des n différences et on estime leur variance s d 2 : Si H 0 est vraie, on a u = n d'où le test : rejeter H 0 si u >1,96 d s d 2 < 1,96 95 fois sur 100 39 AJ Valleron, 2013 39
Exemples d application de la méthode des «couples» (appariement) Deux correcteurs notent-t ils en moyenne différemment? On fait noter n copies par A et B. On note pour chaque copie d = x A x B. Met on en évidence une différence entre les deux correcteurs? N sujets sont traités. On dose un paramètre biologique avant et après leur traitement On note pour chaque sujet d = x A x B. Met on en évidence une différence avant et après traitement? N sujets reçoivent un traitement dermatologique par A, soit sur un côté du visage, soit par B sur un autre. On tire au sort le côté. x A et x B sont les 2 résultats. On note pour chaque sujet d = x A x B. Meton en évidence une différence d efficacité selon le traitement? 40 AJ Valleron, 2013 40
Test de la valeur d une variance (exemple de la méthode de construction d un test) Résultat (à ne pas mémoriser) : Si X a une distribution normale de moyenne µ et de variance σ 2, l estimation S 2 de la variance σ 2 est distribuée approximativement normalement, sa moyenne vaut σ 2 et sa variance vaut 2 σ 4 /n. Condition de validité : n>30 41 AJ Valleron, 2013 41
Exercice : On suppose que X est distribué selon une loi de Poisson de paramètre 50. Donner l intervalle de pari au risque 5% de l estimation de la variance de X qui sera trouvée sur un échantillon de 200 sujets. Il suffit d écrire que S 2 est de moyenne 50 et de variance 2 x 50 2 /200 = 50 2 /100 = 5 2 D où 50 1,96 x 5< S 2 < 50 + 1,96 x 5 ( au risque 5% près), soit 40 <s 2 <60 On a appliqué les résultats : - Moyenne = variance = paramètre de la loi de Poisson - Loi de Poisson de paramètre >30 est approximativement normale 42 AJ Valleron, 2013 42
Test de la valeur d une variance On se demande si X suit une loi de Poisson de paramètre 50. On a un échantillon de 200 valeurs ; on calcule l estimation s 2 et on trouve s 2 = 67. Réponse: H 0 est : X suit la loi de Poisson 67 tombe dans la zone de rejet de H 0 (dia précédente). Le degré de signification est obtenu par u = (67 50) /5 = 3,4 d où p=0,001 43 AJ Valleron, 2013 43
À propos du test précédent : Retenir le raisonnement général. On a des données observées sur un échantillon (ici, s 2 = 67 sur n =200) On sait qu un autre échantillon de 200 mènerait à une autre valeur de s 2. On a noté S 2 la v.a. variance sur un échantillon de 200 ( 67 est une réalisation de S 2 ) On ne se demande pas si 67 est différent de 50! (il l est). On se demande s il en diffère «significativement». On pose l hypothèse nulle (ici, c est σ 2 = 50). On calcule la distribution de S2 si l hypothèse nulle est vraie, et on en déduit la zone de rejet : zone dans laquelle S2 a 5 chances sur 100 de tomber quand H0 est vraie. Quand l observation y tombe (comme ici) : on conclut non pas que H0 est vraie, mais qu on est malchanceux, mais qu elle est fausse. 44 AJ Valleron, 2013 44
Comparaison de deux populations (valeur moyenne de X) On a trouvé qu on rejetait l hypothèse nulle µ A - µ B =0 quand ( si n A et n B >30) z = m A m B s A 2 2 n A + s B n B = d s d >1,96 45 AJ Valleron, 2013 45
Comparaison de deux populations (proportion d un caractère) : 1 Exemple : On suppose que, après le traitement A, une proportion π A de sujets survit >1an ; et qu après B, cette proportion est π B. On observe sur 2 échantillons de n A et n B sujets les proportions p A et p B. Quand (*) peut on conclure que π A π B? (*) = à partir de quelle différence entre pa et pb?. 46 AJ Valleron, 2013 46
Comparaison de deux populations (proportion d un caractère) : 2 Quand peut on conclure que π A π B? On pose comme hypothèse nulle π A = π B P A est la proportion de survies> 1an dans un échantillon de n A sujets traités par A (id pour P B ) E(P A -P B ) = π A - π B (=0 si H 0 vraie) Var(P)= Var (P A ) + Var (P B )= π A (1 - π A ) / n A + π B (1 π B )/ n B 47 AJ Valleron, 2013 47
Comparaison de deux populations (proportion d un caractère) : 3 Quand peut on conclure que π A π B? On observe une proportion p A de survies > 1an dans l échantillon de n A sujets traités par A (et p B dans l échantillon traité par B) on rejette H 0 si : d = p u p = A p B p A (1 p A ) + p (1 p ) >1,96 B B n A n B conditions de validité à vérifier NB : cette formule est approchée mais donne des résultats numériques très voisins de la formule donnée dans 48 le polycopié (cf p. 117 du livre) AJ Valleron, 2013 48
Test non paramètrique de Wilcoxon de comparaison de 2 distributions Un test non paramétrique permet de ne pas faire d hypothèse sur la distribution du paramètre étudié Par exemple, le test de comparaison de moyennes suppose n>30 afin d appliquer le théorème central limite Le test de Wilcoxon(*) sera applicable avec n<30. (*) strictement : test de Mann Whitney Wilcoxon. 49 AJ Valleron, 2013 49
Les deux distributions dont sont issus les échantillons A et B diffèrentelles? A : 7, 12, 15, 34, 45, 46, 57, 78,82,83 B : 44, 67, 88, 89, 90, 95, 99, 121, 123,169 On rassemble en ordre croissant les valeurs provenant de A et B : 7, 12, 15, 34, 44, 45, 46, 57, 67, 78,82,83, 88, 89, 90, 95, 99, 121, 123, 169 Rangs de A : 1,2,3,4,6,7,8,10,11,12 Rangs de B : 5, 9, 13, 14, 15, 16,17,18,19,20 50 AJ Valleron, 2013 50
Principe des tests de rangs pour comparer deux distributions A et B Hypothèse nulle H 0 {les distributions sont identiques} Deux échantillons de n A et n B sujets. On suppose n A <n B. On range par ordre croissant les n=n A +n B sujets. Si H 0 est vraie, les n A valeurs sont au hasard parmi les n. Leur rang moyen est proche du rang moyen des n B valeurs 51 AJ Valleron, 2013 51
Test de Wilcoxon ++ On suppose n A n B ; et n A, n B 10 On note T la somme des rangs obtenus par A. ((dans l exemple particulier, T=64)) Z = T + 0,5 n A (n A + n B +1) / 2 N (0,1) sous H 0 n A n B (n A + n B +1) /12 ((ici, z= - 41,5/13,2 =- 3,1 <-1,96 On rejette donc H 0. et comme z< -2,57 le degré de signification est de 1%) 52 AJ Valleron, 2013 52
Tests du chi-deux 53 AJ Valleron, 2013 53
Loi du χ2 (Chi-deux) à n ddl Soit Z 1, Z 2, ------ Z n, n variables aléatoires indépendantes distribuées chacune selon une loi normale de moyenne 0 et de variance 1. Soit K n, la variable aléatoire définie par K n = Z 1 2 + Z 2 2 ----- + Z n 2 E(Kn) = n (car E(Z i2 ) = 1 ) La loi de probabilité de Kn est appelée loi du Chi-deux à n degrés de liberté (ddl) 54 AJ Valleron, 2013 54
1 0.8 0.6 0.4 0.2 1 0.8 0.6 0.4 0.2 0.5 0.4 0.3 0.2 0.1 1 2 3 4 5 2 4 6 8 2 4 6 8 10 0.1 0.08 0.06 0.04 0.02 0.1 0.08 0.06 0.04 0.02 5 10 15 20 25 10 20 30 40 50 distribution de probabilité des chi-deux : en haut à 1, 2 et 3 ddl ; en bas : à 10 et 20 ddl Pr(K1>3,84)=Pr(K2>5,99)=Pr(K3>7,82)=5% 55 AJ Valleron, 2013 55
Variable qualitative à k classes On suppose qu un individu peut appartenir à k catégories différentes qui sont dans la population en proportions π 1, π 2,..., π k. Par exemple : «guéris», «stationnaires», «aggravés». On tire au sort un échantillon de n sujets et on observe N 1, N 2,..., N k sujets dans les k catégories. N 1, N 2,..., N k sont des v.a. E(N i ) = n π i = c i 56 AJ Valleron, 2013 56
Résultat permettant de construire le test d adéquation à une distribution théorique donnée Q = i ( N c ) 2 i i c i suit une loi du chi deux à k-1 ddl Condition de validité : c 5 57 AJ Valleron, 2013 57
Exemple de «test d adéquation» du chi-deux tester si un couple de gènes suit la 2ème Loi de Mendel 2ème loi de Mendel : (Aa, Bb) x (Aa, Bb) avec A et B dominants. à la 2ème génération, on attend : 3/4 A et 1/4 a et 3/4 B et 1/4 b Si les gènes sont indépendants, on attend : 9/16 AB, 3/16 Ab, 3/16 ab, 1/16 ab 58 AJ Valleron, 2013 58
Exemple pratique de test de la seconde loi de Mendel. On trouve à la 2ème génération, sur 200 descendants : - 125 AB - 40 Ab - 20 ab - 15 ab On teste H 0 : «la 2ème loi de Mendel est vraie» contre H 1 : «elle n est pas vraie». 59 AJ Valleron, 2013 59
Détermination de la zone de rejet de H 0 Si H 0 est vraie, la quantité Q = i ( N c ) 2 i c i i avec c 1 = 200 x 9 / 16 = 112,5 a 5 chances sur 100 de dépasser 7,815 (chi-deux à 4-1 = 3 ddl). 60 AJ Valleron, 2013 60
Sous H 0, K3 a 5 chances sur 100 d être supérieur à 7,815 (table) (125 112, 5 ) 2 112, 5 + (40 37, 5)2 37, 5 + ( 20 37, 5)2 37, 5 + (15 12, 5)2 12, 5 = 1,4 + 0,2 + 8,2 + 0,5 = 10,3 on rejette H 0 La 2ème loi de Mendel n est pas vérifiée (p=0,02). 61 AJ Valleron, 2013 61
QCM On se demande si une variable aléatoire est distribuée selon une loi normale de moyenne 120 et d écart-type 10. On tire au sort un échantillon de 100 valeurs de cette v.a.. On en trouve 40 inférieures à 120 ; 44 comprises entre 120,1 et 129,9 ; 16 supérieures à 129,9. A- le test à utiliser est celui du chi-deux à 1 ddl. B- le test à utiliser est celui du chi-deux à 2 ddl. C- le test à utiliser est celui du chi-deux à 3 ddl. D- le chi-deux est compris entre 4,5 et 5,5 E - le chi-deux est compris entre 5,5 et 6,5 AJ Valleron, 2013 62
QCM On se demande si une variable aléatoire est distribuée selon une loi normale de moyenne 120 et d écart-type 10. On tire au sort un échantillon de 100 valeurs de cette v.a.. On en trouve 40 inférieures à 120 ; 44 comprises entre 120,1 et 129,9 ; 16 supérieures à 129,9. A- le test à utiliser est celui du chi-deux à 1 ddl. B- le test à utiliser est celui du chi-deux à 2 ddl. C- le test à utiliser est celui du chi-deux à 3 ddl. D- le chi-deux est compris entre 4,5 et 5,5 E - le chi-deux est compris entre 5,5 et 6,5 B D AJ Valleron, 2013 63
QCM (suite) A- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p=0.05) B- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p<0.01) C- on ne peut pas rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. D- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 5% près. E- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 1% près. AJ Valleron, 2013 64
QCM (suite) A- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p=0.05) B- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p<0.01) C- on ne peut pas rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. D- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 5% près. E- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 1% près. C AJ Valleron, 2013 65
Test de Mc Nemar Problème type : Pour évaluer un traitement, on prend n couples de sujets très ressemblants (du point de vue de leur réponse à la maladie). On tire au sort celui qui reçoit A et celui qui reçoit B. Le critère est S (succès) ou E (échec). Il y a : en notant en 1 er le résultat de A et en 2 ème celui de B a SE, b ES, c SS et d EE. La proportion observée de succès par A est (a + c)/ N La proportion observée de succès par B est (b + c)/ N Exemple (n= 40) : a = 4, b =8, c = 18, d = 10 Ces résultats permettent ils de dire que A B? 66 AJ Valleron, 2013 66
Test de Mc Nemar 1- pour savoir si A et B sont différents, les paires concordantes ( d et e) n apportent pas d information 2- pour savoir si A B, il faut savoir si a et b diffèrent «significativement» 3- L hypothèse nulle à tester est A = B. 4- Si cette hypothèse nulle était vraie, sachant qu il y a a + b «désaccords», on s attend en moyenne à (a+b)/2 cas où A>B et (a+b)/2 cas 67 où A<B AJ Valleron, 2013 67
5- d où le test : comparer les effectifs observés {a,b} aux effectifs attendus sous H0 {(a+b)/2, (a+b)/2} test du chi-deux à 2-1 = 1 ddl 6- chi deux = (o i c i ) 2 = c i (a a + b 2 )2 ( a + b + 2 ) 7- on rejette H0 si chi-deux > 3,84 (puis on calcule le degré de signification): on dit les traitements diffèrent (p= xxx). Condition de validité : c 5) (b a + b 2 )2 ( a + b = 2 ) (a b) 2 (a + b) 68 AJ Valleron, 2013 68
Test de Mac Nemar On veut comparer la satisfaction des patients après 2 somnifères A et B. 40 patients ont utilisé ces 2 somnifères a = 4 satisfaits par A et mécontents de B b = 8 satisfaits par B et mécontents de B c = 18 satisfaits par A et B d = 10 mécontents de A et B. Est ce que l on peut considérer qu il ya plus de patients satisfaits par un somnifère que par 69 l autre? AJ Valleron, 2013 69
Résolution du problème précédent L effectif théorique est (4 + 8)/2= 6 ( 5) La valeur du chi-deux est 1,3 (<3,84) On ne peut dire avec cette observation qu il ya plus de satisfaits par A que par B. NB: formulation prudente: le teste manque peut être de puissance on aurait peut être vu une différence si on avait étudié 200 sujets. 70 AJ Valleron, 2013 70
Application du test du chi deux à la comparaison de survies 71 AJ Valleron, 2013 71
Le Chi-deux dans le test du Logrank de comparaison de survies Vocabulaire des études de survie : début de l étude date de point recrutement recul perdu de vue 72 AJ Valleron, 2013 72
N d' entrée du âge date de malade dans sexe diagnostic l' étude événements survenus avant la date de point 01 60, M 07/01/94 DCD, HC, 09/07/95. 05 58, M 12/01/94 Tjrs en vie 06 65, F 12/01/94 PV, 15/01/95 07 66, F 13/01/94 DCD, Acct, 21/07/94 08 84, F 13/01/94 DCD, HC, 15/08/95 09 70, M 14/01/94 DCD, HC, 15/08/95 10 61, M 14/01/94 DCD, CV, 10/12/95 11 68, F 15/01/94 Toujours en vie.. 151 75, M 03/02/95 DCD, HC, 19/12/95 152 71, M 03/02/95 Tjrs en vie 153 82, F 05/02/95 Tjrs en vie 154 69, M 06/02/95 PV, 17/08/95.. 286 60, M 02/11/95 Tjrs en vie 287 54, M 03/11/95 Tjrs en vie (1-01-96) 73 AJ Valleron, 2013 73
? DCD? DCD t n-1 t n - le temps 0 est celui de l entrée du sujet dans l étude - 7 sont en vie au début de l année n-1 de leur suivi - 3 sujets sont censurés à l année n - Sujet 3 car recul insuffisant (il n atteint pas l année n) - Sujets 5 et 7 car perdus de vue. Définition : on dit d un sujet qu il est censuré à un instant T si on ne connaît pas son histoire au delà de l instant T. 74 AJ Valleron, 2013 74
Survie actuarielle +++ ( application directe des probabilités conditionnelles) S 1 :probabilité de survivre 1 an S 2/1 :probabilité de survivre 2 ans chez les malades ayant survécu 1 an S 3/2 :probabilité de survivre 3 ans chez les malades ayant survécu 2 ans S 4/3 :probabilité de survivre 4 ans chez les malades ayant survécu 3 ans S 4 = S 1 S 2/1 S 3/2 S 4/3 75 AJ Valleron, 2013 75
«censure» Définition : tout phénomène qui interdit à l instant t de connaître la date de l événement auquel on s intéresse. Exemples: Ce malade est en vie, 34 mois après son traitement : sa date de décés est censurée Ce malade a eu un accident de la route: on ne saura pas quand il serait mort de sa maladie Ce malade a changé d adresse. On ne sait pas s il est toujours vivant Ces sujets sont «censurés» AJ Valleron, 2013 76
NB : par exception les lettres capitales X, D, C désignent ici des effectifs, non des v.a. Ne pas mémoriser : mais comprendre le raisonnement.. X n-1 est le nombre de sujets à risque au début de l année n D n est le nombre de sujets DCD pendant l année n. C n est le nombre de sujets censurés pendant l année n. On suppose qu ils s étalent au cours de l année Donc, ils sont à risque de DC en moyenne une demi-année. S n/ n 1 = 1 X n 1 D n C n 2 AJ Valleron, 2013 77
Formules de la survie actuarielle ( ne pas mémoriser) S n = (1 D 1 X 0 C 1 2 ) (1 D 2 X 1 C 2 2 )... (1 D n X n 1 C n 2 ) # ' % 2 D Var (S n ) = S 1 D n (X 0 C 1 ) (X 2 0 C +...+ n % $ 1 D 2 1 ) (X n 1 C n ) (X 2 0 C ( % n D 2 n )% & ) 78 AJ Valleron, 2013 78
Test du Logrank ( comment comparer des courbes de survie?) n X n A D n A X n B D n B 1 100 10 200 30 2 90 10 170 40 3 80 20 130 70 4 60 30 60 40 5 30 20 20 10 Total D A = 90 D B = 190 79 AJ Valleron, 2013 79
80 AJ Valleron, 2013 80
test du Log Rank l'année n, X n,a malades à risque dans le groupe (A) X n,b malades à risque dans le groupe (B). On a observé au total D n décès dans l'année. Sous l'hypothèse nulle, on "attend" C n,a = D n X n,a / (X n,a + X n,b ) 81 AJ Valleron, 2013 81
test du Log Rank (1) On montre que, sous l'hypothèse nulle, la quantité ( D A C A ) 2 C A + D B C B ( ) 2 C B suit un χ2 à 1 d.d.l. Ce test permet de rejeter l'hypothèse d'égalité de survie quand χ 2 >3,84 82 AJ Valleron, 2013 82
n A A B B X n D n X n D n X n D n C n A 1 100 10 200 30 300 40 13, 3 26, 7 2 90 10 170 40 260 50 17, 3 32, 7 3 80 20 130 70 210 90 34, 3 55, 7 4 60 30 60 40 120 70 35, 0 35, 0 5 30 20 20 10 50 30 18, 0 13, 0 Total D A = 90 D B = 190 117, 9 162, 1 C n B AJ Valleron, 2013 83
Calcul 2 χ 2 (190 162,1) 2 (90 117,9) = + = 6, 6 + 4,8 = 11, 4 3,84 117,9 162,1 11,4 > 10,83 (valeur qu un Chi-deux à 1ddl a 1 chance sur 1000 de dépasser). Conclusion : les deux courbes de survie différent (p=0,001) 84 AJ Valleron, 2013 84
Revision QCM 1 Une maladie rare (L) est responsable d environ 1 pour 10 000 décès dans la population générale. On étudie tous les décès d une région française, pendant 10 ans consécutifs, soit 360 000 décès. A- la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès est la loi binômiale de paramètre 1/10 000. B- Comme la fréquence des décès par (L) est très faible (1/10 000), on peut approximer la loi de probabilité du nombre de décès par (L) par la loi de Poisson. C- Si on approxime la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès par la loi de Poisson, le paramètre de cette loi de Poisson sera 36. D- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son paramètre, quand celui-ci est supérieur à5. E- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son parmètre, quand celui-ci est supérieur à30. AJ Valleron, 2013 85
Revision QCM 1 Une maladie rare (L) est responsable d environ 1 pour 10 000 décès dans la population générale. On étudie tous les décès d une région française, pendant 10 ans consécutifs, soit 360 000 décès. A- la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès est la loi binômiale de paramètre 1/10 000. B- Comme la fréquence des décès par (L) est très faible (1/10 000), on peut approximer la loi de probabilité du nombre de décès par (L) par la loi de Poisson. C- Si on approxime la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès par la loi de Poisson, le paramètre de cette loi de Poisson sera 36. D- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son paramètre, quand celui-ci est supérieur à5. E- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son parmètre, quand celui-ci est supérieur à30. A B C E AJ Valleron, 2013 86
Revision QCM 2 A- en utilisant l approximation poissonienne, on trouve que la probabilité d observer 0 décès par (L) parmi les 360 000 décès totaux de la région est de e -36. B- La probabilité d observer plus de 36 décès par (L) parmi les 360 000 décès totaux de la région est de 50%. C- L écart-type de la variable de Poisson approximant le nombre de décès par (L) attendus sur 360 000 est de 6. D- le nombre attendu de décès par (L) parmi les 360 000 décès totaux de la région est compris entre 24 et 48 ( pour p=5%). E- le nombre attendu de décès par (L) est compris entre 30 et 46 ( pour p=5%). AJ Valleron, 2013 87
Revision QCM 2 A- en utilisant l approximation poissonienne, on trouve que la probabilité d observer 0 décès par (L) parmi les 360 000 décès totaux de la région est de e -36. B- La probabilité d observer plus de 36 décès par (L) parmi les 360 000 décès totaux de la région est de 50%. C- L écart-type de la variable de Poisson approximant le nombre de décès par (L) attendus sur 360 000 est de 6. D- le nombre attendu de décès par (L) parmi les 360 000 décès totaux de la région est compris entre 24 et 48 ( pour p=5%). E- le nombre attendu de décès par (L) est compris entre 30 et 46 ( pour p=5%). A B C D AJ Valleron, 2013 88
Revision QCM 3 La région considérée comporte des sites industriels dont on craint qu ils augmentent le risque de mort par la maladie (L). Si on suppose que les déchets industriels présents sur ces sites multiplient par deux le risque de mort, en notant n le nombre de morts observés dans cette région sur 10 ans dans les 360 000 morts, A- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 36. B- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 40. C- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 45 D- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 48. E- Pour que le degré de signification soit de 1%, il faut observer au moins 50 décès par (L). AJ Valleron, 2013 89
Revision QCM 3 La région considérée comporte des sites industriels dont on craint qu ils augmentent le risque de mort par la maladie (L). Si on suppose que les déchets industriels présents sur ces sites multiplient par deux le risque de mort, en notant n le nombre de morts observés dans cette région sur 10 ans dans les 360 000 morts, A- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 36. B- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 40. C- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 45 D- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 48. E- Pour que le degré de signification soit de 1%, il faut observer au moins 50 décès par (L). D AJ Valleron, 2013 90
On reprend les données montrées à propos du test de Mac Nemar On veut comparer la satisfaction des patients après 2 somnifères A et B. 40 patients ont utilisé ces 2 somnifères a = 4 satisfaits par A et mécontents de B b = 8 satisfaits par B et mécontents de B c = 18 satisfaits par A et B d = 10 mécontents de A et B. Est ce que l on peut considérer qu il ya plus de patients satisfaits par un somnifère que par 91 l autre? AJ Valleron, 2013 91
Question Peut-on, avec ces données, tester si un sujet satisfait avec le somnifère A a plus de cahnce qu un autre d être satisfait avec B? 92 AJ Valleron, 2013 92
Réponse Oui On a un tableau de contingence 2 x 2 OBSERVES satisfait par A mécontent de A satisfait par 8 B 18 26 mécontent de B 4 10 14 22 18 40 CALCULES SS H0 satisfait par A mécontent de A satisfait par B 14,3 11,7 26 mécontent de B 7,7 6,3 14 22 18 40 χ 2 = ( 3,72 14,3 + 3,72 7,7 + 3,72 11,7 + 3,72 6,3 ) = 6,1 χ 2 > 3,84 on rejette H0 La satisfaction vis à vis de A est prédictive de la satisfaction par B 93 AJ Valleron, 2013 93
94 AJ Valleron, 2013 94
95 AJ Valleron, 2013 95