Statistique n 1 Susanna Davoust

CORRECTION de la Conférence du 28 Septembre 2010 Statistique n 1 Susanna Davoust Question de Statistiques Section I : -16. Statistique descriptive : estimation des paramètres d une population, intervalle de confiance d une moyenne et d une proportion -17. Test paramétriques de comparaison : -Comparaison unilatérale ou bilatérale : -de deux variances observées -d une moyenne observées à une valeur théorique -de deux moyennes observées -Comparaison unilatérale ou bilatérale dans le cas de grands échantillons : -d une proportion observée à une proportion théorique -de deux proportions observées -18. Tests de liaison : -Régression linéaire : estimation et intervalle de confiance de la pente et de l ordonnée à l origine. Comparaison à une valeur théorique de la pente et de l ordonnée à l origine. -Corrélation linéaire : estimation et test du coefficient de corrélation (r). -Test du Chi-deux d indépendance. Exercice 1 : Calcul des différents paramètres : -Femmes Début 79 80 75 74 76 71 69 65 Fin 75 72 74 71 71 66 65 63 Différences 4 8 1 3 5 5 4 2 -Hommes Début 78 85 88 84 82 79 96 102 95 83 81 82 Fin 71 80 84 80 80 73 87 91 90 80 77 88 Différences 7 5 4 4 2 6 9 11 5 3 4-6 Femmes : n f =8 Hommes : n h =12 =4kg = 4,5714 kg donc s=2,138kg =4,5kg = 17,364 kg donc s=4,167kg Test de comparaison de deux moyennes observées, petits échantillons (n A et/ou n B 30) H 0 : μ 0 : le régime n est pas efficace. (la différence de poids n est pas significativement différente de 0) H 1 : μ 0 : le régime est efficace. (la différence de poids est significativement différente de 0) Sous H 0,, ~ S(n-1) Condition de validité D~ N( ; ) dans la population -Chez la femme : On réalise un test unilatéral. Au risque 5%, on lit, =1,895 dans la table de la loi de Student =5,292 ; 1,895, On conclut H 1 au risque α=0,05. Le régime est efficace chez la femme. -Chez l homme : On réalise un test unilatéral. Au risque 5%, on lit, =1,796 dans la table de la loi de Student, =3,741 ; 1,796, On conclut H 1 au risque α=0,05. Le régime est efficace chez l homme.

Exercice 2 : Effectif de l échantillon n=100 Proportion théorique p th =0,30 Proportion observée p ob =0,41 Test de comparaison d une proportion observée à une théorique : Hypothèse : H 0 : la proportion théorique de guérison sous traitement est égale à celle sans traitement. H 1 : la proportion théorique de guérison sous traitement n est pas égale à celle sans traitement. Sous H 0, ~ N(0 ;1) Conditions de validité de la loi normale : n*p th = 100*0,3 = 30 5 et n *(1-p th ) = 100*0,7 = 70 5 On réalise un test bilatéral. Au risque α=0,05, on lit u α =1,96 dans la table de la loi normale centrée réduite,, = 2,4 1,96 ; 1,96,, On conclut H 1 au risque α=0,05. La fréquence de guérison avec traitement est significativement différente de la fréquence de guérison sans traitement. Ce type de question peut aussi être traité en réalisant un test équivalent, Test du χ 2 d ajustement entre une proportion observée à une théorique connue: Hypothèse : H 0 : la proportion théorique de guérison sous traitement est égale à celle sans traitement. H 1 : la proportion théorique de guérison sous traitement n est pas égale à celle sans traitement. Guérison oui Pas guérison Effectifs observés (0 i ) 0,41*100=41 59 100 Effectifs théoriques (C i ) 30 70 100 Sous H 0, χ2 ~ χ 2 à k-1 degré de liberté soit 1ddl K = 5,762 > 3,841 (lu dans la table de la loi du χ 2 ) On conclut H 1 au risque α=0,05. La fréquence de guérison avec traitement est significativement différente de la fréquence de guérison sans traitement (degré de signification p<0,02) Remarque : il y a une équivalence entre les deux tests : z 2 = χ 2 (2,4 2 =5,76 et 1,96 2 =3,84) Exercice 3: 1) Effectif de port de lunettes dans le secondaire : n l =100 Effectif total dans le secondaire : n t = 100+130= 230 Cas de variables qualitatives Estimation de la proportion de sujets portant des lunettes chez les sujet de niveau d étude secondaire p ob = =0,43 Intervalle de confiance d une proportion théorique IC 1-α (p)=[p ob u α ; p ob + u α ] = [p i ; p s ]

Conditions de validité : np i ; np s ; n(1-p i ) ; n(1-p s ) 5,,,, IC 95% (p)=[0,43 1,96 ; 0,43 + 1,96 ] = [0,37 ;0,49] 2) Comparaison d une répartition observée à la répartition théorique : Je l avoue la formulation de la question était un peu ambigüe (d où le débat ) de toutes façons, si on pose bien ses hypothèses et qu on ne va pas à l encontre de l intitulé du problème, ça devrait passer. Donc ma vision initiale du problème était de traiter le problème comme un test d homogénéité simple en ne m intéressant qu à la modalité lunettes. A ce moment là, le seul changement par rapport à l exercice précédent est obtention des effectifs théoriques qui seront ici calculés. Hypothèse : H 0 : la proportion théorique de sujets portant des lunettes ne varie pas avec le niveau d étude H 1 : la proportion théorique de sujets portant des lunettes varie avec le niveau d étude Lunettes Primaire Secondaire Supérieur Tous niveaux Effectifs observés 10 100 50 160 Effectifs théoriques 160x160/530=48,3 230x160/530=69,4 140x160/530=42,3 160 Effectifs Total 160 230 140 530 Sous H 0, 2 ~ χ 2 à (c-1)(l-1) degré de liberté soit 2ddl,,,,, 45,26> 5,991 (lu dans la table de la loi du χ 2 ), On conclut H 1 au risque α=0,05. La proportion de sujets portant des lunettes varie avec le niveau d étude.(elle est significativement différente pour au moins un niveau) Deuxième option qui est peut être préférable après réflexion, c est de s intéresser à la dépendance entre deux variables qualitatives à plusieurs modalités : Test d indépendance (tableau de contingence) H 0 : indépendance entre le niveau d étude et l état de la vue (port de lunette ou non) H 1 : dépendance entre le niveau d étude et l état de la vue Primaire Secondaire Supérieur Tous niveaux Lunettes 10 (48,3) 100 (69,4) 50 (42,3) 160 Pas de lunettes 150 (111,7) 130 (160,6) 90 (97,7) 370 Effectifs Total 160 230 140 530 Sous H 0, χ2 ~ χ 2 à (c-1)(l-1) degré de liberté soit 2ddl K,, loi du χ 2 ),,,,,,,, 64,83> 5,991 (lu dans la table de la,, On conclut H 1 au risque α=0,05. Il existe une dépendance entre le niveau d étude et l état de la vue. Rq : petit point sur le test du khi2 test d ajustement/de conformité/d adéquation On connait, sur un échantillon, une distribution, et on se pose la question de savoir si cette distribution est conforme à une certaine loi. On compare donc une distribution observée (pop test d homogénéité On connait, sur plusieurs échantillons, plusieurs distributions, et, on se pose la question de savoir si ces distributions sont semblables. On compare donc plusieurs distributions Test d indépendance On a classé les individus d un échantillon suivant deux caractères à plusieurs modalités et on dénombre ceux qui présentent une certaine modalité de ces deux caractères. On pose la question de

inconnue) à une distribution théorique. observées (population inconnues) savoir si ces deux caractères sont indépendants Entre une expérience et un modèle Entre deux ou plus expériences Entre deux ou plus expériences H 0 : pas de différence entre les distributions observée et théorique (conformité, adéquation) H 1 : différence (non-conformité, nonadéquation) H 0 : Les distributions observées sont identique (homogénéité de répartition) H 1 : distribution ne sont pas identique (non-homogénéité) H 0 : indépendance entre les deux variables H 1 : dépendance entre les deux variables t pour théorique c pour calculé Exemple : exercice 2 Exemple exercice 4 Exemple exercice 3 Exercice 4: Bon, voilà, de retour au calme, j ai trouvé d où j avais sortie cette formule donc la méthode qui me parait être la plus simple est la suivante : (je ne l ai pas inventé, elle est utilisé pour les essais cliniques) 1) Test de comparaison de deux proportions observées sur des séries appariées (les sujets sont pris comme leurs propres témoins) H 0 : Les proportions théoriques avec les traitements A et B sont égales H 1 : Les proportions théoriques avec les traitements A et B sont différentes On note : a : nombre d individus pour lesquels A est un succès, B un échec (A+B-) b : nombre d individus pour lesquels A est un échec, B un succès (A-B+) On s intéresse au nombre de cas où la réponse aux traitements diffère. En effet une réponse A+B+ ou A-Bn apporte rien dans la différenciation en terme d efficacité des deux traitements. Sous H 0, z= ~ N(0 ;1) Conditions de validité : a+b 10 Test bilatéral : Z c = =1,103 1,96 ; 1,96 Au risque α=0,05, on ne rejette pas H 0, on ne peut donc pas conclure à une différence d efficacité entre les traitements A et B. Rq : on aurait pu utiliser un test de χ 2 d homogénéité sur séries appariées : H 0 : «désaccord» de réponse lié au hasard ; les traitements sont équivalents entre eux H 1 : la différence est significative et non liée au hasard ; les traitements ne sont pas équivalents A+B- A-B+ Effectifs observés 100 85 Effectifs calculés 92,5 92,5 ~ χ2 à c 1l 1 degré de liberté soit 1ddl, K c =, 1,216 > 3,841 (lu dans la table de la loi du χ 2 ),, En décomposant on a : Ainsi, la encore on constate que les deux méthodes sont équivalentes avec z(=1,103)=k c (=1,216)

Attention nuance, si la question avait été de savoir si la réponse aux deux traitements été liée, on aurait alors fait un test d indépendance sur l ensemble du tableau : Test de χ 2 d homogénéité : H 0 : Réponse aux deux traitements sont indépendantes H 1 : Réponse aux deux traitements sont liées ~ χ2 à c 1l 1 degré de liberté soit 2ddl Dans le cas d un tableau de contingence à 2X2, on peut simplifier : =0,43< 5,991 Au risque de 5%, on ne peut rejeter H 0. Les réponses aux traitements sont indépendantes (nuance avec l équivalence assez intéressante!) 2) Idem pour les groupe I et II Groupe I : z c =-0,084 1,96 ; 1,96 Au risque α=0,05, on ne rejette pas H 0, on ne peut donc pas conclure à une différence d efficacité entre les traitements A et B pour les sujets dont l année de naissance est paire Groupe II : z c =2,412 1,96 ; 1,96 Au risque α=0,05, on conclut H 1, les traitements A et B ont des efficacités différentes pour les sujets dont l année de naissance est impaire. Il faut donc se méfier des découpages abusifs en sous groupes Exercice 5 : 1) Test de comparaison de deux moyennes observées, grands échantillons (n A et n B 30) H 0 : μ μ : les survies moyennes théoriques en heures sont égales avec les traitements A et B H 1 : μ μ : les survies moyennes théoriques en heures sont différentes avec les traitements A et B Sous H 0, z= ~ N(0 ;1) Test bilatéral : Z c = =-2,58 1,96 ; 1,96 Au risque α=0,05, on conclut H 1. Les durées de survie moyennes avec le traitement A et le B sont significativement différentes. Exercice 6 : 1) Calcul des variances : On note : x Ai et x Bi les concentrations en théophylline respectivement aux températures T A et T B pour le i ème prélèvement. Variances observée des concentrations à T A : s A = x Ai n A *) idem pour T B Avec A= 15,3 g/l ; x Ai=12+13+17+ +19=2147 (g/l) d où s A = 2417 10 15,3 8,456 (g/l) et B=18,5 g/l ; x Ai=3477 (g/l) d où s B =6,056 (g/l) Test de comparaison de deux variances observées: H 0 : σ les variances théoriques σ et σ sont égales H 1 : σ les variances théoriques σ et σ sont différentes

Sous H 0, = ~ F à n A-1 et n B -1 ddl, soit 9 et 9ddl. Conditions de validité : la concentration en théophylline suit une loi normale dans les deux populations. On réalise un test bilatéral, F c =, = 1,40 <,,,=4,03 (lire dans la table unilatérale de la loi de Fischer α/2=0,025). Au risque α=0,05 on ne peut pas conclure à une différence entre les variances des concentrations en théophylline à T A et T B. 2) Test de comparaison de deux moyennes observées cas de petits échantillons (n A et/ou n B < 30) H 0 : μ μ : les concentrations moyennes théoriques en théophylline à T A et T B sont égales H 0 : μ μ : la concentration moyenne théorique en théophylline à T A est supérieure à celle à T B Sous H 0, ~ student à n A +n B -2 ddl soit 18ddl Où s c est l estimation de la variance commune :,, 7,256 Conditions de validité : -les concentrations en théophylline suivent une loi normale dans chaque population -les variances théoriques des concentrations en théophylline sont égales dans les deux populations (voir le test de comparaison de deux variances observées en question 1 ) Test unilatérale (A > B),,,, loi de Student) 2,656 1,734; 1,734 (t 18ddl,α=0,05, unilatérale = t 18ddl,α=0,10, bilatérale = 1,734 lu dans la table de la On conclut H 1 au risque α=0,05 les concentrations moyennes en théophylline à T A et T B sont significativement différentes.