Unité d'enseignement de biostatistiques

Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TESTS D'HYPOTHESES Etude d'un exemple

Analyse de la variance Comparaison de plusieurs moyennes

1. Introduction Création d'une requête...2

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LE PROBLEME DU PLUS COURT CHEMIN

Chapitre 3. Les distributions à deux variables

Monitoring des données relatives au poids effectué par les services médicaux scolaires des villes de Bâle, Berne et Zurich

Relation entre deux variables : estimation de la corrélation linéaire

Principe d un test statistique

Biostatistiques : Petits effectifs

FORMULAIRE DE STATISTIQUES

D.E.S.C.F - UV 1 - Module 8 Consolidation dans les groupes de sociétés. Corrigé - Cas IG/IP/MEE

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Raisonnement par récurrence Suites numériques

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités sur un univers fini

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Fait opinion. Département EEO CUEEP-USTL

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

À l'intention des parents

Fonctions de deux variables. Mai 2011

Estimation et tests statistiques, TD 5. Solutions

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

VI. Tests non paramétriques sur un échantillon

6. Les différents types de démonstrations

1. Vocabulaire : Introduction au tableau élémentaire

T de Student Khi-deux Corrélation

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

I. Ensemble de définition d'une fonction

Services Observatoire 2010 de l opinion sur l image des banques

Statistiques Descriptives à une dimension

Introduction à la Statistique Inférentielle

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

ENQUETE SUR LES AIDES TECHNIQUES CHEZ LES SOURDS ET MALENTENDANTS

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Fonctions de plusieurs variables

BANQUES DE DONNÉES PÉDAGOGIQUES

Corrigé des TD 1 à 5

Cahier des Clauses Administratives Particulières

Complément d information concernant la fiche de concordance

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Précision d un résultat et calculs d incertitudes

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

M2 IAD UE MODE Notes de cours (3)

Cours 9 : Plans à plusieurs facteurs

La culture financière des Français

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

CAPTEURS - CHAINES DE MESURES

L état du numérique dans l enseignement en Wallonie

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

ELEC2753 Electrotechnique examen du 11/06/2012

Introduction à l approche bootstrap

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Introduction aux Statistiques et à l utilisation du logiciel R

DYNAMIQUE DE FORMATION DES ÉTOILES

Unité 2 Leçon 2 Les permutations et les combinaisons

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Résultats de l'enquête Activités Sociales et Culturelles 2012

Une étude de différentes analyses réalisées par le BIT

DOCM Solutions officielles = n 2 10.

Disparités entre les cantons dans tous les domaines examinés

Correction du baccalauréat STMG Polynésie 17 juin 2014

Master Sales Analysis. Analyse et développement des compétences de vente

Le chiffre est le signe, le nombre est la valeur.

Couples de variables aléatoires discrètes

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Chapitre 2 : Détermination de l'ensemble consolidé

Probabilités III Introduction à l évaluation d options

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

Etude sur Le service de restauration scolaire

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

La polarisation des transistors

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Les nombres entiers. Durée suggérée: 3 semaines

Régime de retraite patronal-syndical (Québec) de l'association internationale des machinistes (A.I.M.)

Évaluation de la régression bornée

Représentation d une distribution

Lire ; Compter ; Tester... avec R

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Théorème du point fixe - Théorème de l inversion locale

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

Transcription:

Unité d'enseignement de biostatistiques Examen du 0 janvier 014 Les questions sont indépendantes et peuvent être traitées dans le désordre. Une enquête a été réalisée en 00 sur un échantillon représentatif de 653 femmes habitant une île de Polynésie Française. Cette enquête s'intéressait à différents paramètres de santé et de nutrition ainsi qu'à la morphologie des femmes. C'est ce dernier point qui fait l'objet de ce problème qui porte notamment sur la taille, le poids, l'imc (indice de corpulence égal au poids divisé par la taille au carré), et la surface corporelle. Le questionnaire permettait de calculer l'imc actuel (au moment de l'enquête) et à 18 ans. Si besoin, il était exprimé en classes selon les seuils définis par l'oms (0 : 18,5 ; 1 : [18,5 5[ ; : [5 30[ ; 3 : 30). Le niveau d'études des femmes était repéré par le niveau scolaire maximum atteint (jamais allée à l'école, école primaire, collège, bac ou plus). Enfin, la parité était notée en 3 classes (pas d'enfant, 1 enfant, enfants ou plus). Les résultats qui font l'objet de ce problème figurent dans les tableaux en fin d'énoncé. 1. Donner la moyenne et l'intervalle de confiance de l'imc : a. pour l'ensemble des femmes b. pour les femmes n'ayant jamais été à l'école. Le surpoids est défini comme un IMC supérieur ou égal à 5. a. Quel est le pourcentage observé de femmes en surpoids et son intervalle de confiance? b. Le surpoids est-il lié au niveau d'études? c. On sait que le surpoids est plus fréquent lorsque l'âge augmente. Est-ce que cela pourrait expliquer le résultat de la question.b? 3. On suppose dans cette question que l'imc a une distribution normale de moyenne µ = 7 et de variance σ = 37. a. Quel est alors le pourcentage théorique de femmes en surpoids? b. Combien de femmes en surpoids devrait-on avoir parmi les 653 femmes de l'échantillon? Donnez un intervalle associé à ce nombre précédent? Comment interprétez-vous les bornes de cet intervalle (donnez une ou deux phrases pour expliquer leur signification)? c. Est-ce que le pourcentage observé de femmes en surpoids est compatible avec l'hypothèse sur la distribution de l'imc? 4. a. Est-ce que la taille des femmes qui n'ont jamais été à l'école est différente de celles qui sont allées à l'école primaire? b. Le pourcentage de femmes de plus de 1,70 m est-il différent selon le niveau d'études? 5. On s'intéresse à la relation entre l'imc (X) et la surface corporelle (Y). On donne : x = 489853,71, y = 17,17, xy = 3367,53 a. Donner l'équation de la droite de régression de Y en fonction de X. Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 Master de Santé Publique - 013-014 1

b. De combien varie la surface corporelle lorsque l'imc varie d'une unité? Quel est l'intervalle de confiance de cette variation? Est-ce que cette variation est significativement différente de 0? c. Quelle est la part de variance de la surface corporelle expliquée par l'imc? Est-elle significativement différente de 0? 6. On s'intéresse maintenant à la variation de l'imc chez les femmes de plus de 45 ans dont l'imc est connu à 18 ans et au moment de l'enquête (les données figurent dans le tableau ). a. Y a-t-il une variation de l'imc chez ces femmes entre l'âge de 18 ans et le moment de l'enquête? b. Cette variation est-elle la même selon la parité? Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 Master de Santé Publique - 013-014

Tableau 1 : Caractéristiques morphologiques des femmes selon leur niveau d'études Niveau d'études Jamais allée à l'école Ecole primaire Collège Bac ou plus Total Effectif 15 357 178 103 653 Age au moment de l'enquête (an) m 66,5 45,8 38,9 38,0 43, s 55,8 149, 117,1 166,9 166,1 Taille (m) m 1,60 1,63 1,6 1,6 1,6 s 0,0059 0,0047 0,0038 0,0041 0,0044 1,70 m 1 6 4 17 104 IMC (X) (kg/m ) m 3,9 7,8 6, 4,0 6,7 s 11,1 40,7 37,7 4,0 38,5 < 18,5 15 8 5 30 [18,5 ; 5[ 5 118 76 65 64 [5 ; 30[ 8 101 5 1 18 30 0 13 4 1 177 Surface corporelle (Y) (m ) m 1,69 1,85 1,79 1,71 1,81 s 0,035 0,063 0,05 0,037 0,058 Tableau : Variation de l'imc selon la parité chez les femmes de plus de 45 ans (dont l'imc est connu à 18 ans et au moment de l'enquête) Parité Aucun enfant 1 enfant enfants Total Effectif 1 0 191 3 IMC à 18 ans m=1,7 ; s =5,6 m=0,8 ; s =1,5 m=0,7 ; s =7,1 m=0,7 ; s =7,46 IMC actuel m=4,9 ; s =19,9 m=4,7 ; s =18,9 m=7,6 ; s =35,4 m=7, ; s =33,9 Accroissement du IMC depuis 18 ans m=3,16 ; s =15,7 m=3,85 ; s =16,5 m=6,84 ; s =33,8 m=6,37 ; s =3,4 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 Master de Santé Publique - 013-014 3

Unité d'enseignement de biostatistiques Examen du 0 janvier 014 - Corrigé 1. Les moyennes m et m' de l'imc de l'ensemble des femmes et de celles qui ne sont jamais allées à l'école sont données dans le tableau 1. Ce tableau donne aussi les variances, ce qui permet de calculer les intervalles de confiance des moyennes vraies correspondantes. a. pour l'ensemble des femmes Puisque la taille de l'échantillon est supérieure à 30, l'intervalle de confiance de la moyenne est donné, sans autre condition d'application, par : m ± z α/ s n = 6,7 ±1,96 38,5 653 = 6, ; 7, b. pour les femmes qui ne sont jamais allées à l'école Le nombre de ces femmes étant inférieur à 30, l'intervalle de confiance de la moyenne de l'âge est donné par : m ± t n 1;α/ s n 11,1 = 3,9 ±,145 15 =,1; 5,7 L'utilisation de cette formule nécessite que la distribution de l'imc est normale chez les femmes qui ne sont jamais allées à l'école.. a. Le pourcentage observé de femmes en surpoids est : p 0 = L'intervalle de confiance est donné par : p o ± z α/ p o q o n 18 +177 653 = 359 653 = 0,55. = 0,55 ±1,96 0,55 0,45 653 = 0,51; 0,59. On vérifie a posteriori que les conditions d'application sont satisfaites : np i, np s, nq i et nq s sont supérieurs à 5 (la plus petite valeur vaut 653 0,41= 67,7 ). b. Les hypothèses à tester sont : H 0 : P 1 = P = P 3 = P 4 ; et H 1 : il y a au moins une différence où P i est le pourcentage vrai de femmes en surpoids dans la catégorie i de niveau d'étude (jamais allée à l'école, école primaire...). Le tableau de χ correspondant, que l'on peut reconstituer à partir du tableau 1 de l'énoncé, est le suivant : Niveau d'études Surpoids Non Oui Jamais allée à l'école Ecole primaire Collège Bac ou plus 7 133 84 70 94 (6,8) (160,7) (80,1) (46,4) 8 4 94 33 359 (8,) (196,3) (97,9) (56,6) 15 357 178 103 653 Les conditions d application du test de χ sont satisfaites puisque tous les effectifs théoriques (entre parenthèses) sont supérieurs à 5. On obtient : Master de Santé Publique - 013-014 1 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

χ 0 = (7 6,8) 6,8 La valeur de χ 0 +...+ (33 56,6) 56,6 = 30,9 étant supérieure à la valeur seuil de la loi de χ à 3 ddl (7,81), on rejette H 0. On conclut que le pourcentage de surpoids n'est pas le même selon le niveau d'études. Le degré de signification est p < 1. c. Lorsqu'on calcule les pourcentages de surpoids selon le niveau d'études, on trouve successivement 53,3%, 6,8%, 5,8% et 3,0%. On peut commenter le résultat du test précédant en disant le pourcentage de surpoids diminue lorsque le niveau d'études augmente (le pourcentage de surpoids parmi les femmes n'ayant pas été à l'école parait contradictoire avec cette conclusion; il doit cependant être relativisé en raison de la petite taille de l'échantillon et ne remet pas en cause la tendance générale). Comme on constate que l'âge moyen est plus petit pour les niveaux d'étude plus élevés, il est possible que cela entraine un pourcentage de surpoids plus faible dans ces niveaux d'étude et explique donc la relation entre surpoids et niveau d'étude. 3. a. Le pourcentage cherché, P 1, est la probabilité que l'imc soit supérieur à 5. Si l'imc a une distribution normale de moyenne µ = 7 et de variance σ = 37, on peut calculer cette probabilité en se ramenant à la loi normale centrée réduite : 5 7 P 1 = P(IMC 5) = P Z 37 = P Z 0,33 ( ). En se référant à la table de Z, on obtient finalement : P 1 = 0,63. Le pourcentage théorique de femmes en surpoids est donc 63%. b. Le nombre attendu de femmes en surpoids est donc : N 1 = np 1 = 653 0,63 = 411,39. On peut lui associer un intervalle. Il s'agit d'un intervalle de fluctuation (d'où les majuscule pour P 1 et N 1 ) puisqu'on suppose connues les vraies valeurs dans la population (moyenne et variance du BMI d'où on déduit le pourcentage théorique de femmes en surpoids) et qu'on calcule le nombre de femmes en surpoids qu'on devrait observer dans un échantillon. L'intervalle de fluctuation est obtenu en multipliant par n l'intervalle de fluctuation de P 1. Les conditions d'application sont satisfaites puisque np 1 et nq 1 sont supérieurs à 5. On obtient : P n P 1 ± z 1 Q 1 α/ = 653 0,63 ±1,96 n 0,63 0,37 653 = 653 0,59;653 0,67 = 385,7;437,51. L'interprétation des bornes de cet intervalle est la suivante. Si la distribution de l'imc est normale de moyenne µ = 7 et de variance σ = 37, 95% des échantillons de 653 femmes auront un nombre de femmes en surpoids compris entre 385,7 et 437,51 (c'est-à-dire en pratique entre 385 et 437. c. Si que la distribution de l'imc est normale de moyenne µ = 7 et de variance σ = 37, le pourcentage de femmes en surpoids doit être égal à 0,63. Pour répondre à la question, il faut donc tester les hypothèses H 0 : P = 0,63 et H 1 : P 0,63. Le tableau de χ pour faire le test est le suivant : Surpoids Non Oui Observé 94 359 653 Attendu 41,61 411,39 653 Master de Santé Publique - 013-014 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

Les conditions d'application sont satisfaites puisque les effectifs attendus sont supérieurs à 5. On obtient : χ 0 = (94 41,61) 41,61 + (359 411,39) 411,39 = 18,03 avec 1ddl. Le test est significatif avec p<1. On rejette donc H 0 et on conclut que le pourcentage observé de femmes en surpoids n'est pas compatible avec le fait que la distribution de l'imc soit normale de moyenne µ = 7 et de variance σ = 37 Remarques : On peut aussi répondre à la question en disant que l'intervalle de fluctuation de N 1 ne contient pas le nombre observé de femmes en surpoids. La conclusion est la même, mais on n'a pas le degré de signification. Le rejet de H 0 n'équivaut au rejet de l'hypothèse que la distribution de l'imc est normale de façon générale. 4. a. Il s'agit de tester les hypothèses H 0 : µ 1 = µ et H 1 : µ 1 µ, où µ 1 et µ sont les moyennes vraies de la taille des femmes selon qu'elles ne sont pas allées à l'école ou qu'elles sont allées à l'école primaire. Le nombre de femmes dans le premier groupe étant inférieur à 30, il faut utiliser le test de Student qui nécessite que les distributions de la taille soient normales et de même variances. On peut vérifier l'hypothèse d'égalité des variances en calculant F 0 = s 1 s = 0,0059 = 1,6 qu'il faut comparer 0,0047 14 à la valeur seuil à,5% de F 356 14 qui est comprise entre celles de F 500 14 (1,89) et de F 00 (1,93). La différence entre les variances est donc non significative. D'un point de vue pratique, on peut admettre que cette condition d'application du test de Student est satisfaite. Le test de Student s'écrit : t 0 = m 1 m s ( 1 n 1 + 1 n ). La variance commune est : s = (n 1)s + (n 1 1 1)s 14 0,0059 + 356 0,0047 = = 0,00475 n 1 + n 370 On obtient donc : t 0 = 1,60 1,63 = 1,65. La valeur de t 0 étant inférieure à la valeur 0,00475 1 15 + 1 357 seuil de la loi de Student à 370 ddl (qui est comprise entre 1,960 et 1,984), on ne rejette pas l hypothèse H 0. On ne met pas en évidence de différence de taille moyenne entre les femmes qui sont allées à l'école primaire et celles qui ne sont pas allées à l'école. b. Les hypothèses à tester sont : H 0 : P 1 = P = P 3 = P 4 ; et H 1 : il y a au moins une différence où P i est le pourcentage vrai de femmes de plus de 1,70 m dans la catégorie i de niveau d'étude (jamais allée à l'école, école primaire...). Le tableau de χ correspondant est le suivant : Master de Santé Publique - 013-014 3 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

Taille 1,70 m Non Oui Niveau d'études Jamais allée à l'école Ecole primaire Collège Bac ou plus 14 95 154 86 549 (1,6) (300,1) (149,7) (86,6) 1 6 4 17 104 (,4) (56,9) (8,3) (16,4) 15 357 178 103 653 Les conditions d application du test de χ ne sont satisfaites pas puisque un des effectifs théoriques (entre parenthèses) est inférieurs à 5. Comme il s'agit d'un khi- à plus de 1 ddl, la seule possibilité est de regrouper des colonnes. C'est ici envisageable puisque les catégories de niveau d'études sont ordonnées. En groupant les deux premières colonnes qui correspondent aux niveaux d'études les plus bas, on obtient le tableau suivant : Taille 1,70 m Non Oui Ecole primaire ou moins 309 (31,7) 63 (59,3) Niveau d'études Collège 154 (149,7) 4 (8,3) Bac ou plus 86 (86,6) 17 (16,4) 549 104 37 178 103 653 Les conditions d'application sont cette fois satisfaites. On obtient : χ 0 = (309 31,7) 31,7 +...+ (17 16,4) 16,4 = 1,08 La valeur de χ 0 étant inférieure à la valeur seuil de la loi de χ à ddl (5,99), on ne rejette pas H 0. On ne met pas en évidence de différence entre les pourcentages de femmes de plus de 1,70 m selon le niveau d'étude. 5. a. L équation de la droite de régression de Y en fonction de X s'écrit : ŷ= a + bx. Ses coefficients xy nmxmy sont obtenus grâce aux formules : b = et a = m y - b m x. (n 1) s x Les valeurs nécessaires aux calculs (m x, s x, m y et xy) sont données dans le tableau 1 et dans l énoncé. On obtient ainsi : b = et a = 1,81 0,03 6,7 = 0,96 3367,53 653 6,7 1,81 = 810,00 65 38,5 510,00 = 0,03 L équation de la droite de régression est donc : ŷ= 0,96 +0,03 x b. Lorsque l'imc varie d'une unité, la surface corporelle varie de b, c'est-à-dire de 0,03 m. Ce résultat suppose que la régression entre l'imc et la surface corporelle est effectivement linéaire. Master de Santé Publique - 013-014 4 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

L'intervalle de confiance de cette variation est l'intervalle de confiance de b : b ± t n,α/ s b avec s y s b s b = x. Les conditions d'application de la formule de l'intervalle de confiance sont d'une part n que la régression de Y en fonction de X soit linéaire et d'autre part que la distribution de Y à X fixé normale et de variance constante. On a s b = 0,058 38,5 0,03 651 = 0,00048 651 = 7,4110 7 On obtient donc l'intervalle de confiance de b : 0,03 ±1,96 7,4110 7 = 0,030 ; 0,034. Comme l'intervalle de confiance ne contient pas la valeur 0, on peut conclure que b est significativement de 0 et donc que la variation de la surface corporelle lorsque l'imc varie d'une unité est significativement différente de 0. Si on veut le degré de signification, il faut faire explicitement de test de comparaison de b à 0 dont les conditions d'application sont les mêmes que ci-dessus. Les hypothèses testées sont H 0 : β = 0 et H 1 : β 0. Le test s écrit : t 0 = b s b = 0,03 7,4110 7 = 37,. La table de la loi de Student à 651 ddl (c'est-à-dire en pratique la table de Z) donne p < 10-6. c. La part de variance de surface corporelle (Y) expliquée par l'imc (X) est égale à r à condition que la régression entre X et Y soit linéaire. On a r = b s x s y = 0,03 38,5 0,058 = 0,8 d'où on déduit : r = 0,67. Dire que r est significativement différent de 0 est équivalent à dire que r est significativement différent de 0 ou que b l'est. D'après la question précédente, c'est bien le cas puisque les test de ρ et de β sont équivalents et le degré de signification est p<10-6. Remarque : on peut aussi répondre à cette question de façon équivalente avec le test de r. Les hypothèses sont H 0 : ρ=0 et H 1 : ρ 0, où ρ est le vrai coefficient de corrélation entre X et Y. Le test consiste à calculer t 0 = r n 0,8 651 = = 36,6. Le résultat numérique est un peu différent de celui 1 r 1 0,8 du t 0 de la question précédente, mais ce n'est que pour des raisons d'arrondis. La conclusion est bien sûr la même. 6. a. On veut comparer les IMC moyens des femmes entre 18 ans et l âge actuel. Les hypothèses à tester s écrivent : H 0 : µ 1 = µ et H 1 : µ 1 µ, où µ 1 et µ sont les vraies moyennes de l'imc des femmes, respectivement à 18 ans et actuellement. Les données sont appariées car les IMC sont mesurés chez les mêmes femmes aux deux périodes. Les hypothèses à tester doivent donc être réécrites de manière suivante : H 0 : µ d = 0 et H 1 : µ d 0 où d est la moyenne vraie de la différence entre l'imc à 18 ans et l'imc actuel. Le nombre de femmes étant supérieur à 30, le test est (en utilisant les données du tableau ) : z 0 = m d s d n = 6,37 3,4 3 = 16,71 Master de Santé Publique - 013-014 5 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

Cette valeur est supérieur à la valeur au seuil de Z à 5% (1,96). On rejette l hypothèse nulle et on conclut que l IMC moyen 18 ans et l IMC moyen actuel sont différents. Le degré de signification est p <.10-6. On observe que l'imc actuel est plus important qu'à 18 ans. b. Les hypothèses testées sont : H 0 : µ 1 = µ = µ 3 et H 1 : il y a au moins une différence, où les µ i sont les moyennes de la variation de l'imc entre 18 ans et le moment de l'enquête selon la parité. Il faut recourir à l analyse de la variance dont les conditions d application sont : distributions de la variation de l'imc dans les 3 classes de parité normales et de même variance. La normalité ne peut pas être vérifiée avec les données de l'énoncé, mais on peut constater que les variances qui figurent dans le tableau ne paraissent pas très différentes (il y a moins d'un facteur entre la plus grande et la plus petite). Les éléments de calcul nécessaires pour établir le tableau d analyse de la variance sont les suivants : n m = i m i 1 3,16+0 3,85+191 6,84 = = 6,374 n 3 n j m j = 1 3,16 +0 3,85 +191 6,84 = 935,37 (n i 1)s i = 11 15,7 +19 16,5 +190 33,8 = 6908,0 On en déduit le tableau d analyse de la variance : Source de variation Somme des carrés des écarts ddl Variance F Entre parité SCE A = 935,37-3 6,374 = 9,31 s A = 9,31 = 146,16 F 0 = 146,16 31,40 = 4,65 Résiduelle SCE R = 6908,0 0 s R = 6908,0 0 = 31,40 Totale SCE T = SCE A +SCE R = F 0 doit être comparé à la valeur seuil lue pour 5% dans la table F 0. Cette valeur seuil est comprise entre celles de F 00 (3,04) et de F 500 (3,01). On rejette donc H 0. On met en évidence une différence entre les variations moyennes d'imc selon la parité. Le degré de signification est p <,5%. On observe que la variation de l'imc est d'autant plus grande que la parité est élevée. Master de Santé Publique - 013-014 6 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé

Histogramme des notes 19 18 17 16 15 14 13 1 11 10 9 8 7 6 5 4 3 1 0 Examen du 0 janvier 014 moyenne = 9,7 0 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 Notes nombre de copies : 139 moyenne : 9,7 notes supérieures à 10 : 50% Master de Santé Publique - 013-014 7 Unité d'enseignement de biostatistiques - Examen du 0 janvier 014 - Corrigé