T.P. 8 - Exercice 1 Khi-Carré d ajustement (Corrigé)



Documents pareils
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

TESTS D'HYPOTHESES Etude d'un exemple

Annexe commune aux séries ES, L et S : boîtes et quantiles

T de Student Khi-deux Corrélation

Probabilités sur un univers fini

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Estimation et tests statistiques, TD 5. Solutions

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Principe d un test statistique

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Avis légal. I 2 FISCALLIANCE 2011 L Incorporation des Courtiers Immobiliers du Québec

TSTI 2D CH X : Exemples de lois à densité 1

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Probabilités conditionnelles Loi binomiale

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Collecter des informations statistiques

Complément d information concernant la fiche de concordance

VI. Tests non paramétriques sur un échantillon

Exercices sur le chapitre «Probabilités»

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Probabilités sur un univers fini

Le chi carré. Le sommaire. Approche quantitative

Attirez-vous les Manipulateurs? 5 Indices

THEME : CLES DE CONTROLE. Division euclidienne

Les probabilités. Guide pédagogique Le présent guide sert de complément à la série d émissions intitulée Les probabilités produite par TFO.

Ressources pour le lycée général et technologique

Apprentissage par renforcement (1a/3)

LES DECIMALES DE π BERNARD EGGER

INF6304 Interfaces Intelligentes

Auto-Entreprise : Activités : Eric SOTY - Siret n Formation Bureautique, continue d'adultes. Tél : Fax :

Chapitre 2 Le problème de l unicité des solutions

Carré parfait et son côté

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Relation entre deux variables : estimation de la corrélation linéaire

SONDAGE DE LA PRESSE ET DES MÉDIAS EN LIGNE 2014

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Tout ce que vous n avez jamais voulu savoir sur le χ 2 sans jamais avoir eu envie de le demander

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Chapitre 1 : Évolution COURS

Statistiques Descriptives à une dimension

Université Paris 8 Introduction aux probabilités Licence Informatique Exercices Ph. Guillot. 1 Ensemble fondamental loi de probabilité

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Module 16 : Les fonctions de recherche et de référence

Introduction à l approche bootstrap

SERIE 1 Statistique descriptive - Graphiques

Les approches de réduction des méfaits trouvent un certain appui dans la population québécoise*

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

PROBABILITÉS CONDITIONNELLES

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

La Menace du Stéréotype

Chapitre 3 : INFERENCE

Exemples d utilisation de G2D à l oral de Centrale

MATHÉMATIQUES APPLIQUÉES S4 Exercices

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Logiciel XLSTAT version rue Damrémont PARIS

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Observatoire Gleeden de l infidélité

Théorie Financière 2. Valeur actuelle Evaluation d obligations

RÈGLEMENT. sur la collaboration avec les intermédiaires

LES DIFFERENTS TYPES DE MESURE

La fonction exponentielle

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Les Français et le chauffage. Résultats de l étude menée

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Partie 5 : La consommation et l investissement

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

BULLETIN QUESTIONS-RÉPONSES PROGRAMME D ÉQUITÉ SALARIALE

IFT3245. Simulation et modèles

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Voici la plus récente édition de notre bulletin fiscal. Nous vous proposerons des idées de planification et un suivi de l actualité fiscale.

Conseils utiles pour les clients qui font des transactions immobilières

Oscilloscope actif de précision CONCEPT 4000M

TP N 57. Déploiement et renouvellement d une constellation de satellites

*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

DOCM Solutions officielles = n 2 10.

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Partie 1. Fonctions plus complexes dans Excel. Fonctions Si(), Et(), Ou() et fonctions imbriquées. Opérateurs logiques. I.1.

POKER ET PROBABILITÉ

Qu est-ce qu une tâche?

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Fluctuation d une fréquence selon les échantillons - Probabilités

INFO 2 : Traitement des images

Fonctions de deux variables. Mai 2011

ir value.com Le Fundamental Value Indicator

Transcription:

T.P. 8 - Exercice 1 Khi-Carré d ajustement (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test d ajustement. Table de distribution des. Les vacances de Pâques approchent c est l occasion de revoir tous les TP en travaillant en parallèle avec votre cours. Attention : les exercices supplémentaires font partie de la matière d examen. Voir cours, chapitre 5. Rappel : Un test couramment utilisé en inférence statistique est le test khi-carré ( ). Il est utilisé lorsqu on s intéresse à des données qui se mesurent sur des échelles nominales (variables catégorielles). À ce TP, nous allons examiner deux tests distincts : le test d ajustement et le test d indépendance. Le test d ajustement compare la distribution de fréquences d un échantillon (fréquences relatives ou fréquences absolues) par rapport à la distribution de fréquences attendues (s). Il permet donc d évaluer dans quelle mesure les données que vous obtenez dans votre échantillon lors d une expérience sont bien ajustées aux données s attendues. Il est utilisé lorsque la procédure de mesure (par exemple un test de personnalité) permet de classer les individus (ou tout autre éléments) en plusieurs catégories (personnalité dépressive, schizophrène ). La proportion d individus que vous obtenez dans chaque catégorie de votre échantillon (vos fréquences observées) est ensuite comparée à la proportion d individus dans chaque catégorie qu on s attend à observer dans la population toute entière (fréquences attendues). Soit : J ( Oj - E j) c = j= 1 E j avec : O j = fréquence observée E j = fréquence attendue (expected) En pratique, la première étape consiste à poser une hypothèse nulle ( H 0 ) avant de récolter ses données. Pour un test khi-carré d ajustement, cette H 0 est soit une répartition des sujets au hasard dans chaque catégorie soit une répartition des sujets conforme à une distribution connue. La seconde étape consiste à calculer la valeur du khi carré sur base de l échantillon (khi carré ) et d observer si elle est située dans une zone de rejet ou de non rejet de. Les valeurs que peut prendre la distribution du khi carré dépendent du nombre de degrés de liberté. Pour le trouver, la formule suivante est utilisée : D.L. = J-1 où J = le nombre de catégories de la variable Une fois qu on a les degrés de liberté et la valeur e du khi carré, on cherche dans la table de distribution khi-carré, une valeur de khi carré à laquelle on la compare. TTP 8-006-007 (Corrigé) 1/3

Si < il y a non rejet de. Si il y a rejet de. Dans ce dernier cas, on considère que la différence est significative avec maximum 5% de risque de se tromper..05 est le seuil habituellement utilisé en psychologie mais il existe d autres tables plus conservatrices qui utilisent un risque d erreur accepté inférieur, comme par exemple.01. À titre d exemple, voici une courbe de pour 3 degrés de liberté, laissant, sur la droite une zone de rejet de (avec une marge d erreur de 5%) avec comme une valeur de 7,81 (au-delà de laquelle nous sommes de la zone de rejet de ). Zone de non rejet de (NRH 0 ) Zone de rejet de (RH 0 ) N.B. : Dans la légende des graphiques que nous vous proposons dans ce T.P. : Area = Taille de la zone de rejet (en termes de probabilité d erreur) Low = valeur critique qui délimité la zone de rejet et la zone de non rejet de H 0. Df = degrees of freedom (degrés de liberté) Un chercheur s intéresse aux boissons préférées dans une population. Il pose la question suivante à un échantillon de 30 participants : «Préférez-vous boire du thé ou du café?» Il ne s attend pas à observer de préférence pour une de ces boissons. 1. Quelle est? H 0 = pas de préférence entre thé et café. p = q =.50 (la probabilité de choisir le thé est la même que la probabilité de choisir le café). Dans son groupe, 11 personnes préfèrent le thé et 19 le café.. Représentez ces données sous la forme d un tableau indiquant les fréquences absolues observées et attendues. thé café total Fréq. observées (O j ) 11 19 30 Fréq. attendues (E j ) 1 15 15 30 1 E pour expected, qui signifie attendue en anglais. TTP 8-006-007 (Corrigé) /3

La question est de savoir si la différence entre les fréquences observées dans l échantillon et les fréquences attendues (sous ) sont dues au hasard ou reflètent une véritable préférence pour le café dans la population. 3. Quelle est la valeur de? J ( Oj - E j) c = E (11 15) 15 j= 1 (19 15) 15 = + =, 13 j 4. Combien y a-t-il de degrés de liberté (D.L.)? J-1 degré de liberté où J représente le nombre de catégories (ici thé-café) de la variable (boisson). Donc -1 = 1 (D.L.). 5. Au niveau de signification minimum de.05 et au niveau de D.L. approprié, quelle est la valeur de? Schématisez votre réponse à l aide d un graphique. À.05 et 1 D.L., la valeur du vaut 3,84. Comme la valeur e du (,13) est nettement inférieure à la valeur ; on dit qu elle est dans la zone de non rejet de (NRH 0 ) : on ne rejette pas. Zone de non rejet de (NRH 0 ) 3,84 Zone de rejet de (RH 0 ) 6. Que pouvez-vous conclure par rapport aux préférences thé-café? On ne rejette pas qui stipulait l absence de préférence entre thé et café. La différence observée dans notre échantillon est donc probablement due au hasard. TTP 8-006-007 (Corrigé) 3/3

T.P. 8 - Exercice Khi-Carré d ajustement (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test d ajustement. Table de distribution des. Un chercheur s intéresse aux facteurs qui déterminent le choix des cours des étudiants. Il pose la question suivante à un échantillon de 50 étudiants : «Parmi les 4 facteurs suivants, lequel est le plus important lorsque vous sélectionnez un cours?». Les étudiants doivent choisir 1 des 4 propositions suivantes : - l intérêt pour le contenu du cours ; - le degré de complexité de l examen ; - le professeur ; - l heure à laquelle le cours se donne. Voici les résultats que le chercheur obtient : O (fréquences absolues observées) Contenu cours Examen Professeur Horaire 18 17 7 8 Sur base de ces données, le chercheur peut-il conclure qu un facteur (ou plusieurs facteurs) est (sont) plus important(s) que les autres? Il teste à un niveau de signification.05. 1. Quelle est? H 0 : il n y a pas de préférence pour un facteur particulier. Les 4 facteurs sont choisis de façon équivalente.. Représentez ces données sous la forme d un tableau indiquant les fréquences absolues observées et attendues. O j (fréquences absolues observées) E j (fréquences absolues attendues) Contenu cours examen professeur horaire 18 17 7 8 1,5 1,5 1,5 1,5 TTP 8-006-007 (Corrigé) 4/3

3. Quelle est la valeur e de? Valeur e de = 8,08 4. Quel est le nombre de degrés de liberté? D.L. = 3 5. Au niveau de signification.05, quelle est la valeur de? Valeur de = 7,8 6. L hypothèse nulle est-elle rejetée? Que concluez-vous? Schématisez votre réponse à l aide d un graphique. 8,08>7,8 La valeur e de se situe dans zone de rejet de l H 0 (est supérieure à la valeur de ). Par conséquent est rejetée. Le chercheur conclut qu au moins un des facteurs est choisi préférentiellement par les étudiants. Zone de non rejet de (NRH 0 ) 7,81 Zone de rejet de (RH 0 ) TTP 8-006-007 (Corrigé) 5/3

T.P. 8 - Exercice 3 Khi-Carré d ajustement (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test d ajustement. Table de distribution des. En 1908, en France, Binet publie une étude concernant la mesure de l intelligence des enfants. Son échelle d intelligence se base sur un certain nombre d épreuves classées dans un ordre croissant de difficulté. Un niveau d âge est attribué à chaque épreuve qui correspond au plus jeune âge auquel un enfant d intelligence normale réussit l épreuve. L enfant commence le test de Binet par les épreuves de l âge le plus jeune et poursuit la série d épreuves jusqu à ce qu il échoue. L âge associé à ces dernières épreuves devient son âge mental et son niveau intellectuel général est en soustrayant son âge chronologique à son âge mental. On peut donc «classer» l enfant dans une des 5 catégories suivantes : retardé de ans, retardé d 1 an, régulier, avancé de 1 an et avancé de ans. Voici les données, en fréquences relatives, que Binet obtient sur un échantillon de 19 enfants : - -1 0 +1 + 0,06 0,3 0,48 0, 0,01 Des chercheurs, un américain (Goddard) et un allemand (Bobertag) font passer le test de Binet (traduit en anglais/allemand et adapté culturellement) à un échantillon de 1547 enfants américains (Goddard) et 8 enfants allemands (Bobertag). Ils obtiennent les données suivantes, en fréquences absolues : - -1 0 +1 + Goddard 94 309 557 35 6 Bobertag 6 40 119 57 6 Les données obtenues par le chercheur américain et l allemand reflètent-elles la distribution obtenue chez les enfants français (niveau de signification.05)? 1. Enfants américains (données de Goddard) a) Quelle est dans cette recherche? H 0 : il n y a pas de différence entre les enfants américains et les enfants français en ce qui concerne leur répartition dans chaque catégorie d âge mental. TTP 8-006-007 (Corrigé) 6/3

b) Complétez le tableau suivant. - -1 0 +1 + O j 94 309 557 35 6 E j 1547 * 0,06 = 9,8 1547 * 0,3 = 355,81 1547 * 0,48 = 74,56 1547 * 0, = 340,34 1547 * 0,01 = 15,47 c) Déterminez les valeurs de, et les degrés de liberté. Tracez le graphique qui vous aidera à visualiser l idée de rejet et de non rejet de. Valeur e de = 69,1 D.L. = 4 Valeur de à.05 = 9,49 Zone de non rejet de (NRH 0 ) 9,49 Zone de rejet de (RH 0 ) d) Que pouvez-vous tirer comme conclusion? La valeur e de se situe dans la zone de rejet et est donc rejetée. Les scores au test de Binet ne se distribuent donc pas de la même façon dans la population américaine que dans la population française.. Enfants allemands (données de Bobertag) a) Quelle est dans cette recherche? H 0 : il n y a pas de différence entre les enfants allemands et les enfants français en ce qui concerne leur répartition dans chaque catégorie d âge mental. b) Complétez le tableau suivant. - -1 0 +1 + O j 6 40 119 57 6 E j 13,68 5,44 109,44 50,16,8 TTP 8-006-007 (Corrigé) 7/3

c) Déterminez les valeurs de, et les degrés de liberté. Valeur e de = 15,09 D.L. = 4 Valeur de à.05 = 9,49 Zone de non rejet de (NRH 0 ) 9,49 Zone de rejet de (RH 0 ) d) Que pouvez-vous tirer comme conclusion? La valeur e de se situe dans la zone de rejet et est donc rejetée. Les scores au test de Binet ne se distribuent pas de la même façon dans la population allemande que dans la population française. TTP 8-006-007 (Corrigé) 8/3

T.P. 8 - Exercice 4 Khi-Carré d indépendance (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Test d indépendance. Table de distribution des. Le test d indépendance porte sur variables catégorielles et a pour but d évaluer si ces variables sont indépendantes. L hypothèse nulle est qu il y a une parfaite indépendance entre les variables. La logique de ce test est la même que pour le test d ajustement. On prélève un échantillon et chaque individu de l échantillon est évalué sur variables séparées. L échantillon de données servira pour tester une hypothèse par rapport à l indépendance des variables dans la population. Par exemple, un groupe d étudiants est classé en termes de personnalité (introvertie, extravertie) et de groupe sanguin (A, B, AB, 0). Ces données se notent dans un tableau de contingence des fréquences absolues observées. Par exemple, pour un échantillon de 47 étudiants, on pourrait avoir le tableau suivant : A B AB 0 total introverti 6 7 6 6 5 extraverti 6 6 8 Total 1 9 1 14 N=47 Ces fréquences observées sont comparées aux fréquences attendues sous. Ensuite, on calcule la valeur du pour déterminer dans quelle mesure les valeurs observées s accordent avec les valeurs attendues et on se sert de la table de distribution de conclure à propos de l indépendance des variables examinées. Le test d indépendance utilise exactement la même formule que le test = J K j= 1 k= 1 ( O - E ) jk E jk jk pour d ajustement : Les fréquences attendues (E jk ) se calculent sur base des fréquences marginales et de N. ( fréq. colonne fréq. ligne) = N E jk Les degrés de liberté s obtiennent par le calcul suivant pour le d indépendance : avec : D. L. = ( J 1)( K 1) J= nombre de catégories de la variable A (en ligne) K = nombre de catégories de la variable B (en colonne) TTP 8-006-007 (Corrigé) 9/3

Les conditions d application du test sont : N = 30 : c est bien le cas dans notre exemple N = 40 ; tous les E jk > 0 (c est aussi le cas) ; 80% des E jk = 5 : 7 cellules sur 8 (soit 87,5 %) possèdent une valeur attendue supérieure à 5. Une étude porte sur l occurrence d un comportement d aide à personne en danger en fonction du nombre d observateurs. Les sujets sont confrontés à un individu (la victime) qui simule une crise d épilepsie. Les expérimentateurs observent si le sujet manifeste un comportement d aide à la personne en danger ou pas. La taille du groupe varie : (sujet + «victime»), 3 ou 6 personnes). Voici les fréquences observées : pers 3 pers 6 pers Total Aide 11 16 4 31 Non aide 10 9 1 Total 13 6 13 N=5 1. Complétez le tableau ci-dessus avec les fréquences marginales absolues.. Quelle est? La taille du groupe et le comportement d aide sont des variables indépendantes dans la population. Donc l absence ou la présence d un comportement d aide ne devrait pas varier en fonction du nombre d observateurs. 3. Calculez les fréquences attendues. pers 3 pers 6 pers total Aide 7,75 15,5 7,75 31 Non aide 5,5 10,5 5,5 1 total 13 6 13 N = 5 TTP 8-006-007 (Corrigé) 10/3

4. Calculez les degrés de liberté et localisez la région critique pour un seuil de.05. Représentez la valeur de trouvée sur un graphique et indiquez-y les zones de rejet et de non rejet de. D.L. = (-1)(3-1) = La valeur critique de vaut 5,99. Zone de non rejet de (NRH 0 ) 5,99 Zone de rejet de (RH 0 ) 5. Calculez la valeur du. = 7,91 = J K j= 1 k= 1 ( O - E ) (11 7,75) (16 15,5) (4 7,75) ( 5,5) = + + + 7,75 15,5 7,75 5,5 = 1,363 + 0,016 + 1,815 +,01 + 0,04 +,679 jk E jk jk (10 10,5) + 10,5 (9 5,5) + 5,5 6. Que pouvez-vous conclure? La valeur du est supérieure au. Il y a donc rejet de l hypothèse nulle. On conclut qu il y a un lien entre comportement d aide et nombre d observateurs. TTP 8-006-007 (Corrigé) 11/3

T.P. 8 - Exercice supplémentaire 1 Khi-Carré (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests ; choix du test. Table de distribution des. Un chercheur prétend que la répartition de la population sur les 4 classes de groupe sanguin est uniforme, en d autres termes la population se répartit sur les 4 classes de manière identique. Sur base des données de la variable «groupe sanguin», pouvez-vous confirmer ou infirmer cette affirmation? Groupe sanguin Effectif Effectif relatif Probabilité attendue Effectif attendu (O j -E j )²/E j 1. A 73 0,40331 0,5 45,5 17,018. B 0,1155 0,5 45,5 11,946 3. AB 9 0,0497 0,5 45,5 9,04 4. O 77 0,4541 0,5 45,5,78 Total 181 1,0000 1,00 181 80,8 1. Complétez le tableau ci-dessus.. Déterminez les 3 dernières colonnes du tableau. Nous souhaitons vérifier si la distribution de la variable groupe sanguin est uniforme, ce qui revient à dire que les 4 groupes sont équiprobables. 3. Quel test allons-nous utiliser pour vérifier cela? Un test d ajustement, puisque nous souhaitons vérifier si la répartition des individus entre les groupes sanguins est équiprobable. 4. Quelle est? H 0 = La variable groupe sanguin est distribuée uniformément sur ses quatre modalités. TTP 8-006-007 (Corrigé) 1/3

5. Que vaut la statistique de test? Il s agit de la somme de la dernière colonne du tableau = 80,8. 6. Combien de degrés de liberté compte la loi Khi-carré pour ce test? Nombre de modalités de la variable «sang» - 1 = 4 1 = 3 7. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur pourrons-nous rejeter l hypothèse que la distribution du groupe sanguin sur la population est uniforme? Que faut-il faire pour répondre à cette question? Représentez graphiquement la zone de rejet et la zone de non rejet de. Pour répondre à cette question, il faut chercher le dans la table. Ainsi, nous trouver qu à partir de 7,815 nous pourrons rejeter l hypothèse que la distribution du groupe sanguin sur la population est uniforme. Zone de non rejet de (NRH 0 ) 7,815 Zone de rejet de (RH 0 ) 8. Que pouvez-vous conclure? La statistique de test ( ) valant 80,8 est largement supérieure à 7,815 ( ) ; nous pouvons donc très franchement rejeter l hypothèse que la variable groupe sanguin est distribuée uniformément avec un risque d erreur nettement inférieure à 5%. TTP 8-006-007 (Corrigé) 13/3

T.P. 8 - Exercice supplémentaire Khi-Carré (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests ; choix du test. Table de distribution des. Nous souhaitons vérifier si la répartition du groupe sanguin entre les 4 classes dépend du sexe des individus. À cet effet, considérons les 181 données de notre échantillon. 1. Quel test devrons-nous utiliser pour répondre à cette question sur base de notre échantillon ci-dessous. Un test d indépendance.. Le tableau ci-dessous est le tableau de contingence des deux variables SANG et SEXE (O jk ). Déterminez les fréquences marginales et indiquez-les dans le tableau. SEXE SANG Masculin Féminin Total A 1 61 73 B 6 16 AB 1 8 9 O 5 5 77 Total 44 137 181 TTP 8-006-007 (Corrigé) 14/3

3. Déterminez le tableau des effectifs attendus (E jk ) s il y a indépendance entre les deux variables : SEXE SANG Masculin Féminin Total A 17,746 55,54 73 B 5,348 16,65 AB,188 6,81 9 O 18,718 58,8 77 Total 44 137 181 4. Déterminez le tableau des carrés des écarts entre les effectifs observés et attendus divisés par les effectifs attendus ((O jk E jk )²/ E jk ) : SEXE SANG Masculin Féminin A (1-17,746)² / 17.746 =1,861 0,598 B 0,079 0,06 AB 0,645 0,07 O,108 0,677 5. Que vaut la statistique de test (mesure de l écart entre les deux tableaux) : C est la somme de toutes les cellules du tableau précédent = 6,01 6. Combien de degrés de liberté compte la loi Khi-carré que nous utilisons ici? (nombre de modalités de la variable SANG - 1)x (nombre de modalités de la variable SEXE 1) = (4 1)( 1) = 3 TTP 8-006-007 (Corrigé) 15/3

7. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur de pourrons-nous rejeter l hypothèse que les distributions du groupe sanguin et du sexe sont indépendantes? Représentez graphiquement la zone de rejet et la zone de non rejet de. À partir de = 7,815 nous pourrons rejeter l hypothèse que les deux variables sont indépendantes. Zone de non rejet de (NRH 0 ) 7,815 Zone de rejet de (RH 0 ) 8. Que pouvez-vous conclure? La statistique de test valant 6,01, elle est inférieure à =7,815 ; nous ne pouvons donc pas rejeter l hypothèse que les deux variables «groupe sanguin» et «sexe» sont indépendantes. Autrement dit, avec une marge d erreur de 5%, nous pouvons dire que les deux variables «groupe sanguin» et «sexe» sont indépendantes ou encore, que la répartition de la population dans les quatre classes de groupes sanguin ne diffère pas suivant le sexe auquel les individus appartiennent. 9. Les conditions d application du test Khi-carré sont-elles bien remplies? Les conditions d application du test sont bien remplies en effet : N = 30 : c est bien le cas N =181 ; tous les E jk > 0 (c est aussi le cas) ; 80% des E jk = 5 : 7 cellules sur 8 (soit 87,5 %) contiennent une valeur attendue supérieure à 5. TTP 8-006-007 (Corrigé) 16/3

T.P. 8 - Exercice supplémentaire 3 Khi-Carré (Corrigé) Connaissances préalables : Buts spécifiques : Outils nécessaires : Consignes générales : Distribution de fréquences, proportions. Tests ; choix du test. Table de distribution des. Nous avons vu au TP 7 que, lors de lancers d un dé bien équilibré, le nombre de fois que le 6 sortait au cours de 5 lancers successifs suivait une loi binomiale Bi(5;1/6). Pour vérifier que cette séquence est bien distribuée suivant une loi Bi(5; 1/6), un joueur incrédule décide de faire 30 séries de 5 lancers successifs et dénombre pour chaque série le nombre de fois que le 6 est sorti. Il obtient le tableau suivant reprenant le résultat des 30 séries : 1 1 1 1 1 0 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0 1 1 0 0 Nombre de sorties du 6 Effectif Effectif relatif Probabilité attendue Bi(5;1/6) Effectif attendu [O j -E j ]²/E j 0 1 0,400 0,40 1,056 0,000 1 13 0,433 0,40 1,056 0,074 5 0,167 0,161 4,83 0,006 3 0 0,000 0,03 0,965 0,965 4 0 0,000 0,003 0,096 0,096 5 0 0,000 0,000 0,004 0,004 Total 30 1,0000 1,000 30 1,146 1. Complétez le tableau ci-dessus.. Que vaut la statistique de test? Il s agit de la somme de la dernière colonne du tableau = 1,146 TTP 8-006-007 (Corrigé) 17/3

3. Combien de degrés de liberté compte la loi Khi-carré dans ce cas-ci? Nombre de modalités de la variable «Nombre de 6»- 1 = 6 1 = 5 4. Si nous fixons le niveau d erreurs à 5 %, à partir de quelle valeur de pourrons-nous rejeter l hypothèse que la distribution de la variable «Nombre de sorties du 6 au cours de 5 lancers successifs» suit une loi binomiale Bi(5;1/6)? Représentez la distribution en indiquant les zones de rejet et de non rejet ainsi qu en y plaçant (approximativement) les et. Pour les valeurs de supérieures à 11,07 nous pourrons rejeter l hypothèse que la distribution «nombre de sorties du 6 au cours de 5 lancers successifs» se distribue bien suivant une loi binomiale Bi(5;1/6). Zone de non rejet de (NRH 0 ) 11,07 Zone de rejet de (RH 0 ) 6. Que pouvez-vous conclure? La statistique de test valant 1,146, elle est inférieure à 11,07 ; nous ne pouvons donc pas rejeter l hypothèse que la variable «nombre de sorties du 6 au cours de 5 lancers successifs» se distribue bien suivant une loi binomiale Bi(5;1/6). Notre dé ne semble donc pas pipé. 7. Les conditions d application du test Khi-carré sont-elles bien remplies? Les conditions d application du test ne sont pas remplies. En effet, les effectifs attendus (E i ) doivent être supérieurs à 5 or pour X=, 3, 4 et 5 les effectifs attendus sont inférieurs à 5. TTP 8-006-007 (Corrigé) 18/3

T.P. 8 - Exercice supplémentaire 4 Khi-Carré (Corrigé) Trente sept étudiants d une promotion ont été répartis, en début d année académique, de manière strictement aléatoire dans trois séries de travaux pratiques de statistique dirigés par trois assistants différents A1, A et A3. Les résultats obtenus par les étudiants de chaque série sont notés sur 10 et regroupés dans le tableau suivant. Assistant Note des étudiants (sur 10) A1 9 5,5 6 3 3 7 5 0 8 4,5 7 A 4 3 6 8 3 5 7 7 4,5 3,5 0 A3 8 6 4 8 10 4 4,5 5 7 8 10 9 6 Afin d étudier l indépendance des résultats par rapport à la série d appartenance de l étudiant, un chercheur fait un décompte en termes de nombre de réussites et d échecs par série de travaux pratiques. 1. Quel test devons-nous utiliser? Un test d indépendance.. Quelle est de notre chercheur? H 0 = Il y a indépendance entre les résultats et l appartenance à une série de T.P. 3. Complétez le tableau ci-dessous par les effectifs observés (à partir de 5/10 le résultat est considéré comme une réussite) : Série A1 Série A Série A3 Total Echec 5 7 3 15 Réussite 7 5 10 Total 1 1 13 37 4. Complétez le tableau de contingence ci-dessous avec les effectifs s attendus sous l hypothèse d indépendance. Série A1 Série A Série A3 Total Echec 4,865 4,865 5,70 15 Réussite 7,135 7,135 7,730 Total 1 1 13 37 TTP 8-006-007 (Corrigé) 19/3

5. Complétez le tableau de mesure des écarts entre le tableau de contingence observé et le tableau de contingence attendu sous l hypothèse d indépendance. Echec Série A1 Série A Série A3 (5-4,865)² /4,865 =0,004 0,937 0,978 Réussite 0,003 0,639 0,667 6. Que vaut la statistique de test? = 3,8 7. Combien de degrés de liberté comporte la distribution Khi-carré de notre exercice? ( 1)(3 1) = 8. Si le niveau d erreur auquel nous souhaitons travailler est fixé à 5 %, déterminez la limite séparant la zone d acceptation et la zone de rejet de l hypothèse d indépendance. Placez cette valeur sur un graphique ainsi que le. 9. Que pouvez-vous conclure? (= 3,8) < (= 5,991). Nous ne rejetons donc pas l indépendance entre les deux variables. La mesure de l écart entre les deux tableaux de contingence (observé et attendu) n est pas suffisamment grande que pour conclure à une différence statistique significative entre ceux-ci. L échec (ou la réussite) d un étudiant est donc indépendant de la série de travaux pratiques qu il a suivis. TTP 8-006-007 (Corrigé) 0/3

T.P. 8 - Exercice supplémentaire 5 Khi-Carré (Corrigé) Supposons qu un sondage d opinion réalisé dans les années 70 donne les résultats suivants : 15% des sujets sont en faveur de la régularisation de la marijuana, 79% sont contres et 6% sont sans opinion. Admettons qu aujourd hui, nous prenions un échantillon de 0 personnes et que 38 des personnes interrogées soient pour, 165 contre et que 17 soient sans opinion. En acceptant une marge d erreur de 5%, pourrions-nous dire qu il y a une différence significative entre les résultats obtenus dans notre échantillon et celui des années 70? N.B. : Pour cet exercice, nous ne vous posons pas de questions intermédiaires. Il faut cependant que votre réponse soit complète. Pour répondre à la question, nous devons effectuer un test d ajustement. Pour ce faire, il faut déterminer les fréquences observées aujourd hui et les fréquences attendus (c est-à-dire celles des années 70). On peut le faire avec les fréquences relatives ou absolues, mais il faut prendre la même chose pour les et donc ici faire un choix et tout mettre en pourcentages. Pour Contre Sans opinion Années 70 15% 79% 6% Aujourd hui 17,7% 75% 7,73 Puis, il faut déterminer la valeur du : ( 17,7 15) ( 75 79) ( 7,73 6) J ( Oj E j) = = + + E 15 79 6 j= 1 j = 1,04 et la comparer à la valeur du à.05 et degrés de liberté qui vaut 5,99 : 1,04<5,99 Nous nous situons donc dans la zone de non rejet de. Nous ne pouvons pas affirmer même avec une marge d erreur de 5% que ces valeurs sont différentes. TTP 8-006-007 (Corrigé) 1/3

. Un scientifique veut savoir s il y a un lien entre la dominance manuelle et la dominance oculaire. Un échantillon aléatoire de 150 sujets est sélectionné. Pour chaque sujet, le chercheur détermine deux choses : - Si la personne est droitière ou gauchère ; - Quel est l œil que la personne préfère utiliser pour regarder à travers le viseur d un appareil photo. Le tableau des fréquences observées est le suivant : Préférence oculaire Préférence manuelle Gauche Droite Gauche 0 40 Droite 10 80 Y a-t-il une relation entre les deux variables? Choisissez un seuil de.05. Pour répondre à la question, nous devons effectuer un test d indépendance. Pour ce faire, il faut déterminer les fréquences attendues sous l hypothèse d indépendance, en ayant préalablement les fréquences marginales : Préférence oculaire Préférence manuelle Gauche Droite Total Gauche (30*60)/150 = 1 (10*60)/150 = 48 60 Droite (30*90)/150 = 18 (10*90)/150 = 7 90 Total 30 10 7 Puis, il faut déterminer la valeur du : ( 0 1) ( 40 48) ( 10 18) ( 80 7) J ( Oj E j) = = + + + E 1 48 18 7 j= 1 j = 11,11 et la comparer à la valeur du à.05 et 1 degré de liberté qui vaut 3,84 : 3,84<<11,11 Nous nous situons donc dans la zone de rejet de. Nous pouvons affirmer avec un risque d erreur maximal de 5% qu il n y a pas indépendance entre les deux variables et qu il y a donc un lien entre les deux. TTP 8-006-007 (Corrigé) /3

. Un chercheur pense que les personnes avec une faible estime d eux-mêmes auront tendance à éviter les situations qui attireront l attention sur elles. Un échantillon aléatoire de 7 personnes est sélectionné. Chaque personne est soumise à un test standardisé qui mesure l estime de soi en la définissant comme haute, moyenne ou faible. Les sujets sont ensuite placés dans une situation dans laquelle ils doivent choisir entre une tâche qui devra être effectuée devant les autres et une tâche qui devra être effectuée par la personne seule. Le chercheur note le choix de ses sujets et dresse le tableau de fréquences suivant : Estime de soi Tâche En public Sans public Faible 4 16 Moyenne 14 14 Haute 18 6 Y a-t-il un lien entre estime de soi et le choix de la tâche à un seuil de.05. Pour répondre à la question, nous devons effectuer un test d indépendance. Pour ce faire, il faut déterminer les fréquences attendues sous l hypothèse d indépendance, en ayant préalablement les fréquences marginales : Estime de soi Tâche En public Sans public Total Faible (36*0)/7 = 10 (36*0)/7 = 10 0 Moyenne (36*8)/7 = 14 (36*8)/7 = 14 8 Haute (36*4)/7 = 1 (36*4)/7 = 1 4 Total 36 36 7 Puis, il faut déterminer la valeur du : J ( O = j= 1 j E E j j ) = + ( 4 10) ( 16 10) ( 14 14) 10 ( 14 14) ( 18 1) ( 6 1) 14 + + 10 1 + + 14 1 = 13, et la comparer à la valeur du à.05 et degrés de liberté qui vaut 5,99: 5,99<13, Nous nous situons donc dans la zone de rejet de. Nous pouvons affirmer avec un risque d erreur maximal de 5% qu il n y a pas indépendance entre les deux variables et qu il y a donc un lien entre les deux. TTP 8-006-007 (Corrigé) 3/3