Cours 1 Observation conjointe de deux variables La situation et sa modélisation statistique 1 Situation statistique. Deux variables X et Y sont mesurées simultanément sur les n individus d un échantillon d une population donnée : l observateur attribue à chaque individu un couple de valeurs, la mesure pour X et la mesure pour Y. 2 La population. C est l ensemble des individus sur lesquels porte la problématique ; il est généralement défini «en compréhension» par une propriété caractéristique qui permet de déterminer objectivement a si un individu donné appartient ou non à cette population. Elle est modélisée par un ensemble mathématique P, dont les éléments sont les individus notés e ; si on note P rop la propriété caractéristique de la population, on a le résultat : e P si, et seulement si P rop appliquée à e (P rop(e)) est vraie. 3 L échantillon. Quand la mesure des deux variables sur la population entière est impossible (taille de la population, coût ou traumatisme de l observation, etc...), on la restreint à n individus parfaitement identifiés, en principe choisis pour représenter la population dans son ensemble. Le procédé de sélection, appelé échantillonnage de la population, est trop complexe pour faire partie de ce cours. L échantillon est modélisé par un sous-ensemble E de P, de taille n, dont les éléments sont des individus notés e 1, e 2,..., e n. Les variables X et Y. 4 Une variable est un caractère qu on peut observer sur les individus de la population, suffisamment bien défini pour que son observation soit objective b. 5 déf La nature d une variable est caractérisée par les différentes valeurs observables : une variable est nominale si les valeurs sont simplement des mots ; une variable est ordinale si les valeurs sont des mots qui désignent différents degrés d un ordre explicite ; une variable est [numérique] discrète si les valeurs sont des entiers naturels, généralement obtenus par dénombrement ; une variable est [numérique] continue si les valeurs sont des nombres exprimant une mesure lue sur un instrument réel ou virtuel (toise, balance ou notation par exemple) ; le nombre de décimales indique la précision de l instrument ou l unité de mesure, dont dépendent les valeurs observables. 6 Modéliser une variable consiste à déterminer sa nature puis à fixer l ensemble des mesures observables a priori sur un individu, appelées modalités : a. Dans le contexte de ce cours, un résultat est dit objectif s il ne dépend pas de l observateur : en l occurrence, tous les observateurs répondraient de la même manière à la question de savoir si un individu donné appartient ou non à la population. b. Tous les observateurs donneront la même valeur pour la mesure du caractère sur un individu quelconque.
2 Statistique pour la psychologie II : E34XP1 si la variable est nominale ou ordinale, les modalités sont des mots qu il faut énumérer ; si elle est discrète ce sont les entiers compris entre deux bornes qu il faut indiquer (si la variable est un dénombrement, les bornes sont les plus petit et plus grand résultats possibles du dénombrement) ; si elle est continue, ce sont des intervalles disjoints et contigües de valeurs numériques ; ces intervalles sont généralement fermés à gauche (la borne gauche est dans l intervalle) et ouverts à droite (la borne droite ne l est pas). Dans la suite, on notera k le nombre de modalités de X, p le nombre de modalités de Y, m 1, m 2,..., m k les modalités de X et m 1, m 2,..., m p les modalités de Y. Les résultats de l observation Observer ou mesurer un individu de l échantillon avec la variable X consiste à sélectionner la modalité de X qui correspond à l individu ; cette modalité s appelle mesure de X sur ou pour l individu : si la variable est nominale ou ordinale, on sélectionne un mot parmi les modalités ; si elle est discrète, on sélectionne un entier compris entre les deux bornes (si la variable est un dénombrement, on effectue ce dénombrement et on note le résultat) ; si elle est continue, on choisit l intervalle qui contient la valeur lue sur l instrument de mesure. 7 déf Les données brutes : les résultats de l observation d un échantillon peuvent être donnés par la liste exhaustive des mesures effectuées sur les n individus, les données brutes ; on dispose alors de n couples (x i, y i ) où x i et y i sont les mesures de X et Y pour le ième l individu (e i ) ; elles sont généralement présentées sous forme de tableau : On trouvera plus loin les exemples. Individus 1 2... i... n X x 1 x 2 x i x n Y y 1 y 2 y i y n 8 déf Tableau de contingence : ces résultats peuvent également être résumés dans un tableau de contingence : c est un tableau à k lignes représentant les modalités de X, et p colonnes représentant celles de Y ; la cellule c ij placée à l intersection de la i-ème ligne (le premier indice identifie toujours le numéro de ligne) et de la j-ème colonne identifie la modalité conjointe m i et m j ; elle contient l effectif n ij de cette modalité, égal au nombre d individus de l échantillon ayant à la fois la modalité m i comme mesure de X et m j comme mesure de Y. X/Y m 1 m 2... m j... m p m 1 n 11 n 12 n 1j n 1p m 2 n 21 n 22 n 2j n 2p... m i n i1 n i2 n ij n ip... m k n k1 n k2 n kj n kp On trouvera plus loin les exemples. Les k p nombres n ij (1 i k et 1 j p) sont des entiers positifs ou nuls, dont la somme est nécessairement n, la taille de l échantillon. Le tableau de contingence peut aussi contenir des fréquences f ij (n ij /n) à la place des effectifs : la somme de ces nombres décimaux est alors 1 s il s agit de fréquences en proportion, où 100 s il s agit de fréquences en pourcentage.
Statistique pour la psychologie II : E34XP1 3 Remarque : quand la taille de l échantillon est grande, le tableau de contingence est beaucoup plus lisible que la liste des données brutes ; au prix d une perte d information : un tableau de contingence ne permet pas de connaître les mesures de X et Y pour un individu donné. à partir les données brutes on peut toujours construire le tableau de contingence, alors qu à partir du tableau de contingence on ne peut pas reconstituer la liste des données brutes ; 9 Pratique. Pour modéliser une situation donnée (la traduire en termes statistiques) il faut : 1. Définir «en compréhension» la population P ou ses individus ; 2. Indiquer la taille n de l échantillon et, si possible, énumérer ses éléments ; 3. Pour chacune variable : décrire «en langue» la mesure effectuée, indiquer la nature de la variable, déterminer le nombre et l ensemble de ses modalités ; si la variable est continue, on doit énumérer les modalités-intervalles avec leurs bornes ; 4. préciser la forme des résultats, données brutes ou tableau de contingence. Exemples 10 Exemple 1 : niveau scolaire et absentéisme Situation : pour étudier les liens entre niveau scolaire et assiduité, on a fait une enquête (fictive) en mesurant sur des élèves le niveau scolaire (X) et l absentéisme en classe (Y). X / Y Rare Moyen Fréquent Total X A 7 4 4 15 B 8 2 2 12 Total Y 15 6 6 27 Population : les individus sont des élèves (?). Échantillon : taille 27 X : "le niveau scolaire" ; variable ordinale à 2 modalités : A < B ; Y : "l assiduité" ; variable ordinale à 3 modalités : Rare < Moyen < Fréquent ; Les résultats : tableau de contingence 2*3, complété en marge par les totaux de X et de Y. 11 Exemple 2 : tailles père et fils Situation : étude du lien entre les tailles du père (X) et du fils aîné (Y) dans des familles, à partir d un échantillon de 12 mesures faites en pouces. Ind. 1 2 3 4 5 6 7 8 9 10 11 12 Père 65 63 67 64 68 62 70 66 68 67 69 71 Fils 68 66 71 65 69 66 68 65 69 67 68 70 Population : les individus sont des familles. Échantillon : taille 12. X : "la taille du père" ; variable [numérique] continue ; on considère les valeurs mesurées (65, 63, etc...) comme les centres de modalité-intervalle de largeur 1 pouce : "65" est par exemple la modalité [64,5 ; 65,5[ ; en l absence d information, on peut choisir avec du bon sens la plus petite et la plus grande modalité, par exemple "60" ([59,5 ; 60,5[) et "80" ([79,5 ; 80,5[), ce qui donne 21 modalités-intervalles pour X. Y : "taille du fils" ; comme X. Les résultats : liste des données brutes composées des 12 couples de valeurs (x i,y i ) observées sur les 12 familles (1 i 12).
4 Statistique pour la psychologie II : E34XP1 12 Exemple 3 : tests de contrôle de connaissance Situation : on veut vérifier l indépendance de deux tests T1 et T2 utilisés pour des examens ; on note entre 50 et 100 les résultats obtenus par 8 étudiants à ces tests. Ind. 1 2 3 4 5 6 7 8 X=T1 80 50 36 58 72 60 56 68 Y=T2 65 60 35 39 48 44 48 61 Population : les individus sont des étudiants. Échantillon : taille 8. X : "la note au test T1" ; comme dans l exemple des tailles, on peut considérer X comme une variable continue ayant 51 modalités de largeur 1, sauf la première, "50" ([50 ; 50,5[), et la dernière, "100" ([95,5 ; 100[). Y : "la note au test T2" ; identique à X. Résultats : liste des données brutes sous forme de tableau. 13 Exemple 4 : traitements anti-termites Situation : pour étudier des traitement anti-termite T1, T2 et T3, on les a expérimenté sur 600 poteaux en bois, en notant l état du poteau quelque temps après. X / Y T1 T2 T3 Total X Contaminé 26 48 18 92 Sain 174 152 182 508 Total Y 200 200 200 600 Population : les individus sont des poteaux en bois. Échantillon : taille 600. X : "l état du poteau" ; une variable nominale dichotomique (2 modalités) : Contaminé, Sain. Y : "le traitement effectué sur le poteau" ; une variable nominale à 3 modalités : T1, T2 et T3. Résultats : tableau de contingence, complété par les totaux de X et de Y en marge. 14 Exemple 5 : revenus et situation géographique. Situation : 400 familles américaines sont classées par revenu en milliers de dollars (X) et par région (Y) (adapté de T. et R. Winnicott, 1991). X / Y Sud Nord Total X 0-4 28 44 72 5-9 42 78 120 10-14 30 78 108 15 et plus 24 76 100 Total Y 124 276 400 Population : les individus sont des familles américaines. Échantillon : taille 400. X : "le revenu de la famille en milliers de dollars" ; variable continue à 4 modalités : "0-4" est l intervalle [0 5[ (on suppose que 0-4 signifie de 0 à 4 milliers inclus), "5-9" est l intervalle [5 10[, "10-14" l intervalle [10 15[ et "15 et plus" l intervalle [15 30] (30 est choisi arbitrairement). Y : "la situation géographique de la famille" ; variable nominale à 2 modalités, Sud et Nord. Résultats : tableau de contingence, complété par les totaux de X et de Y en marge.
Statistique pour la psychologie II : E34XP1 5 15 Exemple 6 : revenus mari et femme. Situation : distribution en pourcentage des revenus de l épouse (Y) et de l époux (X) dans des ménages. X / Y 10 20 30 40 Total X 10 20 10 0 0 30 20 4 36 5 0 45 30 1 9 10 0 20 40 0 0 0 5 5 Total Y 25 55 15 5 100 Population : les individus sont des ménages. Échantillon : on ignore sa taille effective puisque les résultats sont donnés en pourcentage ; on fait comme si la taille était 100. X : "les revenus de l époux" ; variable numérique continue à4 modalités ; "10" ([0 15[), "20" ([15 ; 25[), "30" ([25 ; 35[) et "40" ([35 ; 45[). Y : "les revenus de l épouse" ; mêmes caractéristiques que X. Résultats : tableau de contingence en pourcentage ; les marges donnent les distributions en pourcentages de X et Y. 16 Exemple 7 : étude sur le sentiment de bonheur. Situation : une étude sur l influence de l âge et du nombre de frères et sœurs sur le sentiment de bonheur (pas très heureux est noté 1, assez heureux est noté 2, très heureux est noté 3), portant sur 866 sujets âgés entre 6 et 18 ans, a donné les résultats suivants : Âge Nbre Bon. Eff. Âge Nbre Bon. Eff. Âge Nbre Bon. Eff. 12 0 1 15 12 0 2 17 12 0 3 7 12-14 0 1 24 12-14 0 2 43 12-14 0 3 20 14 0 1 26 14 0 2 50 14 0 3 23 12 1 1 41 12 1 2 64 12 1 3 29 12-14 1 1 31 12-14 1 2 50 12-14 1 3 5 14 1 1 50 14 1 2 76 14 1 3 12 12 2 1 25 12 2 2 40 12 2 3 12 12-14 2 1 26 12-14 2 2 31 12-14 2 3 17 14 2 1 35 14 2 2 53 14 2 3 5 12 3+ 1 4 12 3+ 2 2 12 3+ 3 3 12-14 3+ 1 4 12-14 3+ 2 6 12-14 3+ 3 5 14 3+ 1 6 14 3+ 2 5 14 3+ 3 4 cette situation décrit l observation de 3 variables conjointes sur un échantillon. Population : les individus sont des jeunes âgés de 6 à 18 ans. Échantillon : 866 jeunes. X : "âge" ; variable continue à 3 modalités ; "<12" ([6 12[), "12-14" ([12 ; 15[), et ">14" ([15 ; 18]). Y : "le nombre de frère et sœurs" ; variables discrète à 4 modalité, 0 1 2 et une classe "3+" regroupant les nombres compris entre 3 et 10 (par exemple). Z : "le sentiment du bonheur" ; variable nominale à 3 modalités "pas très heureux" notée 1, "assez heureux" noté 2, "très heureux" noté 3 ; contrairement aux apparences de la notation, on ne peut pas considérer cette variable comme discrète : d une part on aurait pu utiliser une autre notation sans modifier la situation ("P" "A" et "T" par exemple), et d autre part on ne peut pas assurer que la somme de "pas très heureux" et "assez heureux" (1+2) a la même signification que "très heureux" (3).
6 Statistique pour la psychologie II : E34XP1 Résultats : tableau de contingence en effectif, de dimension 3 ; on peut réorganiser par la pensée ce tableau en trois tableau de contingence en effectif de XxY superposés, le premier pour les 287 individus "pas très heureux (1)", le second pour les 437 individus "assez heureux (2)" et le troisième pour les 142 individus "très heureux (3)" : X / Y 0 1 2 3+ 12 15 41 25 4 12-14 24 31 26 4 14 26 50 35 6 287 individus "pas très heureux" X / Y 0 1 2 3+ 12 17 64 40 2 12-14 43 50 31 6 14 50 76 53 5 437 individus "assez heureux" X / Y 0 1 2 3+ 12 7 29 12 3 12-14 20 5 17 5 14 23 12 5 4 142 individus "très heureux" 17 Contre exemple Tout tableau de nombres n est pas un tableau de contingence ; pour qu il le soit, il faut : 1. qu il permette de décrire la situation statistique ; 2. que les nombres correspondent à des effectifs ou à des fréquences d individus d un échantillon ; 3. que leur somme soit égale à la taille de l échantillon, ou 1 ou 100 s il s agit de fréquences. Dans le tableau suivant, les individus sont indéterminés, et les nombres ne désignent ni des effectifs ni des fréquences (ce sont des mesures) : D. A D. B D. C D. D D. E D. F Total Pays 1 125 1574 235 235 25 257 2451 Pays 2 45 842 78 452 74 299 1790 Pays 3 245 612 102 99 65 187 1310 Pays 4 312 711 211 125 35 55 1449 Total 727 3739 626 911 199 798 7000 Production de denrées par pays, en milliers de tonnes.
Questions de cours Statistique pour la psychologie II : E34XP1 7 1. Définition de la population dans une situation statistique. 2. Définition de la l échantillon dans une situation statistique. 3. Qu appelle-t-on taille d un échantillon? 4. Qu est-ce qu une variable dans une situation statistique? 5. Quelles sont les différentes natures de variable? 6. Différence entre une variable numérique discrète et continue. 7. En quoi consiste la modélisation d une situation statistique? 8. Dans quel contexte peut-on parler de données brutes? De quoi s agit-il? Définition du tableau de contingence? 9. Que désignent les notations x 3 y 5 k p n m 2 m 3 c 44 n 12 f 32 dans le modèle d une situation statistique? 10. Quel rapport y-a-t-il entre n ij et f ij? Questions sur le cours 1. Décrire la façon de construire un tableau de contingence à partir des données brutes. 2. Appliquer la méthode précédente aux données brutes de l exemple 2. 3. Peut-on reconstituer les données brutes à partir d un tableau de contingence? 4. En prenant successivement chaque exemple, indiquez quand c est possible la valeur des quantités notées k p n n 13 n 22 f 21 f 32. 5. Pourquoi la somme de tous les effectifs n ij est-elle égale à n? 6. Dans l exemple 3, quelle notation faut-il utiliser pour désigner les nombres 80 35 36 et 61? 7. Dans l exemple 5, quelle notation faut-il utiliser pour désigner les nombres 44 30 et 78? 8. Dans l exemple 5, que représentent les nombres 120 276 et 400? 9. Dans l exemple 6, est-il exact d affirmer que 45% des épouses ont un revenu compris entre 15 et 25? que les époux et épouses ont le même revenu dans 71% des ménages? 10. Dans l exemple 6, combien y-a-t-il de ménages dans lesquels l époux a un revenu moindre que celui de l épouse?