Série double de deux caractères quantitatifs Table des matières A Tableaux statistiques à deux dimensions 1 A1 Tableau de données ponctuelles (ou en lignes) 1 A2 Tableau à double entrée (ou de contingence) 1 A3 Conversion d un tableau en lignes en un tableau de contingence 2 A4 Effectifs marginaux 3 A5 Fréquences marginales 3 A6 Distributions marginales 4 A7 Distributions conditionnelles 4 A8 Fréquences conditionnelles 4 A9 Sous-représentation et sur-représentation 6 A Tableaux statistiques à deux dimensions Soient deux caractères et définis sur une même population d effectif total ( et peuvent être tous deux qualitatifs, tous deux qualitatifs, l un qualitatif et l autre quantitatif) Remarque 1 Si est qualitatif, x i est i-ème la modalité de ce caractère ; si est quantitatif, x i est la i-ème valeur du caractère ou le centre de la i-ème classe De même pour A1 Tableau de données ponctuelles (ou en lignes) Une série statistique double (, ) de deux caractères discrets liés par un tableau en lignes est la donnée d une suite de n couples (x k, y k ) (avec k [1n]) : Individus 1 2 n x 1 x 2 x n y 1 y 2 y n A2 Tableau à double entrée (ou de contingence) Une série statistique double (, ) liée par un tableau de contingence est définie par : Les p valeurs possibles x 1,, x r ou les p classes [a 0, a 1 [,, [a p 1, a p [ de Les q valeurs possibles y 1,, y q ou les q classes [b 0, b 1 [,, [b q 1, b q [ de
Les effectifs n ij correspondants aux observations pour lesquelles ( = x i et = y j ) ou ( [a i 1, a i [ et = y j ) ou ( = x i et [b i 1, b i [) ou ( [a i 1, a i [ et [b i 1, b i [) A l intersection de la i-ème ligne et de la j-ème colonne, on reporte l effectif n ij correspondant à l observation conjointe : y 1 y j y q n i [a 0, a 1 [ n 11 n 1q n 1 [a i 1, a i [ n ij n i [a p 1, a p [ n p1 n pq n p n j n 1 n j n q A3 Conversion d un tableau en lignes en un tableau de contingence Principe Soit un tableau en lignes défini par une suite de n couples (x k, y k ) (avec k [1n]) Soient x 1 < x 2 < < x r la suite ordonnée des différentes valeurs x k et y 1 < y 2 < < y s celle des y k Le tableau de contingence associé est défini par l ensemble des triplets ( x i, y j, n ij), (i, j) [1r] [1s] où n ij est le nombre de couples ( x i, j) y observés dans le tableau en lignes ie : n ij = card { k [1n] : (x k, y k ) = ( )} x i, y j Exemple 2 Le tableau en lignes Individus 1 2 3 4 5 6 7 8 9 10-1 -1-1 -1-1 0 0 1 1 1 2 4 4 2 4 3 2 4 2 4 a pour tableau de contingence associé :
2 3 4-1 2 0 3 0 1 1 0 1 1 0 2 A4 Effectifs marginaux otation 3 On indique par un point une sommation effectuée suivant l indice i ou l indice j Définition 4 On appelle : i-ème effectif marginal de : total des effectifs de la ligne i : n i = n i1 + + n iq = j-ème effectif marginal de : total des effectifs de la colonne j : p n j = n 1j + + n pj = Effectif total : total des effectifs : p n = n i = n j = p n ij = n ij n ij p n ij = A5 Fréquences marginales Définition 5 On appelle : Fréquences les quotients : i-ème fréquence marginale de : f ij = n ij f i = n i = f ij
j-ème fréquence marginale de : Résultat 6 La somme des fréquences est égale à 1 : f j = n j = p f ij p p p f ij = f i = f ij = Preuve Résulte des propriétés de l opérateur somme f j = 1 A6 Distributions marginales De la distribution statistique du couple (, ), on peut déduire les distributions de seul et seul Définition 7 La distribution marginale de est la série statistique des p couples (x i, n i ) (ou ([a i 1, a i [, n i ) avec i = 1,, p La distribution marginale de est la série statistique des q couples (y j, n j ) (ou [b j 1, b j [, n j ) avec j = 1,, q Remarque 8 En général la connaissance des distributions marginales de et de ne suffit pas pour déterminer la distribution du couple (, ) Cela n est possible que si et sont indépendants (voir chapitre correspondant) Remarque 9 La moyenne et la variance de s expriment de la façon suivante : ȳ = 1 n j y j = f j y j ( V ( ) = σ 2 ( ) = 1 ) n j (y j ȳ) 2 = 1 n j yj 2 ȳ 2 On a des expressions analogues dans le cas de
A7 Distributions conditionnelles Définition 10 Pour i fixé, la distribution conditionnelle de lié par { = x i } (ou par { [a i 1, a i [}) est dans le cas discret la série (y j, n ij ), j = 1,, q, et dans le cas continu la série ([b i 1, b i [, n ij ), j = 1,, q Pour j fixé, la distribution conditionnelle de lié par { = y j } (ou par { [b i 1, b i [}) est dans le cas discret la série (x i, n ij ), i = 1,, p, et dans le cas continu la série ([a i 1, a i [, n ij ), i = 1,, p A8 Fréquences conditionnelles On suppose que pour tout i [1p] : n i 0 et tout j [1q] : n j 0 Les définitions ci-dessous sont données dans le cas où les deux séries sont discrètes ; on aurait des définitions analogues dans les autres cas On remarque que l effectif total de la distribution conditionnelle de lié par { = x i } est égale à : n ij = n i et que la j-ème fréquence de cette série est : d où les définitions ci-dessous données uniquement pour le caractère n ij n i Définition 11 On appelle : fréquences conditionnelles de liée par { = x i }, les réels : f j/i = n ij n i j [1q] moyenne conditionnelle de liée par { = x i } : ȳ i = 1 n ij y j = n i variance conditionnelle de liée par { = x i } : V i ( ) = 1 n ij (y j ȳ i ) 2 = n i f j/i y j f j/i (y j ȳ i ) 2
Proprité 12 Le produit des fréquences marginales par les fréquences conditionnelles est égal aux fréquences par rapport à l effectif total : Preuve Résulte des définitions : f ij = n ij = n ij n i n i f ij = f j/i f i = f i/j f j ( ) n ij n j = fj/i f i = n j ( = fi/j f j ) Proprité 13 La moyenne marginale est la moyenne des moyennes conditionnelles pondérées par les effectifs marginaux du caractère de liaison La relation pour est : ȳ = 1 r r n i ȳ i = f i ȳ i Preuve En tenant compte des définitions et relations ci-dessus, on a : r r ȳ = f j y j = f ij y j = f ij y j = r f j/i f i y j = r f i f j/i y j = r f i ȳ i Proprité 14 La variance marginale est égale à la moyenne des variances conditionnelles augmentée de la variance des moyennes conditionnelles La relation pour est : r V ( ) = f ij (y j ȳ) 2 = f i V i ( ) + =V i ( ) + V (ȳ i ) A9 Sous-représentation et sur-représentation f i (ȳ i ȳ) 2 Soit le tableau de contingence des effectifs et celui des fréquences de deux caractères et définis sur une population Ω donné ci-dessous dans le cas où ou sont qualitatifs ou quantitatifs discrets :
y 1 y j y q n i y 1 y j y q f i x 1 n 11 n 1q n 1 x 1 f 11 f 1q f 1 x i n ij n i x i f ij f i x p n p1 n pq n p n j n 1 n j n q x p f p1 f pq f p f j f 1 f j f q 1 Soient i [1r] et j [1s] La proportion des individus de la population présentant la valeur x i est égale à n i = f i Parmi l ensemble des individus présentant la valeur y j, la proportion de ceux qui présentent la valeur x i est égale à n ij n j = n ij n j = f ij f j Les individus présentant la valeur x i sont par conséquent sous-représentés (resp sur-représentés, également représentés) parmi les individus présentant la valeur y j ssi f ij f j < f i f ij < f i f j, (resp f ij > f i f j, f ij = f i f j ), donc par symétrie ssi les individus présentant la valeur y j sont sous-représentés (resp sur-représentés, également représentés) parmi les individus présentant la valeur x i Par conséquent, dire que pour tout i [1r], j [1s], les individus présentant la valeur x i sont également représentés parmi les individus présentant la valeur y j équivaut à l indépendance des caractères et Définition 15 On appelle : tableau de contingence théorique T celui obtenu à partir du tableau de contingence des fréquences F en remplaçant les fréquences f ij par les produits f i f j appelés fréquences théoriques tableau des écarts la différence entre le tableau théorique T et le tableau de contingence des fréquences, ie le tableau où à l intersection de la ligne i et de la colonne j, se trouve f ij f i f j Une valeur strictement positive (resp strictement négative) dans le tableau des écarts signifie une sur-représentation (resp sous-représentation) Remarque 16 La somme de r s réels figurant dans les cases du tableau des écarts est nulle, de même que la somme des réels figurant dans une ligne (resp colonne) quelconque Si la répartition est proportionnelle, le tableau des écarts ne comporte que des zéros (on parle de situation homogène ou équilibrée)
Exemple 17 Soit le tableau : y 1 y 2 y 3 y 4 n i x 1 12 9 4 14 39 x 2 3 4 1 2 10 x 3 5 5 3 2 15 x 4 10 11 2 13 36 n j 30 29 10 31 100 Le tableau de contingence des fréquences et le tableau théorique T associés sont : y 1 y 2 y 3 y 4 f i y 1 y 2 y 3 y 4 f i x 1 0,12 0,09 0,04 0,14 0,39 x 2 0,03 0,04 0,01 0,02 0,1 x 3 0,05 0,05 0,03 0,02 0,15 x 4 0,1 0,11 0,02 0,13 0,36 f j 0,3 0,29 0,1 0,31 1 x 1 0,117 0,1131 0,039 0,1209 0,39 x 2 0,03 0,029 0,01 0,031 0,1 x 3 0,045 0,0435 0,015 0,0465 0,15 x 4 0,108 0,1044 0,036 0,1116 0,36 f j 0,3 0,29 0,1 0,31 1 Par différence, on obtient le tableau des écarts : y 1 y 2 y 3 y 4 x 1 0,003-0,0231 0,001 0,0191 x 2 0 0,011 0-0,011 x 3 0,005 0,0065 0,015-0,0265 x 4-0,008 0,0056-0,016 0,0184 On lit par exemple que les individus présentant la valeur x 2 sont également représentés parmi les individus présentant la valeur y 1 et parmi ceux présentant la valeur y 3