Chapitre 3. Séries statistiques bivariées.

Chapitre 3. Séries statistiques bivariées nicolas.chenavier@lmpa.univ-littoral.fr

Exemple introductif 1 On considère un nombre n d individus (en pratique, n est grand) faisant intervenir exactement deux données pour chaque individu : Individu Age Couleur de cheveux Individu Age Couleur de cheveux 1 18 châtain 16 21 brun 2 19 blond 17 18 brun 3 20 châtain 18 19 blond 4 19 brun 19 19 blond 5 19 brun 20 18 brun 6 18 châtain 21 19 brun 7 21 blond 22 19 châtain 8 18 blond 23 18 châtain 9 19 châtain 24 21 châtain 10 19 châtain 25 18 châtain 11 19 châtain 26 20 châtain 12 20 brun 27 20 blond 13 18 brun 28 19 brun 14 21 châtain 29 20 brun 15 19 châtain 30 20 châtain Table: Age et couleurs de cheveux d une population de 30 personnes le nombre d individus est n = 30 ; les variables sont l âge et la couleur de cheveux. 2 / 30

Exemple introductif 2 Individu Echelon Salaire Individu Echelon Salaire 1 3 2150 17 2 1975 2 1 1750 18 6 2775 3 4 2400 19 3 2150 4 6 2775 20 5 2600 5 6 2775 21 5 2600 6 2 1975 22 5 2600 7 4 2400 23 2 1975 8 6 2775 24 2 1975 9 6 2775 25 6 2775 10 4 2400 26 4 2400 11 3 2150 27 1 1750 12 5 2600 28 3 2150 13 5 2600 29 3 2150 14 3 2150 30 2 1975 15 6 2775 31 4 2400 16 2 1975 32 5 2600 Table: Echelon (dans la fonction publique) et salaire (en euros) d une population de 32 personnes le nombre d individus est n = 32 ; les variables sont l échelon et le salaire. 3 / 30

Problème considéré Les séries statistiques considérées ci-dessus sont dites bivariées au sens où, pour chaque individu de la population, on considère deux caractéristiques. Les séries que nous allons considérer sont donc de la forme (x 1, y 1 ),..., (x n, y n ). Le but est : de représenter sous forme synthétique les données issues d une série statistique bivariée ; d étudier des ressemblances (ou non ressemblances) entre individus au regard des deux caractères étudiés ; d établir (lorsque cela est possible) une liaison fonctionnelle entre les deux caractères. 4 / 30

Sommaire 1 Présentation des données Tableau de contingence Représentations graphiques 2 Indépendance et corrélation Indépendance Corrélation 3 Ajustement affine Modèle linéaire simple Décomposition de la variance 5 / 30

Tableau de contingence Construction d un tableau de contingence Pour une série statistique univariée, il est plus commode de représenter les données sous la forme d un tableau des effectifs/fréquences plutôt qu un tableau donnant la caractéristique de chaque individu. De même, on représente rarement les données d une série statistique bivariée tel qu on l a fait dans les exemples introductifs. En pratique, on utilise un tableau dit de contingence. X \ Y y 1 y j y q x 1 n 11 n 1j n 1q x i n 1i n ij n iq x p n pi n pj n pq Table: Tableau de contingence X = x 1,..., x p et Y = y 1,..., y q désignent l ensemble des caractéristiques observées des deux variables ; n ij est le nombre de personnes ayant pour caractéristiques (x i, y pour tout 1 i p et 1 j q. j ) 6 / 30

Tableau de contingence Marginales Définition On appelle : distribution de la marginale en X l ensemble des nombres n i, 1 i p, où n i est l effectif de la population ayant pour caractéristique x i : n i = n i1 + n i2 + + n iq ; distribution de la marginale en Y l ensemble des nombres n j, 1 j q, où n j est l effectif de la population ayant pour caractéristique y j : n j = n 1j + n 2j + + n pj. 7 / 30

Tableau de contingence Exemple 1 de tableau de contingence Reprenons le premier exemple introductif. Age \ Cheveux châtain blond brun 18 4 1 3 19 5 3 4 20 3 1 2 21 2 1 1 Table: Tableau de contingence de l âge et de la couleur de cheveux En particulier : la somme des nombres dans le tableau est égale à n = 30 ; les effectifs de l âge (marginale en X) sont n 18 = 8, n 19 = 12, n 20 = 6 et n 21 = 4 ; les effectifs de la couleur de cheveux (marginale en Y ) sont n châtain = 14, n blond = 6 et n brun = 10. 8 / 30

Tableau de contingence Exemple 2 de tableau de contingence Reprenons le second exemple introductif. Echelon \ Salaire 1750 1975 2150 2400 2600 2775 1 2 0 0 0 0 0 2 0 6 0 0 0 0 3 0 0 6 0 0 0 4 0 0 0 5 0 0 5 0 0 0 0 6 0 6 0 0 0 0 0 7 Table: Tableau de contingence de l échelon et du salaire En particulier : la somme des nombres dans le tableau est égale à n = 32 ; de même, on obtient les distributions des marginales en X et en Y ; on constate que beaucoup de zéros apparaissent dans le tableau de contingence. On quantifiera un tel phénomène dans la section 2. 9 / 30

Tableau de contingence Fréquences d une série bivariée Définition Pour tout 1 i p, 1 j q, on appelle : fréquence de la caractéristique (x i, y j ), la quantité : f ij = n ij n ; fréquence (marginale) de la caractéristique x i (respectivement x j ), les quantités f i = n i n et f j = n j n ; fréquence (conditionnelle) de x i sachant y j (respectivement y j sachant x i ), les quantités f i j = f ij f j et f j i = f ij f i. 10 / 30

Tableau de contingence Exemple 1 de fréquences marginales et conditionnelles Reprenons le premier exemple introductif. Les proportions d individus de 19 ans châtains et d individus de 21 ans châtains sont respectivement : f 19,chatain = 5 30 = 16.7% et f 21,châtain = 2 30 = 6.7%. Les proportions d individus de 19 ans et de 21 ans sont respectivement : f 19 = 12 30 = 40% et f 21 = 4 30 = 13.3%. Les proportions de châtains parmi les individus de 19 ans et de châtains parmi les individus de 21 ans sont respectivement : f châtain 19 = 16.7 40 = 41.8% et f châtain 21 = 6.7 13.3 = 50%. 11 / 30

Tableau de contingence Exemple 2 de fréquences marginales et conditionnelles Reprenons le second exemple introductif. Les proportions d individus à l échelon 1 gagnant 1750 euros et d individus à l échelon 4 gagnant 2400 euros sont respectivement : f 1,1750 = 2 32 = 6.3% et f 4,2400 = 5 32 = 15.6%. Les proportions d individus à l échelon 1 et 4 sont respectivement : f 1 = 2 32 = 6.3% et f 4 = 5 32 = 15.6%. Les proportions d individus gagnant 1750 euros parmi ceux qui sont à l échelon 1 et d individus gagnant 2400 euros parmi ceux qui sont à l échelon 4 sont respectivement : f 1750 1 = 6.3 6.3 = 100% et f 2400 4 = 15.6 15.6 = 100%. 12 / 30

Représentations graphiques Représentations graphiques pour des séries bivariées On peut représenter une série statistique bivariée (x 1, y 1 ),..., (x n, y n ) de deux façons : 1 par un stéréogramme, représentant (dans l espace) un ensemble de parallélèpipèdes rectangles dont les hauteurs sont proportionnelles aux effectifs ou aux fréquences ou, éventuellement, aux densités des classes ; 2 par un nuage de points représentant (dans le plan) l ensemble des points (x i, y i ) 1 i n. Remarque 1 Le stéréogramme est l analogue du diagramme à bandes (utilisé pour les séries statistiques univariées). 2 On ne peut faire un nuage de points que si les variables statistiques X = x 1,..., x n et Y = y 1,..., y n sont toutes les deux quantitatives. 13 / 30

Représentations graphiques Exemple de nuage de points Figure: Nuage de points pour l échelon et le salaire (exemple introductif 2), réalisé avec Scilab 14 / 30

Représentations graphiques Poids d un nuage de points Il est également d usage de rajouter entre parenthèse l effectif n ij, appelé poids, sur le point de coordonnées (x i, y j ). Dans l exemple qui précède : le poids du point (1, 1750) est (2) ; le poids du point (2, 1975) est (6) ; le poids du point (3, 2150) est (6) ; le poids du point (4, 2400) est (5) ; le poids du point (5, 2600) est (6) ; le poids du point (6, 2775) est (7). 15 / 30

1 Présentation des données 2 Indépendance et corrélation Indépendance Corrélation 3 Ajustement affine 16 / 30

Indépendance Définition de l indépendance Définition Considérons une série statitistique bivariée (X, Y ). On dit que les séries X et Y sont indépendantes si, pour tout i, j : 1 les fréquences conditionnelles f i j ne dépendent pas de j ; 2 les fréquences conditionnelles f j i ne dépendent pas de i. En fait, il suffit qu une seule des deux conditions ci-dessus soit satisfaite (les deux conditions étant équivalentes). Une autre condition équivalente à l indépendance des deux séries est que f ij = f i f j pour tout i, j. Informellement, cela signifie que la variable Y n influence pas la variable X et réciproquement. Sur un tableau de contingence, deux séries sont indépendantes si les lignes ou/et les colonnes sont proprortionnelles. 17 / 30

Indépendance Exemples Dans l exemple introductif 1 (âge/couleur de cheveux), les deux variables sont "presque" indépendantes. On peut le voir de deux façons : 1 d une part, en constatant que les lignes et colonnes du tableau de contingence sont "presque proportionnelles" ; 2 d autre part, en calculant les fréquences conditionnelles et en remarquant qu elles sont "presque" indépendantes de la variable qui conditionne. Par exemple les fréquences f châtain 19 = 41.8% et f châtain 21 = 50% sont relativement proches. Dans l exemple introductif 2 (échelon/salaire), les deux variables dépendent totalement l une de l autre : le salaire d un individu dépend complètement de son échelon et inversement. 18 / 30

Indépendance Remarques sur la notion de d indépendance/dépendance Lorsque, pour chaque valeur x i de X correspond une unique valeur y j de Y, autrement dit lorsque chaque ligne du tableau de contingence ne contient qu un seul effectif n ij non nul, on dit que Y dépend totalement de X. En pratique, on n a jamais d indépendance "parfaite" des variables. Pour mesurer la dépendance entre deux variables (en un sens qui sera précisé), on introduit dans la section suivante la notion de coefficient de corrélation. A partir de maintenant, on se limite aux variables quantitatives. 19 / 30

Corrélation Définition et propriétés de la covariance Définition Considérons une série statistique bivariée (X, Y ) où X = x 1,... x n et Y = y 1,..., y n sont des variables quantitatives. On appelle covariance de X et de Y la quantité : Cov(X, Y ) = 1 n n (x i x)(y i y) = 1 n i=1 p q i=1 j=1 n ij (x i x)(y j y). Propriété 1 Cov(X, Y ) = Cov(Y, X) ; 2 Cov(aX + b, Y ) = acov(x, Y ) pour tous réels a, b ; 3 Cov(X, X) = Var(X) ; 4 Cov(X, Y ) = 1 n n i=1 x iy i x y = 1 p q n i=1 j=1 n ijx i y j x y. 5 Si X et Y sont indépendantes, alors Cov(X, Y ) = 0. 20 / 30

Corrélation Définition et classification de la corrélation Définition Considérons une série statistique bivariée (X, Y ) où X = x 1,... x n et Y = y 1,..., y n sont des variables quantitatives. On appelle coefficient de corrélation la quantité : Cor(X, Y ) = Cov(X, Y ) = Cov(X, Y ) [ 1, 1]. Var(X) Var(Y ) σ(x) σ(y ) On classe les différents degrés de corrélation comme suit : forte corrélation si Cor(X, Y ) [ 1, 0.8] [0.8, 1] ; corrélation médiocre si Cor(X, Y ) [ 0.8, 0.5] [0.5, 0.8] ; mauvaise corrélation si Cor(X, Y ) [ 0.5, 0.5]. 21 / 30

Corrélation Exemple de coefficient de corrélation et remarques Exemple : Pour l exemple introductif 2 (échelon/salaire), on peut montrer, à l aide d un tableur ou d une calculatrice, que la corrélation est 0.99. En particulier, il existe une très forte corrélation entre l échelon et le salaire. Remarques : Si (X, Y ) est une série bivariée telle que Y = ax + b, où a et b sont des réels, alors Cor(X, Y ) = 1. En particulier, si la corrélation entre X et Y est proche de 1, cela peut venir a priori d une relation linéaire entre les deux variables. Dans le cas de la statistique bivariée (échelon/salaire), le nuage de points suggère que le salaire dépend linéairement de l échelon. 22 / 30

Corrélation Corrélation et causalité Le fait que deux variables soient fortement corrélées provient, a priori, du fait que les variables sont liées. En revanche, une forte corrélation ne suffit pas pour établir une causalité entre ces deux variables : d autres facteurs peuvant entrer en ligne de compte. Par exemple : Une étude a prouvé que les gens habitant près de pylônes à haute tension étaient significativement plus souvent malades que le reste de la population. Est-ce à cause du courant électrique? Pas nécessairement parce qu une autre étude a révélé que les habitants sous les pylônes étaient en moyenne plus pauvres. Comme il existe un lien entre la santé et la pauvreté, l étude, à elle seule, ne permet pas de conclure que la faute est due au courant électrique : la cause réelle est peut-être la pauvreté. un autre exemple, dû à Coluche : "quand on est malade, il ne faut surtout pas aller à l hôpital : la probabilité de mourir dans un lit d hôpital est 10 fois plus grande que dans son lit à la maison"... 23 / 30

1 Présentation des données 2 Indépendance et corrélation 3 Ajustement affine Modèle linéaire simple Décomposition de la variance 24 / 30

Principe de la régression (ou de l ajustement) Lorsque deux variables X et Y sont quantitatitives (par ex : échelon/salaire), on souhaite souvent établir une relation fonctionnelle entre elles, c est-à-dire chercher une fonction f telle que Y = f (X). Quand on chercher à "expliquer" Y par X (c est-à-dire à prévoir les valeurs de Y à partir de celles de X supposées connues), on dit qu on fait une régression (ou un ajustement) de Y en X. En d autres termes, on cherche à approcher le nuage de points associé à (X, Y ) par une courbe de la forme {(x, f (x)), x R}. On peut également chercher à expliquer X par Y. Cependant, on notera que l une ou l autre de ces régressions peut ne présenter aucun intérêt (par ex : il est plus naturel d expliquer le salaire par l échelon que l échelon par le salaire). 25 / 30

Modèle linéaire simple Régression linéaire par moindres carrés Lorsque le nuage de points (x 1, y 1 ),..., (x n, y n ) d une série statistique bivariée (X, Y ) présente une forme "allongée", il est naturel d approcher le nuage par une droite de la forme y = ax + b où a et b sont des paramètres à déterminer. En pratique, les variables X et Y ne sont pas directement liées par une droite : pour chaque donnée i, il existe une erreur e i entre la réalité et l approximation "idéale" par la droite. On note cette erreur : e i = y i (ax i + b i ). Le plus souvent, la recherche de a et de b s entend aux moindres carrés : on les choisit de telle sorte qu ils rendent minimale l erreur : = n ei 2. i=1 26 / 30

Modèle linéaire simple Droite et coefficients de régression Théorème Soit (X, Y ) un couple de variables quantitatives à variances non nulles. Alors, il existe un unique couple (a, b) rendant minimale l erreur au sens des moindres carrés (pour la régression linéaire) donnés par : a = Cov(X, Y ) Var(X) et b = y ax. Les paramètres a et b et la droite d équation y = ax + b s appellent respectivement les coefficients de régression et la droite de régression de Y en X. En pratique, pour faire une régression, on procède comme suit : 1 D abord, on calcule le coefficient de corrélation Cor(X, Y ). 2 Si celui-ci est supérieur (en valeur absolue) à 0.8, on construit la droite de régression à l aide d un tableur ou d une calculatrice. Sinon, on ne fait pas de régression car celle-ci sera trop mauvaise. L intérêt de la régression est de prévoir des données futures. 27 / 30

Modèle linéaire simple Exemple de droite et de coefficients de régression Reprenons l exemple introductif 2 (âge/salaire). La corrélation est d environ 0.99. Il est donc légitime de faire une régression linéaire. Cette régression est donnée dans le graphique suivant : Figure: Régression linéaire pour l échelon et le salaire (exemple introductif 2), réalisé avec Scilab 28 / 30

Décomposition de la variance Décomposition de la variance Soit (X, Y ) un couple de variables quantitatives à variances non nulles. On note : Ŷ = ax + b : la série statistique obtenue par régression linéaire ; E = Y Ŷ : la série statistique des erreurs (écarts verticaux). Théorème Avec les notations précédentes, on a : Var(Y ) = Var(Ŷ ) + Var(E). En d autres termes, le résultat précédent signifie que : "la variance totale en Y " est la somme de "la variance expliquée" et de "la variance résiduelle". Le nom de la variance de Ŷ vient du fait que cette dernière est expliquée par le modèle par opposition à la variance résiduelle. Plus la variance résiduelle est petite, plus l approximation est bonne au sens des moindres carrés. 29 / 30

Décomposition de la variance L essentiel Représenter les données sous forme de tableaux (ponctuel/contingence) et de graphiques (nuage de points). Calculer le coefficient de corrélation d une série statistique bivariée. Effectuer, lorsque cela est légitime, une régression linéaire d une série statistique bivariée. 30 / 30