Outline Chapitre 2: Série statistique à deux variables Said, El Melhaoui Faculté des Sciences Juridiques, économiques et Sociales Oujda http://said-el-melhaoui.e-monsite.com 1 Introduction 2 Covariance Propriétés 3 Coefficient de corrélation Propriétés 4 Ajustement linéaire simple Ajustement par la méthode des moindres carrés Qualité de l ajustement 5 Tableau de contingence Distributions marginales Distributions conditionnelles S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 1 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 2 / 41
Introduction Introduction Introduction Souvent on s interesse à l étude d un phénomène à travers plusieurs variables qui l influencent simultanément En particulier soient deux variables statistiques x et y. Pour chaque unité i on observe des valeurs : x i et y i ; la série bivariée est : {(x i, y i ), i = 1,...,n} Comment organiser les données d une grande taille dans un tableau? Existe t il une relation entre les deux variables x et y? Si oui, comment peut on mesurer son intensité? son sens? Peut on la formuler sous forme d une relation explicite (fonction, modèle)? Exemple 1 Le manager d un magasin s intéresse à la relation qui pourrait exister entre le nombre des spots publicitaires diffusés au cours du week-end et les ventes effectuées la semaine suivante. Il observe les données de dix semaines Numéro de la semaine Nombre de spots Volumes de ventes en 100 $ 1 2 50 2 5 57 3 1 41 4 3 54 5 4 54 6 1 38 7 5 63 8 4 48 9 4 59 10 2 46 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 3 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 4 / 41
Introduction Covariance Exemple 1 (suite) Pour schématiser cette relation on représente les points P 1 = (2, 50), P 2 = (5, 57),...,P 10 = (2, 46), le graphe ainsi obtenu est dit nuage de points de la covariance Afin de mesurer l intensité de la dépendance (liaison) entre deux variables x et y ainsi que son sens (positive ou négative), on définit la covariance de x et y Pour une série bivariée {(x i, y i ), i = 1,...,n}. la covariance est définie par S xy = cov(x, y) = 1 n (x i x)(y i ȳ) n S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 5 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 6 / 41
Covariance Covariance Propriétés de la covariance (suite) La covariance S xy sera positive si x ր y ր. En effet, dans ce cas les points qui ont la plus grande influence sur la valeur S xy sont les points P i (x i, y i ) qui vérifient (x i x) (y i ȳ) > 0: les points appartenant au cadrans II et IV La covariance S xy sera négative si x ր y ց. Dans ce cas les points qui ont la plus grande influence sur la valeur S xy sont les points P i (x i, y i ) qui vérifient (x i x) (y i ȳ) < 0: les points appartenant au cadrans I et III La covariance S xy sera presque nulle, s il n existe aucune relation entre les deux variables. En effet, dans ce cas les points P i (x i, y i ) appartenant au cadrans II et IV ont presque la même influence que ceux se trouvant aux cadrans I et III S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 7 / 41 Propriétés 1 La covariance est influencée par les changements d unités et se conserve par les changements des origines. Soit x 0 et y 0 deux réels et d x et d y deux réels non nuls. u et v sont les variables issues de x et y respectivement par le changement d origine et d unité suivant: Alors u = x x 0 d x et v = y y 0 d y cov(u, v) = cov(x, y). dxdy 2 Formule de Konig Huyghens. La covariance peut être écrite sous la forme suivante: S xy = cov(x, y) = 1 n (x i y i ) ( x ȳ). n S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 8 / 41
Covariance Propriétés Coefficient de corrélation Exemple 1 (suite) du coefficient de corrélation La formule de Konig Huyghens : cov(x, y) = (1677/10) (31/10) (510/10) = 9.6 >> 0 = Il y a une forte relation positive entre le volume des ventes et le nombre des spots publicitaires x i y i x i y i 2 50 100 5 57 285 1 41 41 3 54 162 4 54 216 1 38 38 5 63 315 4 48 192 4 59 236 2 46 92 31 510 1677 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 9 / 41 La covariance est influencée par les changements d unités donc elle dépend des unités des deux variables ce qui relativise son interprétation on définit un coefficient dit le coefficient de corrélation de Bravais-Pearson ; ce coefficient mesure l intensité de la «dépendance linéaire» entre deux variables Pour une série bivariée {(x i, y i ), i = 1,...,n} telle que S x 0, S y 0, le coefficient de corrélation est le nombre r = S xy S x S y = cov(x, y) var(x) var(y). S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 10 / 41
Coefficient de corrélation Coefficient de corrélation coefficient de corrélation (suite) Forte corrélation positive r 0.88 r 1 quand tous les points observées sont situées à proximité d une même droite de pente positive : on parle d une forte corrélation positive r 1 quand tous les points observés sont situés à proximité d une même droite de pente négative : forte corrélation négative r 0 quand le nuage de points est allongé parallèlement à l un des axes de coordonnées ; les points forment un nuage arrondie : faible corrélation Remarque Une forte corrélation (liaison, dépendance) n indique pas nécessairement une relation de causalité (cause effet) Par exemple la variable ventes des glaces est fortement corrélée à la variable ventes des lunettes solaires, mais évidement aucune des deux variables ne cause l autre S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 11 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 12 / 41
Coefficient de corrélation Coefficient de corrélation Forte corrélation négative: r 0.72 Faible corrélation : r 0.2 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 13 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 14 / 41
Coefficient de corrélation Propriétés Coefficient de corrélation Propriétés Propriétés Exemple 1 (suite) 1 signe(r) = signe(cov(x, y)) 2 1 r 1 3 Formule de calcul: r = i ( i x 2 i ( i x i y i ) ( x i y i )/n i i x i ) 2 /n yi 2 ( i i y i ) 2 /n Le tableau permettant le calcul du coefficient de corrélation: 4 Le coefficient r est indépendant des unités des échelles de mesure. Ainsi, on a r xy = r uv quand u = (x x 0 )/d x et v = (y y 0 )/d y avec x 0 et y 0 R, d x et d y ]0,+ [ S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 15 / 41 Le coefficient de corrélation est : 1677 31 510/10 r = 117 31 2 /10 26576 510 2 /10 0.88 = Forte corrélation entre le nombre des spots publicitaires et les ventes S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 16 / 41
Ajustement linéaire simple Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement linéaire simple Ajustement linéaire simple: Exemple L objectif c est de formuler la relation de dépendance statistique entre deux variables x et y La variable à expliquer sera notée y (variable réponse, variable dépendante) La variable explicative (indépendante) sera notée x La plus simple dépendance est celle d une relation linéaire de la forme y = a+bx où a et b sont deux réels appelés coefficients de régression La droite de régression (ou d ajustement) est la droite la plus proche du nuage des points : c est la droite qui ajuste le mieux l ensemble des données S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 17 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 18 / 41
Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement par la Méthode des Moindres Carrés Ajustement par la méthode des moindres carrés (suite) Soit {(x i, y i ); i = 1,...,n} une série statistique bivariée. Notons par ŷ i = a+bx i, i = 1,...,n les valeurs ajustés de la variable y par la variable x Alors, il est possible de calculer les résidus : e i = y i ŷ i = y i (a+bx i ) L idée de l ajustement est la minimisation des écarts (résidus) entre la valeur de l observation y i et la valeur ajustée ŷ i Il existes différentes méthodes : Minimiser n e2 i ou n e i ou médiane(e i ) ou... La méthode la plus simple est la Méthode des Moindres Carrés (MMC) qui consiste à la minimisation de la somme des carrés des résidus : n n Q(a, b) = ei 2 = (y i a bx i ) 2 Cherchons a et b qui minimise la quantité ci-dessus: Q(a, b) (i) = 0 ; a Q(a, b) (ii) = 0. b S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 19 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 20 / 41
Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement par la méthode des moindres carrés (suite) Ajustement par la méthode des moindres carrés (suite) La solution du problème est S xy b = Sx 2 a = ȳ b x En calculant les dérivées secondes, on peut montrer que la solution est bien un minimum (exercice!) Formule de calcul: b = ( i x i y i ) ( i xi 2 ( i i x i y i )/n i x i ) 2 /n Le point ( x, ȳ) centre de gravité du nuage appartient à la droite de régression : ȳ = a+b x = la moyenne ajustée est égale à la moyenne réelle : ŷ = a+bx = a+b x = ȳ = En moyenne l erreur d ajustement est nulle : ē = y ŷ = ȳ ŷ = 0 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 21 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 22 / 41
Ajustement linéaire simple Ajustement par la méthode des moindres carrés Ajustement linéaire simple Ajustement par la méthode des moindres carrés Exemple (suite) MMC: Exemple Le tableau permettant le calcul des coefficients de régression: N. B. Via la formule de la définition : b = S xy S 2 x = 9.6 117/10 (31/10) 2 4.59 y = 4.59 x, pour une augmentation du nombre de spots par un ( x = 1) on a une augmentation de Y par y = 4.59 x = 0 implique ŷ = a = 36.76 c est les ventes incompressible Les coefficients de la droite sont : a = ( i y i )/n b( i b = 1677 31 510/10 117 31 2 /10 4.59 x i )/n = (510/10) 4.59 (31/10) 36.76 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 23 / 41 = l équation de la droite d ajustement : S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 24 / 41
Ajustement linéaire simple Qualité de l ajustement Ajustement linéaire simple Qualité de l ajustement Analyse de la variance (ANOVA) Le R-deux La variance de la variable à expliquer y se compose de deux parties: d une part la partie expliquée par la droite de régression dite la variance de régression d autre part la partie non expliquée par la régression dite la variance résiduelle On montre l equation de l ANOVA S 2 y = n (y i ŷ i ) 2 + = S 2 res + S 2 reg n (ŷ i ȳ) 2 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 25 / 41 On peut prouver que b = r S y S x b la pente de la droite et r sont de même signe, ainsi r > 0 droite d ajustement ascendante (ր) On montre que : S 2 reg = S 2 yr 2 r 2 = S2 reg S 2 y Le R-deux mesure le pourcentage de la variance de la variable réponse y expliqué linéairement par la variable explicative x Exemple: Le R-deux est r 2 = 0.883 2 = 0.779 = Environ 77.9% de la variabilité des ventes hebdomadaires est expliquée d une façon linéaire par la variabilité des nombres des spots publicitaires diffusés les week-end S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 26 / 41
Tableau de contingence Tableau de contingence Tableau de contingence Tableau de contingence Si la taille n de la population est assez grande le couple (x i, y j ) peut être observé plusieurs fois Soit n ij le nombre des unités dont les variables x et y ont pris respectivement les valeurs x i et y j : n ij est dit l effectif du couple (x i, y j ) On organise les données dans un tableau de contingence ou tableau double: { (xi, y j, n ij ), i = 1,...,p, j = 1,...,q } x \y y 1 y 2... y j... y q n i. x 1 n 11 n 12... n 1j... n 1q n 1. x 2 n 21 n 22... n 2j... n 2q n 2......... x i n i1 n i2... n ij... n iq n i......... x p n p1 n p2... n pj... n pq n p. n.j n.1 n.2... n.j... n.q n.. S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 27 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 28 / 41
Tableau de contingence Tableau de contingence Exemple Pour un échantillon composé de 20 licenciés à la FSJESO, on s intéresse au nombre x des 2 ième sessions présentées dans le 1 ière cycle et au nombre y des 2 ième sessions présentées dans le second cycle i 1 2 3 4 5 6 7 8 9 10 x 0 0 0 0 0 0 0 0 0 0 y 0 0 1 1 1 2 2 2 2 3 i 11 12 13 14 15 16 17 18 19 20 x 0 1 1 1 1 2 2 2 2 3 y 3 3 3 4 4 0 1 3 4 5 Les étudiants sans 2 ième session dans le premier cycle ont-ils plus de chances de réussite en 1 ière session que les autres? S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 29 / 41 Exemple (suite) Réorganisons de ces données dans un tableau: x \y y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 n i. x = 0 2 3 4 2 0 0 11 x = 1 0 0 0 2 2 0 4 x = 2 1 1 0 1 1 0 4 x = 3 0 0 0 0 0 1 1 n.j 3 4 4 5 3 1 20 La variable x a pris 4 valeurs ainsi p = 4, La variable y a pris 6 valeurs ainsi q = 6 et l effectif total est n = 20 L effectif n 11 = 2 indique que deux étudiants de l échantillon n ont jamais eu de 2 ième session (x = 0 et y = 0) L effectif n 34 = 1 indique qu un seul étudiant a eu deux 2 ième sessions en premier cycle et trois 2 ième sessions au second cycle (x = 2 et y = 3) S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 30 / 41
Tableau de contingence Tableau de contingence Distributions marginales Exemple (suite) Distributions marginales x \y y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 n i. x = 0 2 3 4 2 0 0 11 x = 1 0 0 0 2 2 0 4 x = 2 1 1 0 1 1 0 4 x = 3 0 0 0 0 0 1 1 n.j 3 4 4 5 3 1 20 L étude marginale de la série double est l étude d une seule série observée abstraction faite de l autre série La série marginale est donc une série univariée Ainsi on peut définir deux séries marginales La série marginale une en x La série marginale une en y n 1. = 11 indique que l effectif des étudiants n ayant jamais eu de 2 ième session en premier cycle est 11 n.4 = 5 indique que l effectif des étudiants ayant trois 2 ième session en second cycle est 5 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 31 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 32 / 41
Tableau de contingence Distributions marginales Tableau de contingence Distributions marginales Distribution marginale en x Distribution marginale en y La série marginale en x est la série {x i ; i = 1,...,n} ou encore {(x i, n i. ); i = 1,...,p} q où n i. = n ij sont les effectifs marginaux j=1 Les fréquences marginales en x sont f i. = n i. n La moyenne marginale de x est x = 1 n x i = 1 p n i. x i n n La variance marginale de x est Sx 2 = 1 n (x i x) 2 = 1 n n p n i. (x i x) 2 i = 1,...,p S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 33 / 41 La série marginale en y est la série { y j ; j = 1, 2,...,n } ou encore { (yj, n.j ); j = 1, 2,...,q } où n.j = q j=1 n ij sont les effectifs marginaux Les fréquences marginales en y sont f.j = n.j n La moyenne marginale de y est ȳ = 1 n y i = 1 q n.j y j n n La variance marginale de y est S 2 y = 1 n n (y i ȳ) 2 = 1 n j=1 q n.j (y j ȳ) 2 j=1 j = 1, 2,...,q S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 34 / 41
Tableau de contingence Distributions marginales Tableau de contingence Distributions marginales Exemple: la distribution marginale en x La moyenne de x est la variance de x est x i 0 1 2 3 n i. 11 4 4 1 20 f i. 0.55 0.2 0.2 0.05 1 x = (11 0+4 1+4 2+1 3)/20 = 0.75 S 2 x = (11 0 2 + 4 1 2 + 4 2 2 + 1 3 2 )/20 (0.75) 2 = 0.8875 Exemple: la distribution marginale en y y j 0 1 2 3 4 5 n.j 3 4 4 5 3 1 20 f.j 0.15 0.2 0.2 0.25 0.15 0.05 1 La moyenne de y est ȳ = (3 0+4 1+4 2+5 3+3 4+1 5)/20 = 2.2 La variance de y est S 2 y = (3 0 2 +4 1 2 +4 2 2 +5 3 2 +3 4 2 +1 5 2 )/20 (2.2) 2 = 2.06 N. B. Notons que p n i. = p j=1 q n ij = q n.j = n j=1 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 35 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 36 / 41
Tableau de contingence Distributions marginales Tableau de contingence Distributions conditionnelles Réécriture de la covariance et le coefficient de Corrélation Distributions conditionnelles Remarques La covariance et le coefficient de corrélation de x et y sont : ( S xy = cov(x, y) = 1 p q 1 p (n ij x i y j ) n i. x i ) 1 n n n r = p ( p j=1 j=1 n i. x 2 i ( q p n ij x i y j ) ( n i. x i p n i. x i ) 2 q /n j=1 q n.j y j )/n j=1 n j. y 2 j ( q n.j y j j=1 q n.j y j ) 2 /n j=1 Parmi les étudiants n ayant jamais eu de 2 ème session dans le premier cycle (x = 0), quel est le pourcentage des étudiants réussissant avec une seule 2 ème session au second cycle (y = 1)? La réponse à cette question revient à calculer la fréquence des unités ayant y = 1 parmi ceux ayant x fixé à la valeur x = 0 L étude conditionnelle d une série observée est l étude de cette série en fixant la valeur de l autre série. On fixe x = x i, et on étudie la distribution des valeurs de y associées à x = x i S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 37 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 38 / 41
Tableau de contingence Distributions conditionnelles Tableau de contingence Distributions conditionnelles Distributions conditionnelles de y en x Distribution conditionnelle de x en y Fixons x = x i, la série conditionnelle de y en x = x i est la série univariée définie par y xi = { (y j, n ij ), j = 1,...,q } Les fréquences de cette série sont dites fréquences conditionnelles (profil-lignes) et elles sont définies par Fixons y = y j, la série conditionnelle de x en y = y j est la série univariée définie par x yj = { (x i, n ij ), i = 1,...,p } Les fréquences de cette série sont dites fréquences conditionnelles (profil-colonnes) et elles sont définies par f yj x i = f j i = n ij n i. ; j = 1,...,q f xi y j = f i j = n ij n.j ; i = 1,...,p On peut calculer aussi la moyenne, la variance,... conditionnelles: On peut calculer aussi la moyenne, la variance,... conditionnelles: ȳ xi = 1 q n ij y j ; Sy 2 n xi = 1 q n ij (y j ȳ xi ) 2 i. n i. j=1 j=1 x yj = 1 n.j p n ij x i ; Sx 2 yj = 1 p n ij (x i x yj ) 2 n.j S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 39 / 41 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 40 / 41
Tableau de contingence Distributions conditionnelles Combien il y a de distributions conditionnelles? Comme x prend p valeurs différentes, alors il existe p séries conditionnelles de y en x Comme y prend q valeurs différentes, alors il existe q séries conditionnelles de x en y Exemple: Nombre moyen de secondes sessions au second cycle sachant le nombre de secondes sessions dans le premier cycle : x j ȳ xi 0 1.5455 1 3.5 2 2 S., El Melhaoui (FSJESO) Série statistique univariée 12/2015 41 / 41