Documet dispoible à http://www.uiv-motp3.fr/miap/es/aes/l1/optiomath. AES optio mathématique Aée 2004 2005 Notes de cours : ajustemet liéaire 1 Cadre : mesure cojoite de deux caractères O se place das le cas où, sur ue seule populatio, o étudie deux caractères quatitatifs das le but d exhiber u lie etre ces deux caractères. Soit X le premier caractère et Y le secod. O ote {m 1, m 2,..., m k } les modalités de X et {m 1, m 2,..., m l } les modalités de Y. Pour u couple de modalités (m i, m j ), o ote i j l effectif des idividus associés à la modalité m i pour X et m pour Y. La somme de toutes j les valeurs i j lorsque (i, j ) parcourt {1,..., k} {1,...,l} est doc l effectif total qu o ote : i j =. (1) La fréquece associée au couple de modalités (m i, m j ) est la proportio, parmi toute la populatio, des idividus associés à la modalité m i pour X et m j pour Y. O ote f i j cette fréquece et o a f i j = i j. O déduit, e divisat par l équatio (1) que la somme de toutes les valeurs i j lorsque (i, j ) parcourt {1,..., k} {1,...,l} vaut 1 : f i j = 1. 2 Tableau de cotigece Les résultats sot gééralemet représetés das u tableau de cotigece e effectifs (ou e fréqueces) : à chaque modalité de X, o associe ue lige, à chaque modalité de Y, o associe ue coloe puis à l itersectio de la lige associée à m i et de la coloe associée à m j, o place l effectif i j (ou la fréquece f i j ) voir les tableaux 1 et 2 page suivate. 1
m 1... m j... m l m 1 11 1j 1l. m i i1 i j il. m k k1 k j kl TAB. 1 Tableau de cotigece e effectifs m 1... m j... m l m 1 f 11 f 1j f 1l. m i f i1 f i j f il. m k f k1 f k j f kl 3 Moyees et variaces TAB. 2 Tableau de cotigece e fréqueces À partir des observatios cojoites de X, o peut calculer la moyee Moy(X ) de X et la moyee Moy(Y ) de Y. État doé ue modalité m i de X, u idividu associé à cette modalité est associé à ue (et ue seule) des modalités de Y. Aisi, l effectif, i, des idividus associés à la modalité m i de X est la somme des effectifs associés aux couples de modalités (m i, m j ) lorsque j parcourt {1,...,l} : l i = i j = i1 + + il. O rappelle que la moyee de X est la somme des modalités de X multipliée par les effectifs correspodat divisée par l effectif total, aisi : Moy(X ) = 1 k i m i = 1 m 1 + + k m k. (2) État doé ue modalité m de Y, u idividu associé à cette modalité est associé à ue j (et ue seule) des modalités de X. Aisi, l effectif, j, des idividus associés à la modalité m de Y est la somme des effectifs associés aux couples de modalités (m j i, m j ) lorsque i parcourt {1,..., k} : k j = i j = 1j + + k j puis Moy(Y ) = 1 l j m j = 1m 1 + + lm l. (3) 2
De la même faço puisque la variace est ue moyee (à savoir celle des carrés des écarts à la moyee), o a Var(X ) = 1 k ( i mi Moy(X ) ) ( 2 1 m1 Moy(X ) ) 2 ( + + k mk Moy(X ) ) 2 = (4) et Var(Y ) = 1 ( l ( ) 2 j m j Moy(Y ) 1 m 1 Moy(Y ) ) 2 ( + + l m = l Moy(Y )) 2. (5) 4 Nuage de poits O traîte le cas de caractères discret. Lorsque le caractère est cotiu, o se ramèe au cas discret e remplaçat les itervalles que sot les modalités par leurs cetres. Pour tracer le uage de poits des caractères X et Y das u repère orthoormé 1, o représete chaque couple de modalités (m i, m j ) d effectif i j o ul par u poit M i j de coordoées (m i, m ). Il faut imagier que chaque poit est mui d u poids égal à l effectif associé au couple de modalités qu il représete. Le ombre total de poits est doc le j ombre de couples de modalités kl et la somme des poids des poits est l effectif. O peut alors doer ue iterprétatio géométrique de la moyee : le cetre de gravité du uage de poits est le poit de coordoées ( Moy(X ),Moy(Y ) ). Cela sigifie que si l o imagie les poits du uage placés (avec leurs poids correspodats) sur ue plaque horizotal, il suffit de placer ue tige vertical sous le plateau e appui sur le poit de coordoées ( Moy(X ),Moy(Y ) ) pour maiteir le plateau e équilibre horizotal. O doe ue preuve de ce fait au paragraphe 7.1 page 6. Chercher à expliquer Y par X c est chercher ue foctio dot le graphe approche bie le uage de poits. C est u problème compliqué 2 que l o e va étudier que das u cas simple. 5 Régressio liéaire : méthode des moidres carrés Quad o fait de la régressio liéaire, o cherche à approcher u uage de poits par le graphe d ue foctio parmi les plus simples : ue droite. Les erreurs sot mesurées à l aide des carrés des écarts verticaux etre les poits du uage et la droite (voir la figure 1 page suivate). L erreur totale commise est la somme des carrés des écarts verticaux etre les poits du uage et la droite. E procédat de la sorte, o met e valeur les grads écarts verticaux et o dévalorise les petits écarts 3. 1 O demade doc qu il y ait u axe vertical et u axe horizotal et que l echelle soit la même sur les deux axes. 2 La défiitio de «approche bie» est déjà e soi u problème compliqué. 3 O comparera avec la otio de variace. Voir le cours «Paramètres statistiques» dispoible sur http://www.uiv-motp3.fr/miap/es/aes/xa100m/idex.html 3
Y m j M ij Écart vertical D 0 m i FIG. 1 Écart vertical etre M i j et D X Pour décrire le résultat, o a besoi d itroduire la covariace de X et Y : c est le ombre défii par Cov(X,Y ) = 1 i j m i m j Moy(X )Moy(Y ). O peut reteir que c est la moyee des produits mois le produit des moyees. O motre alors (voir le paragraphe 7.2 page 7) que la droite pour laquelle l erreur est la plus petite est la droite passat par le poit de coordoées ( Moy(X ),Moy(Y ) ) et de coefficiet directeur la covariace Cov(X,Y ) de X et Y divisée par la variace Var(X ) de X. C est doc la droite d équatio y = ax + b avec et Cov(X,Y ) a = Var(X ) Cov(X,Y ) b = Moy(Y ) Moy(X ). Var(X ) O peut aussi détermier das quelle mesure la droite trouvée approche bie le uage de poits. Pour cela, o itroduit le coefficiet de corrélatio r(x,y ) = Cov(X,Y ) Var(X )Var(Y ) et o motre (voir le paragraphe 7.3 page 8) que plus le coefficiet r(x,y ) est proche de 1 ou 1, meilleure est l approximatio. O verra aussi au paragraphe 7.3 que, lorsque Var(X ) < Var(Y ), o commet ue erreur mois grade e expliquat X par Y qu e expliquat Y par X. Pour estimer X par Y, o utilise les mêmes formules pour a et b e échageat les rôles de X et Y. 6 U exemple simple O étudie deux caractéres X et Y dot le tableau de cotigece est le tableau 3 page suivate. 4
1 2 3 4 5 1 0 0 0 0 1 2 0 0 1 1 0 3 0 0 1 1 0 4 0 1 0 0 0 5 0 0 0 0 0 TAB. 3 O calcule Moy(X ) = 3,14 Moy(Y ) = 2,86 Var(X ) = 1,55 Var(Y ) = 1,55 et Cov(X,Y ) = 1,41. Le coefficiet directeur de la droite d ajustemet est a = 0,91 et le coefficiet de corrélatio est r = 0,91. Le uage et la droite d ajustemet sot doés à la figure 2. Y G 0 X FIG. 2 Nuage et droite d ajustemet associés au tableau 3 5
7 Aexes 7.1 Calcul du cetre de gravité du uage de poits Soit G le cetre de gravité du uage de poits. Ce uage est composé des poits M i j de coordoées (m i, m j ) et de poids i j. Par défiitio du cetre de gravité G, o a alors # i j GM i j = # 0. (6) O ote (x G, y G ) les coordoées de G. La cosidératio des abscisses das (6) coduit à i j (m i x G ) = 0 doc puis Mais x G = 1 i j m i = = x G grâce à (1) i j m i = = i j x G i j m i. (7) ( ) k l i j m i k i m i. L équatio (7) deviet doc x G = 1 k i m i = Moy(X ) grâce à (2). La cosidératio des ordoées das (6) coduit à i j (m j y G) = 0 doc puis i j m j = i j y G y G = 1 = y G grâce à (1) i j m j. (8) 6
Mais ( ) l k i j m j = i j m j l = j m j. L équatio (8) deviet doc grâce à (3). y G = 1 l j m j = Moy(Y ) 7.2 Détermiatio de la droite d ajustemet liéaire L écart vertical etre le poit M i j de coordoées (m i, m ) et la droite d équatio y = j ax + b état m j (am i + b), o cherche a et b pour que la gradeur T (a, b) = 1 i j [m j (am i + b)] 2 soit miimum. E développat le carré, o obtiet T (a, b) = i j (m 2 j + a 2 m 2 i + 2abm i + b 2 2am i m j 2bm j ) et doc T (a, b) = l j m 2 j + a 2 k k i m 2 i + 2ab i m i + b 2 O e déduit 2a T (a, b) = Moy(Y 2 ) + a 2 [Var(X ) + Moy(X ) 2 ] + 2ab Moy(X ) + b 2 l i j m i m j 2b j m j. 2a[Cov(X,Y ) + Moy(X )Moy(Y )] 2b Moy(Y ). (9) Pour les valeurs de a et b réalisat le miimum de T (a, b), o a et Grâce à l équatio 9, o calcule b a = 0 (10) b = 0. (11) = 2a Moy(X ) + 2b 2Moy(Y ) 7
et doc, l équatio 11 page précédete deviet a Moy(X ) + b = Moy(Y ). (12) Le poit de coordoées ( Moy(X ),Moy(Y ) ) appartiet à la droite recherchée. Grâce à l équatio 9 page précédete, o calcule a = 2a[Var(X ) + Moy(X )2 ] + 2b Moy(X ) 2[Cov(X,Y ) + Moy(X )Moy(Y )]. E utilisat l équatio 12, o et doc b = Moy(Y ) a Moy(X ) (13) a = 2a[Var(X )+Moy(X )2 ]+2[Moy(Y ) a Moy(X )]Moy(X ) 2[Cov(X,Y )+Moy(X )Moy(Y )]. L équatio 10 page précédete deviet alors 7.3 Calcul d erreur e ajustemet liéaire Cov(X,Y ) a =. (14) Var(X ) L erreur commise e remplaçat le uage de poits par la droite trouvée au paragraphe précédet est T (a, b) calculée e 9 page précédete. E remplaçat a et b par leurs valeurs trouvée e 14 et 13 o obtiet ] Cov(X,Y )2 T (a, b) = Var(Y ) [1. Var(X )Var(Y ) 8