Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Module : L analyse en composantes pncpales - Eecces pépaatfs L analyse en composantes pncpales est notée ACP. Elle s applque à tous les tableau de données où les vaables sont de type quanttatf. C est la méthode de éféence pou deu asons : - c est la plus facle à epose su le plan mathématque, - c est une méthode qu peut sev de suppot à d autes technques statstques comme pa eemple la égesson othogonale, la constucton d ndcateus synthétques, la pévson d une chonque ou encoe compléte une nfomaton manquante dans un tableau. Avant de pésente fomellement la méthode de l ACP (Module suvant), on va essaye dans ce module, d ntute la démache à taves deu eemples. e eemple On consdèe le tableau suvant : Indvdus\vaables Y X 8 4 44 4 65 5 5 5 Somme 6 5 La epésentaton gaphque des ndvdus dans l espace R² des deu vaables, en utlsant une base othonomée (, j), j, * j ), condut au nuage des ndvdus (nuage de égesson) Y suvant : 9 8 nuage de égesson 7 6 5 4 4 G (X,Y) 5 j 4 5 6 7 8 9 X /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Avec la égesson, l est pafos possble de vsualse l nfomaton contenue dans le nuage de égesson (les pomtés elatves des 5 ponts) Le tableau des calculs pemettant de touve les éléments d une égesson su données centées (,y) et non centée (X,Y) est le suvant :. Ind Y X X XY Y y Y Y X X y y Ŷ 4-7, -, 79,84 69, 5,6 8,99 8 4 6 8 674 4,8 7,,4 89, 59,6 84,9 44 4 88 96 -, -,,4 9, 9,6 4,69 4 65 9 95 45 7,8 7, 6,84 49, 4,6 6,9 5 5 5 5 75 65 -, -8, 49,84 64, 77,6 9,84 Somme 6 5 5 6685 9,, 77,8 58, 57, 6, Il pemet de calcule les caactéstques qu condusent au paamètes de la égesson. 6 Y Y 47. n 5 5 X n 5 X n 9 5 [ ] Y Y ( 47.) 554. 6 V Y σ V σ [ Y ] V[ Y] 554.6. 54 n 5 5 [ X] X X ( ) 6 [ X ] V[ X] 6. 77 [ X,Y] [ X] σ[ cov YX XY nxy (6685 5 * 47. * ).996 XY. σ n σ 5.77 *.54 996 Xσ Y.98, le coeffcent de détemnaton, nous ndque que 98% du nuage de égesson est eplqué pa la dote de égesson Y ax+ b. Il est donc possble d utlse cette dote pou ésume le nuage de égesson. La méthode de calcul des paamètes a et b de la dote de égesson consste à mnmse la somme des caés des ésdus ente les valeus obsevées Y et le valeus calculées La mnmsaton de la somme des écats au caé pote le nom de méthode des MCO. Cela s éct : ( ) Mn Y Ŷ On démonte que : ( X, Y) σ[ Y] σ[ X] cov.54 â.996 *.7 V(X).77 bˆ Y âx 47..7 *.7 (la dote passe pa le pont G (X,Y ) qu est le cente de gavté du nuage des ponts des ndvdus). Ŷ.7X.7 Ŷ /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Le nuage de égesson pemet de connaîte l nfomaton concenant les ndvdus du tableau. Pa eemple, on vsualse le pont poche du pont 5 et le pont lon du pont. Il est possble auss de quantfe cette nfomaton en calculant toutes les dstances au caé (théoème de Pythagoe) ente les paes de ponts et de les classe pa ode cossant. Le gaphe de égesson monte que le nuage de pont est nséé dans une ellpse au bods aplats, ce qu sgnfe que ce nuage peut ête ésumé au moyen d une dote de égesson. Cette obsevaton est confmée pa le calcul du coeffcent de coélaton. 99, ce qu sgnfe qu l este une elaton étote et postve ente X et Y. Il est donc possble de substtue au nuage de égesson, la dote Ŷ.7X. 7 ou encoe la dote su vaables centées ŷ.7 qu a pou ogne le pont G (X,Y ). (Cf le tableau pécédent pou le détal des calculs) On peut donc calcule les pojectons au sens des monde caés (paallèlement à l ae des odonnées) des 5 ponts su la dote de égesson. Ces pojectons sont données pou les vaables non centées pa les calculs Ŷ, L, Ŷ5. On constate alos que s on calcule la dstance, pa eemple, ente Ŷ et Ŷ 5 au caé, on touve envon celle du nuage de égesson ente le pont et le pont 5. Pa conséquent, l nfomaton concenant les 5 ponts su l ae Ŷ est consevée pa appot à celle du nuage de égesson. On peut donc de que l analyse de données a eu leu pusque l nfomaton est patquement dentque su l ae que dans le plan. On peut auss ésume l nfomaton contenue dans le nuage de ponts en utlsant non pas les pojectons su la dote de égesson des ponts au sens des MCO, mas leus pojectons othogonales su cette même dote, en consevant pou ogne de l ae, le pont G et en constusant un vecteu untae dont on connaît les coodonnées dans l espace R² ; les pojectons othogonales des 5 ponts su cette dote dont données pa le podut scalae ente le vecteu untae et un vecteu qu a pou ogne le pont G et pou etémté le pont à pojete. On pouat constate que, dans ce cas auss, la dstance au caé pa eemple ente le pont et le pont 5 pojetés est appomatvement dentque à celle du plan ente les mêmes ponts. L analyse de données est donc encoe éalsable en pocédant de la sote. Remaque mpotante : losque l on tavalle su les vaables centées, on a les coodonnées suvantes des vecteus et y : X X 7 7 8 7. 4.8 Y Y y. 7.8. Le podut scalae ente les vecteus et y s éct : * y ( ) * ( 7.) + L + ( 8) * (.) 57 * y y De ce fat : cov(, y) n n () D où : V() cov(, ) n et σ ( ) n y /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M cov(, y) De plus : σ() σ(y) * y n y * n n * y y Pa alleus on sat que : * y * y * cos α avec α l angle fomé pa les deu vecteus. D où : cos α. Ans, losque les vaables sont centées, le coeffcent de coélaton ente les vaables est égal au cosnus de l angle fomé pa les vecteus epésentant ces vaables. Y Y Quand on cente et on édut des vaables (pa eemple y ), on fome des vecteus qu ont σ Y tous la même dmenson. ( V (y) ). De ce fat, la vaance est la dstance commune à tous les vecteus (ls se stuent su un cecle de ayon ) et ls se postonnent les uns pa appot au autes pa le coeffcent de coélaton lnéae que l on dédut à pat de l angle fomé pa les deu vecteus. Eemple Sot le tableau de données suvant : Ind\va 4 5 X (,) 6 7 8 Repésentaton gaphque du nuage des ponts ndvdus dans l espace R² des vaables ( en abscsse, en odonnée). Le système d aes est othonomé : base (, j) telle que j, * j. 8 7 6 5 Les ponts du nuage consttuent l nfomaton des lgnes du tableau. Les postons elatves de ces ponts peuvent ête calculées en utlsant la dstance eucldenne. 4 j 4 5 6 7 8 9 4 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Repésentaton gaphque du nuage des ponts vaables dans l espace système d aes est othonomé : base (, j,) telle que : j, * j * j *. R des ndvdus. Le j Les ponts du nuage consttuent l nfomaton donnée pa les colonnes du tableau. Ic auss, on peut calcule la dstance eucldenne ente les deu pont. Calcul des caactéstques des colonnes du tableau Calcul de la moyenne et de l écat type de et : 8 6 4 6 V( ) 6.67 σ ( ). 6 74 V( ) 4 8.67 σ ( ). 944 Calcul de la moyenne et de l écat type de,, : 9 8 4.5 6. 5 4 4 V() (4.5) 85 V() (6.5) 64 V() (4).5.5 6 σ().5 σ().5 σ() 4 5 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Constucton du tableau des vaables centées et édutes : z σ( ) z σ( ) 4 5 - -.5.4 Z (,) 6 7. 8-4.5 -.6 Σ 8 on véfe que : z z, V(z ) V(z ) et Cov ( z,z ) z, z Repésentaton gaphque du nuage des ponts ndvdus dans l espace R des vaables centées édutes ( z en abscsse et z en odonnée). Le système d aes est othonomé : base (, j) telle que j, * j. Dans cet espace, l ogne des aes (pont ) est confondu avec le cente de gavté du tangle (Pont G(z,z ) Z j - - G Z - - Dans l espace R des ndvdus, se stuent les deu vaables centées édutes. Avec un système d aes othonomé on peut calcule : En utlsant les vaables centées édutes dans l espace à tos dmensons des ndvdus avec un système othonomé on peut calcule : d D où d d d (,z ) + + (,z ) la vaance de z 6 6 (,z ) + + (,z ) la vaance de z 4 6 6 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Dans cet espace, la dstance au caé ente l ogne et une vaable est, à N pès, la vaance de la vaable. Quand les vaables sont centées et édutes, toutes les vaables sont équdstantes de l ogne. Cette dstance est, au nombe d obsevatons pès, la vaance des vaables. Récaptulatf : pésentaton des calculs : 4 5 X (,) 6 7 8 6 4 Z j j σj j σ j 6 Tableau des vaables centées édutes : z z z z Z (,) 6 6 -,5,4, avec z j j j. σ 4,5 -,6 6 Z σ z j La moyenne des vaables centées et édutes est égale à. L écat type des vaables centées et édutes est égal à. De plus : cov σ() σ(y) comme σ ( ) et σ(y), le coeffcent de coélaton lnéae ente vaables est égal à la covaance. Remaque : on peut auss tate l nfomaton contenue dans le tableau de dépat en utlsant le tableau des ndvdus centés éduts. X (,) σ ) ( 4 5 4.5.5 6 7 6.5.5 8 4 4 7 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Q (,) - - - avec qj j σ ( ) Il est possble de epésente l nfomaton contenue dans ce nouveau tableau comme pécédemment et d en te des conclusons. Calcul du podut matcel Z Z N 6 6 4 6 6 6 4 6 5 5 5 5 Le ésultat de ce calcul est une matce caée, de dmenson (,), notée R, contenant les coeffcents de coélaton lnéaes des vaables. Cette matce caée R a pou dmenson le nombe de vaables. Elles possède les popétés suvantes : - Elle est symétque. - elle a des su la dagonale pncpale (les vaances des vaables) - Elle a des valeus nféeues ou égales à en valeu absolue. Dans cette matce R, on a su la dagonale les vaances des vaables, o dans l eecce pécédent on a vu que cette vaance état, au nombe d obsevatons pès, la dstance de la vaable à l ogne. Elle content de pat et d aute de la dagonale le coeffcent de coélaton lnéae ente les deu vaables. O dans l eecce pécédent, on a vu que ce coeffcent de coélaton état le cosnus de l angle fomé pa les deu vaables. L angle fomé pa les deu vaables peut donc en ête dédut. Avec la matce R, l est donc possble de epésente dans l espace les postons elatves des vaables ente elles. Cette matce R nous donne donc l nfomaton echechée concenant les vaables. C est la ason pou laquelle elle pote le nom de matce d nfomaton des vaables. Calcul du podut matcel ZZ : 9 5 6 6 6 9 7 6 ZZ ' 6 4 6 6 6 4 6 5 6 87 6 6 6 6 6 6 Cette matce V n est pas une matce de coélaton, mas elle y essemble. On lu donne le nom de matce d nfomaton des ndvdus. Elle est symétque ; sa dagonale est la somme des caés des ndvdus lgnes du tableau et de pat et d aute on touve la somme des poduts lgnes deu à deu des ndvdus Caactéstques de la matce R Les caactéstques d une matce sont données pa les vecteus popes assocés au valeus popes de la matce. V (,) 8 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M On appelle vecteu pope assocé à la valeu pope λ de la matce R la soluton du système d équaton homogène RX λx [R-λI]X. On sat que s dans ce système d équaton le détemnant de la matce R λι, alos ce système possède une et une seule soluton qu est X et que l on appelle la soluton tvale. C est la ason pou laquelle pou que ce système at des solutons autes que celle-c, l faut que le détemnant R λι. O ce détemnant condut à une équaton (équaton caactéstque) qu a pou vaable λ et pou degé la dmenson de la matce R. Les acnes de cette équaton donnent les dfféentes valeus de λ et potent le nom de valeus popes. Pou chacune des valeus popes, on poua calcule à pat du système de dépat, une nfnté de vecteus X qu on appelle les vecteus popes. Pam cette nfnté de vecteus popes, on echeche pa la sute le vecteu pope de nome (c est-à-de le vecteu untae). Dans ce cas on a : R X (,)(,) λ avec λ R X (,) [ R λι] X R λ λ R λ ( λ) + ( λ) Calcul du détemnant : λ R λι λ ( λ )( λ + ) (. λ) (.69 λ) λ.69 deu valeus popes de R. λ. ( λ) ( ) S on addtonne.69 +., on obtent la dmenson de la matce (le nombe de vaables du tableau). Calcul des vecteus popes assocés pou λ. 69 [ T λι] X.69.69 9 /
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M / + R V On a une nfnté de vecteus popes potés pa la seconde bssectce du plan ( ),. Pou touve un vecteu pope nomé l faut que : ± + En etenant pou la valeu postve, on défnt : b vecteu pope nomé de R. Pou. λ + R V Pou touve un vecteu pope nomé l faut que : ± + b vecteu pope nomé de R. Ces vecteus popes només consttuent une nouvelle base othonomée dans laquelle la nome de chaque vecteu et leu podut scalae est nul : b b et * b * b On peut alos place les coodonnées (dans l ancenne base) de ces vecteus dans une matce (,) B, dans l odes décossant de leus valeus popes.
Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M B (,) coodonnés des vecteus b et b dans l ancen système d aes. Cette matce est une matce othogonale et véfe donc : Caactéstque de la matce V B B, sot B B I S on calcule comme pécédemment les valeus popes de la matce V : V λι c'est-à-de :.6 λ.55.96.5.4 λ.8.96.8.5 λ λ 5.7 on touve : λ.9 λ S on pote dans un tableau les valeus popes de V et de R on a : V R λ 5.7 λ.69 λ.9 λ. λ j λ j n On vot que s on multple les valeus popes de la matce R pa, on obtent les deu pemèes valeus popes de la matce V et que la denèe valeu pope de V est nulle. On peut démonte que les valeus popes de la matce V sont égales au valeus popes de R multplées pa N et qu l y a dans la matce V, N-n valeus popes nulles. On peut auss démonte qu l est possble de calcule les vecteus popes de V connassant ceu de R. Et donc, qu en défntve, les caactéstques de R pemettent de calcule celles de V et écpoquement. /