Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006
. Les données NOMS PUISS CYLI Co uple Ma xi LONG LARG H AUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distinctive 5 90 28 4,7,73,44 280 60 270 9 5,8 ALF 66 2,5 V6 24V Progression 88 2492 22,5 4,72,8,42 490 72 490 225,9 ASTMAR DB7 Volante 420 5935 55 4,66,83,26 50 89 875 265 4 AUD A4 3,0 Quattro Pack 220 2976 30,6 4,55,77,43 445 66 55 243 0,5 AUD A8 S8 Pack Avus 360 472 43,9 5,03,88,44 525 90 750 250 4 AUD TT Roadster,8 T225 Quattro 225 78 28,5 4,04,76,34 270 55 395 243 9,2 AUDIA4 Cabriolet 2,4 70 2393 23,4 4,57,78,39 35 70 600 224 9,7 BEN Continental T 426 6750 88,2 5,22,95,45 350 00 2450 245 8,7 BMW 36i 5 796 7,8 4,47,74,4 440 63 30 206 7, BMW X5 3,0d Pack Luxe 83 2926 4,8 4,67,87,7 465 93 2085 200 9,7 BMW Z8 400 494 5 4,4,83,32 203 73 585 250 4,5 CAD Seville STS 305 4565 40,8 4,99,9,43 445 70 857 24 4, CHR Grand Voyager 2,5 CRD Lim ited 40 2500 3,8 5,09 2,75 580 75 2000 85 7,7 CHR PT Cruiser 2,0 Classic 40 995 9 4,29,7,6 520 57 42 70 7,8 CIT Berlingo,6i 6V SX 0 587 5,3 4,,72,8 664 55 252 72 7,4 CIT C3,4 HDI 70 c h SXPac k Clim 70 398 5,3 3,85,67,52 305 45 022 65 4,2 CIT Picasso,6i SX 90 587 4 4,28,75,64 55 55 240 68 7,8 CIT Saxo,i Bic 2 60 24 9, 3,72,59,37 280 45 805 62 6,7 CIT Xsara 2,0 Hdi 0 ch Exclusive 0 997 26 4,9,7,4 408 54 20 9 5,2 DAE Leganza 2,0 CDX 33 998 8,8 4,67,78,44 560 65 433 206 9,2 DAI Sirion,3x 02 298 2,2 3,67,59,45 235 40 850 80 5,7 FIA Multipla JTD 5 ELX 5 90 20,7 3,99,87,67 430 63 370 76 6,4 FIA Seicento S 55 08 8,9 3,32,5,44 70 35 750 50 5,8 FIA Stilo,9 JTD 80 ch Active 80 90 20 4,25,76,52 335 58 305 70 5,5 FOR Fiesta,4 TDCi Ghia 68 398 6,3 3,92,68,42 284 45 065 64 4,3 FOR Focus ST 70 72 989 20 4,7,7,43 350 55 283 26 9, FOR Ka,3 Original 60 299 0,7 3,62,63,37 85 42 890 55 6,3 FOR Mondeo 2,0 DTCi 30 ch Ghia 30 998 33,7 4,73,8,43 500 56 50 200 5,9 FOR Pum a,6 03 596 4,8 3,98,67,34 240 42 035 90 7,3 HON Accord 2,3iES 52 2254 2 4,59,75,43 427 65 423 22 8,7 2 + encore 63 modèles de voitures NOMS ALF 47,9 JTD Distinctive ALF 66 2,5 V6 24V Progression ASTMARDB7 Volante AUD A4 3,0 Quattro Pack
2. Résumé des données Sortie SPAD 3 STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : 9 POIDS TOTAL : 9.00 +-------------------------------------------------------+----------------------+----------------------+ NUM. IDEN - LIBELLE EFFECTIF POIDS MOYENNE ECART-TYPE MINIMUM MAXIMUM +-------------------------------------------------------+----------------------+----------------------+. C2 - PUISS 9 9.00 47.8 90.78 45.00 476.00 2. C3 - CYLI 9 9.00 2253.7 03.69 599.00 6750.00 3. C4 - CoupleMaxi 9 9.00 28.49 3.8 7.0 299.00 4. C5 - LONG 9 9.00 4.33 0.47 2.50 5.39 5. C6 - LARG 9 9.00.75 0.09.5 2.00 6. C7 - HAUT 9 9.00.48 0.3.4.86 7. C8 - COFFRE 9 9.00 379.26 44.6 0.00 900.00 8. C9 - RESE 9 9.00 60.8 5.33 22.00 00.00 9. C0 - POIDS 9 9.00 382.49 380.0 680.00 2450.00 0. C - VITE 9 9.00 95.69 30.66 35.00 305.00. C2 - CONS 9 9.00 7.95 2.94 4.20 8.70 ------------------------------------------------------- ---------------------- ----------------------- 2. C3 - PRIX 9 9.00 367.64 48234.54 7290.00 342798.00 +-------------------------------------------------------+----------------------+----------------------+
3. Tableau des corrélations Co rrelatio ns 4 PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS PRIX Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N. Correlation is significant at the 0.0 level (2-tailed). PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS PRIX,925,49,575,650 -,08,086,702,74,852,869,795,,000,000,000,000,309,46,000,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,925,467,675,732,024,80,796,824,724,867,873,000,,000,000,000,824,088,000,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,49,467,4,404 -,08,04,406,434,448,393,375,000,000,,000,000,867,328,000,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,575,675,4,857,95,635,863,846,62,526,507,000,000,000,,000,065,000,000,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,650,732,404,857,333,520,898,895,592,633,575,000,000,000,000,,00,000,000,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9 -,08,024 -,08,95,333,552,342,427 -,294,058 -,055,309,824,867,065,00,,000,00,000,005,582,608 9 9 9 9 9 9 9 9 9 9 9 9,086,80,04,635,520,552,544,549,37,04,026,46,088,328,000,000,000,,000,000,97,326,808 9 9 9 9 9 9 9 9 9 9 9 9,702,796,406,863,898,342,544,934,606,697,638,000,000,000,000,000,00,000,,000,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,74,824,434,846,895,427,549,934,583,706,655,000,000,000,000,000,000,000,000,,000,000,000 9 9 9 9 9 9 9 9 9 9 9 9,852,724,448,62,592 -,294,37,606,583,639,554,000,000,000,000,000,005,97,000,000,,000,000 9 9 9 9 9 9 9 9 9 9 9 9,869,867,393,526,633,058,04,697,706,639,798,000,000,000,000,000,582,326,000,000,000,,000 9 9 9 9 9 9 9 9 9 9 9 9,795,873,375,507,575 -,055,026,638,655,554,798,000,000,000,000,000,608,808,000,000,000,000, 9 9 9 9 9 9 9 9 9 9 9 9
4. Visualisation des données X X p Y Y 2 Y 2 (i) i 0 Y (i) i x i x pi y i y 2i n Le premier plan principal Cor(X j,y 2 ) X j 0 Cor(X j,y ) 5 Le tableau des données Les composantes principales (non corrélées entre elles) Le cercle des corrélations
5. Le nuage de points associé aux données i n X X p x i x pi x i X p PEUGEOT 06 0 g BMW X5 X 2 6 x K x p g N = {x,, x i,, x n } = Nuage de points associé aux données X Centre de gravité du nuage N : g = n x n i i=
6. Inertie totale du nuage de points i X X p x i x pi X p PEUGEOT 06 x i g 0 BMW X5 X 2 n x... x p g Inertie totale = I(N, g) = n n i= X d 2 x i,g 7 n n i= p j= x ji x j 2 p j= n n i= x ji x j 2 p j= s j 2
8 7. Réduction des données Pour neutraliser le problème des unités on remplace les données d origine par les données centrées-réduites : p p p p s x X = X s x X = X M de moyenne 0 et d écart-type.
Les données centrées-réduites 9 P U 2 3 4 5 6 7 8 9 0 2 I S CS Y LCI o u p l Le OM Na LxG Ai RH GA CU OT F FR REES PE O I D VSI T EC O N SP R 3 4 5 I XC A RO BR I GE QI NUEI P A L F 4-70, 3, 6-90, J3T - D 0, D0 i2- s 0 t i, n3 -c 40 t, i v - e6 0, 3-20, 6-80, 0-50, 2-9 0, -5 0, 7 3-0, 2 9 2 2 3 A L F 6 06, 42 4, 05, 2V 6-02, 4 V 90, P8 r 30 o g, 7r e0-0 s, s4 0 i o8, n7 60, 7 30, 2 8 0, 9 5, 3 3-0, 0 4 2 2 A S T M A 2 R, 9 D8 3 B, 73 2V 0 o, 8l a 3n0 t, e7 00, 9 -, 7-4, 5 8, 8 3, 2 9 2, 2 5 2, 0 4 2, 2 3 2 4 A U D A 04, 73 9, 0, 6Q 5u 0 a, t0 t 7r o 0, P4 a70 c, k2 7-0, 4 00, 4 50, 3 40, 3 5, 5 3 0, 8 6 0, 0 6 2 3 A U D A 28, 3S 28, P7 a3 c0 k, 4 A8 v u, 4s 8, 4 5-0, 3 2, 0, 8 90, 9 6, 7 6 2, 0 4, 2 9 2 3 A U D T 0 T, 8R 5- o 0 a, d4s30 t e, 0r 0 -, 08, 6T0 2, 2 6-5 Q, -u0 a, 7t t- 5r0 o, 3 80, 0 3, 5 3 0, 4 2 0, 0 6 2 4 A U D I A 04, 2C 4a 0 b, r i 3o -l 0 e t, 260, 4, 5 0, 3 7-0, 7-0, 4 40, 6 00, 5 7 0, 9 2 0, 5 9 0, 0 3 2 2 B E N C o3 n, 0t i 5n 4 e, 0n 5t a l, 8T 7, 8 82, 2 0-0, 2-40, 2 02, 5 4 2, 7 9, 6 0 3, 6 3 6, 3 2 2 3 B M W 3-0 6, 3i 6-0, 4-0, 3 30, 3 0-0, 0-60, 5 06, 4 20, 4-0, 90, 3 3-0, 2 9-0, 2 2 B M W X 05, 33 9, 0, d 6 P 0 a, c4 k 2 0 L, u7 x2 e, 3 4, 8 0, 5 9 2, 0 9, 8 4 0, 4 0, 5 9 0, 2 7 2 2 3 B M W Z 28, 7 6 2, 4 2 0, 7 0 0, 50, 9 -, 2-6, 2 20, 7 90, 5 3, 7 6 2, 2, 9 2 2 4 C A D S e v, 7i l2l e 2, S0 T8 0 S, 3 8, 4 0, 6 7-0, 4 00, 4 50, 6 0, 2 4, 4 7 2, 0 8 0, 6 4 3 3 C H R G -r 0 a, n0d 90, V2 o2 y0 a, g 0e r, 62 2, 5, C7 R42, D 2 L, i 3m 80 i t, e9 d2, 6 2-0, 3-5 0, 0 80, 3 2 3 3 C H R P T - 0 C, 0r u9-0 i s, 2e 3- r 02,, 30 0-0 C l, a0 -s 80 s, i c4 0 9, 9 40, 9 7-0, 2 50, 0 8-0, 8-3 0, 0 5-0, 3 6 3 2 C I T B e r- l0 i n, 4g - o 0, 6, 0-6 0 i, 4 6- V 0, S4 -X 60, 22 7, 5, 9 6-0, 3-80, 3-4 0, 7-7 0, 9-0, 4 5 2 C I T C 3-0,, 48 5- H0 D, 7 I 7-70 0, 4 c- h, S0 X- 0 P, a8 0 c, k 3 - C0 l i, m5 -, 0-30, 9-4, 0-0, 2 7-0, 4 4 2 2 C I T P i c -a0 s, s6 o 3-0, 6, 60- i 0 S, 4X 5-0, 0, 0 5, 2 60, 9 4-0, 3-80, 3-7 0, 9-0 0, 0 5-0, 4 0 C I T S a x- 0 o, 9 6-,, i 0 B2- i 0 c, 62 -, 2-9, 6-70, 8-70, 6-8, 0-3, 5 -, 0-9 0, 4 2-0, 5 4 C I T X s a- 0 r a, 4-2 0, 0, 2 H3-0 d, i 0 8-0 0, 2 c- 90 h, 4E - 90 x, c6 0 l 3u, 2s i0- v 0 e, 4-40, 4-5 0, -5 0, 9 3-0, 3 0 2 3
8. Le nuage de points associé aux données réduites X X p X p i x i x pi n 0 0 x i Moyenne 0 BMW X5 X PEUGEOT 06 2 X N = {x,, x i,, x n } Variance Centre de gravité : g = 0 0 Inertie totale : I(N, 0) = p
9. Premier axe principal x i X p X 0 y i X 2 Objectif : On cherche l axe passant le mieux possible au milieu du nuage N. On cherche à minimiser l inertie du nuage N par rapport à l axe : I(N, n 2 ) = d (x i, y i ) n i=
Premier axe principal (suite) x i X p X Objectif 2 : On cherche l axe d allongement du nuage N. 0 On cherche à maximiser l inertie du nuage N projeté sur l axe : y i X 2 2 I( { } n y,..., y,0 )= n i= 2 n d (yi,0 )
Les objectifs et 2 sont atteints simultanément X p x i 0 y i X 2 X De : on déduit : d 2 (x i,0 ) = d 2 (y i,0 ) + d 2 (x i, y i ) n n n 2 2 2 d (xi,0 ) = d (y i,0 ) + d (xi, yi ) n i= n i= n i= 3 Inertie totale = p = Inertie expliquée par + Inertie résiduelle Maximiser Minimiser
er axe principal : Résultats L axe passe par le centre de gravité 0 du nuage de points N. L axe est engendré par le vecteur normé u, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre λ. L inertie du nuage projeté est égal à λ. La part d inertie expliquée par le premier axe principal est égale à λ /p. 4
Résultats SPAD 5 VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION...0000 SOMME DES VALEURS PROPRES....0000 HISTOGRAMME DES PREMIERES VALEURS PROPRES +--------+------------+----------+----------+-------------------------------------------------- NUMERO VALEUR POURCENT. POURCENT. PROPRE CUMULE +--------+------------+----------+----------+-------------------------------------------------- 6.6969 60.88 60.88 2 2.0236 8.40 79.28 3 0.745 6.77 86.05 4 0.6926 6.30 92.35 5 0.2839 2.58 94.93 6 0.203.83 96.76 7 0.300.8 97.94 8 0.0893 0.8 98.75 9 0.0757 0.69 99.44 0 0.0385 0.35 99.79 0.0230 0.2 00.00 +--------+------------+----------+----------+--------------------------------------------------
Résultats SPAD Direction du vecteur propre associé à la plus grande valeur propre : -0.86-0.9-0.54-0.87-0.90-0.2-0.46-0.94-0.94-0.76-0.8 6
0. Première composante principale Y X p x i 0 u y i X 2 Y (i) X Y est une nouvelle variable définie pour chaque individu i par : Y (i) = coordonnée de y i sur l axe = produit scalaire entre les vecteurs x i et u 7 = p j= u x j ji Y = p j= u j X j
Interprétation de la première composante principale Y Grosse voiture Y = -0.86 PUISS -0.9 CYLI -0.54 Couplemaxi -0.87 LONG -0.90 LARG -0.2 HAUT -0.46 COFFRE -0.94 RESE -0.94 POIDS -0.76 VITE -0.8 CONS Petite voiture - 0 + 8
Résultats SPAD 9 COORDONNEES DES INDIVIDUS AXE +---------------------------------------+-------------- INDIVIDUS COORDONNEES ---------------------------------------+-------------- IDENTIFICATEUR P.REL DISTO +---------------------------------------+-------------- ALF 47,9 JTD Distinct.0.59 0.95 ALF 66 2,5 V6 24V Progr.0 5.6 -.88 ASTMAR DB7 Volante.0 42. -4.92 AUD A4 3,0 Quattro Pack.0 5.09 -.79 AUD A8 S8 Pack Avus.0 26. -4.86 AUD TT Roadster,8 T225.0 5.83-0.22 AUDIA4 Cabriolet 2,4.0 3. -.4 BEN Continental T.0 68.44-7.76 BMW 36i.0.25 0.23 BMW X5 3,0d Pack Luxe.0 4.90-3.06 BMW Z8.0 27.2-3.68 CAD Seville STS.0 2.4-4.26 CHR Grand Voyager 2,5 CR.0 20.40-2.80 DISTO = d 2 (x i, 0)
Propriétés de la première composante principale Y Moyenne de Y = 0 Variance de Y = n n 2 Y (i) = n i= n i= d 2 (y i,0 ) = λ Cor(X j, Y ) = λ u j p p j= cor 2 (X j,y ) = λ est maximum p 20
Qualité de la première composante principale Y Inertie totale = Inertie expliquée par le premier axe principal = λ = 6.69 Part d inertie expliquée par le premier axe principal : λ p 6.69 = = 60.88 2 La première composante principale explique 60.88 % de la variance totale.
. Deuxième axe principal 2 2 Y 2 (i) 0 x i a i Y (i) 22
2 ème axe principal 2 : Résultats 23 On recherche le deuxième axe principal 2 orthogonal à et passant le mieux possible au milieu du nuage. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u 2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre λ 2. La deuxième composante principale Y 2 est définie par projection des points sur le deuxième axe principal. La deuxième composante principale Y 2 est centrée, de variance λ 2, et non corrélée à la première composante principale Y.
Résultats SPAD COORDONNEES DES VARIABLES SUR LES AXES A 5 VARIABLES ACTIVES ----------------------------+------------------------------------+------------------------------- VARIABLES COORDONNEES CORRELATIONS VARIABLE-FACTEUR ----------------------------+------------------------------------+------------------------------- IDEN - LIBELLE COURT 2 3 4 5 2 3 4 5 ----------------------------+------------------------------------+------------------------------- C2 - PUISS -0.86 0.43-0.5-0.0 0.5-0.86 0.43-0.5-0.0 0.5 C3 - CYLI -0.9 0.26-0.20-0.04-0.0-0.9 0.26-0.20-0.04-0.0 C4 - CoupleMaxi -0.54 0.22 0.53-0.6 0.02-0.54 0.22 0.53-0.6 0.02 C5 - LONG -0.87-0.23 0.26 0.23-0.5-0.87-0.23 0.26 0.23-0.5 C6 - LARG -0.90-0.22 0.02 0.06-0.25-0.90-0.22 0.02 0.06-0.25 C7 - HAUT -0.2-0.83-0.30-0.35 0.08-0.2-0.83-0.30-0.35 0.08 C8 - COFFRE -0.46-0.73 0.26 0.2 0.33-0.46-0.73 0.26 0.2 0.33 C9 - RESE -0.94-0.20-0.04 0.05-0.2-0.94-0.20-0.04 0.05-0.2 C0 - POIDS -0.94-0.23-0.09-0.05-0.07-0.94-0.23-0.09-0.05-0.07 C - VITE -0.76 0.45 0.8 0.26 0.6-0.76 0.45 0.8 0.26 0.6 C2 - CONS -0.8 0.29-0.37-0.2 0.3-0.8 0.29-0.37-0.2 0.3 ----------------------------+------------------------------------+------------------------------- 24
Interprétation de la deuxième composante principale Y 2 Y 2 = 0.43 PUISS +0.26 CYLI +0.22 Couplemaxi -0.23 LONG -0.22 LARG -0.83 HAUT -0.73 COFFRE -0.20 RESE -0.23 POIDS +0.45 VITE +0.29 CONS Voiture familiale Voiture sportive - 0 + 25
2. Exemple Auto 2002 Le premier plan principal 26
27 Le cercle des corrélations
3. Qualité globale de l analyse Inertie totale = variance totale = p Part de variance expliquée par la première composante principale = Part de variance expliquée par la deuxième composante principale = λ p λ 2 p 28 Part de variance expliquée par les deux premières composantes principales = Et ainsi de suite pour les autres dimensions... λ +λ2 p