CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données
A-1 Les méthodes Lors de toute étude statistique, il est nécessaire de décrire et exlorer les données avant d en tirer de quelconques lois ou modèles rédictifs. Dans beaucou de situations, les données sont tro nombreuses our ouvoir être visualisables (nombre de caractéristiques tro élevées) Il est alors nécessaire d extraire l information ertinente qu elles contiennent ; Les techniques d ADD réondent à ce besoin.
A -1 Les méthodes ADD = ensemble de méthodes descritives ayant our objectif de résumer et visualiser l information ertinente contenue dans un grand tableau de données
A -1 Les méthodes Trois grandes familles de méthodes: Objectif Variables quanti Variables quali/mixtes Reérer et visualiser les Analyse en Analyse factorielle des corrélations multiles entre variables et/ou les ressemblances entre individus comosantes rinciales (ACP) corresondances (AFC AFCM) Réaliser une tyologie des individus Caractériser de groues d individus à l aide de variables Methodes de classification (CAH,..) Analyse discriminante (AFD,..) AFC ou AFCM et classification Analyse discriminante (AFD,..)
A-2 Exemles
A-2 Exemles ACP: Deux grandes tendances : L axe 1 distingue les états de Floride, Colorado, Arizona, Californie, Maryland caractérisés ar un fort taux de délits en tous genres aux autres états. L axe 2 est un axe de gravité des délits : s oosent les états ayant un fort taux de délits mineurs (Colorado, Arizona) aux états concernés ar des délits majeurs (Alabama, Louisiane).
A-2 Exemles Classification On distingue 4 groues d états : le groue vert, caractérisé ar un taux de délits en tous genres inférieur à la moyenne Le groue bleu caractérisé ar un taux de délits en tous genres suérieur à la moyenne Le groue noir caractérisé ar un taux de délits graves suérieur à la moyenne Le groue rouge caractérisé ar un taux de délits mineurs suérieur à la moyenne delits mineurs -----delits majeurs -2-1 0 1 2 rerésentation dans les axes d'une ACP(rogramme3) Louisiana Alabama Georgia Kentucky Arkansas Alaska Illinois Maryland California Indiana Florida Kansas Idaho Connecticut Maine Iow a Colorado Delaw are Arizona Haw aii -3-2 -1 0 1 2 3 forte criminalite ---- faible criminalite
A-2- Exemles
A-2 Exemles (ACP sous statistica)
Analyse discriminante A-2 Exemles 3 groues de ersonnes reérées ar 4 variables : age revenu atrimoine emrunt LD2-4 -2 0 2 4 Jeunes 2 2 2 3 3 3 3 1 1 1 ages -4-2 0 2 4 Gros atrimoines emrunt eleve LD1
A-2 Exemles Le groue 1 est un groue de gens assez jeunes à revenus lus faibles que la moyenne dont le atrimoine est nettement lus faible que dans les autres classes et le taux d emrunt lus élevé que la moyenne Le groue 2 est caractérisé ar des gens jeunes de revenus moyens, mais dont le atrimoine est très imortant et le taux d emrunt très faible Le groue 3 est caractérisé ar des gens lus agés de revenus confortables et de atrimoine assez imortant, ayant un taux d emrunt lus élevé que dans les autres classes
B 1 Tableau individu*variables On observe caractéristiques e,..., e,... e 1 i n X,... X 1 quantitatives sur n individus On note x ij la valeur de la variable X observée sur l individu e j i Individu e1 e2 X 1 X 2 x 11 x 12 x 21 x 22 X x 1 j j x 2 j X x 1 x 2 ei x i1 x i2 x ij x i en x n1 x n2 x nj x n
B 1 Tableau individu*variables Le tableau eut être mis sous forme matricielle X = x x... x... x 11 12 1 j 1 x 21 x 22... x 2 j... x 2.................. x i1 x i2... x ij... x i.................. x x... x... x n1 n2 nj n
B 1 Tableau individu*variables Chaque individu est décrit ar variables, formant un vecteur de dimension, aelé vecteur individu. x i 1... e = x R i ij... x i
B 1 Tableau individu*variables Chaque variable eut être rerésentée ar un vecteur de dimension n, aelé vecteur variable, corresondant aux valeurs rises ar cette variable sur les n individus. x 1 j... x = x R j ij n... x nj
B 1 Les données: tableau individu*variables
B.2- Matrice des oids associés aux individus Les données euvent être ondérées : Le oids attribué à chaque individu exrime l imortance que l on désire lui accorder dans l étude (rerésentativité de l échantillon étudié dans la oulation) : 0 0 0 0 1 0 1, i = 1,... n i 0... 0 0 0 n P = 0 0 0 0 i = 1 i i = 1 0 0 0... 0 0 0 0 0 Généralement P = 1 n I n (même oids our tous les individus) n
B-3 Nuages de oints Ils ermettent de visualiser les liens entre les variables ou les ressemblances/dissemblances entre individus contenus dans le tableau de données X. Nuage des oints-individus = coordonnées des n vecteurs individus e dans le reère de R dont les axes sont les variables du tableau. e ' x,..,... i i1 x ij x = i Nuage des oints-variables = coordonnées des vecteurs variables dans le reère de R n dont les axes sont déterminés ar les n individus. X = [ x,...,,... ]' j 1j x ij x nj e i X j
B-3 Nuages de oints On disose de 6 variables rerésentant les taux de différents délits commis our 100000 habitants dans 20 Etats des Etats-unis. Ces données euvent être mises dans un tableau individu*variable ETAT Meurtre Rat vol attaque viol larcin Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 California 11.5 49.4 287.0 358.0 2139.4 3499.8 Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 Connecticut 4.2 16.8 129.5 131.8 1346.0 2620.7 Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7
B-3 Nuages de oints Les n individus forment un nuage de oints dans le sous-esace de défini ar les variables, aelé nuage des oints-individus R nuage des oints-individus 60 rat 40 20 0 0 5 10 15 20 meurtre Le taux de meurtre et le taux de rat sont corrélés ositivement, ce qui signifie que les états où il y a beaucou de meurtres sont généralement des états où il y a beaucou de rat, et inversement.
B-3 Nuages de oints Les variables forment un nuage de oints dans le sous-esace de défini ar les individus, aelé nuage des oints-variables. alaska 3 6 0 0 3 4 0 0 3 2 0 0 3 0 0 0 2 8 0 0 2 6 0 0 2 4 0 0 2 2 0 0 2 0 0 0 18 0 0 16 0 0 14 0 0 12 0 0 10 0 0 8 0 0 6 0 0 4 0 0 2 0 0 0 Nuage de s o ints -variable s our le table au ré duit à de ux individus meutre rat vol attaque viol lar cin 0 500 10 0 0 150 0 2 0 00 alabam a R n on eut comarer ar raort à la remière bissectrice les valeurs rises ar les variables sur les différents individus afin d identifier des individus roches en terme de valeurs rises ar les variables. Ainsi, l Alaska se distingue ar un nombre relativement imortant de larcins.
B-4 Centre de gravité Le centre de gravité du nuage de oints individus G caractérise la osition globale de nuage (individu) dans le reère défini ar les variables. C est le oint autour duquel «gravitent» les individus du nuage. x 1 x n G 2 x = x = j i 1... = i ij x Au lus G est loin de l origine, au moins le nuage est centré. RQ : lorsque les oids sont égaux, G est le vecteur des moyennes.
B-4 Centre de gravité nuage des oints-individus 60 rat 40 20 0 0 5 10 15 20 meurtre
B-4 Centre de gravité Centre de gravité du tableau des rotéine >mean(roteine) VR VB Oeufs Lait Poisson Céréales Amidon Noix FL 9.828 7.896 2.936 17.112 4.284 32.248 4.276 3.072 4.136
B-5 Inertie V = Var( X ) Cov( X, X )... Cov( X, X )... Cov( X, X ) 1 1 2 1 j 1 Cov( X, X ) Var( X )... Cov( X, X )... Cov( X, X ) 1 2 2 2 j 2.................. Cov( X, X ) Cov( X, X )... Var( X )... Cov( X, X ) 1 j 2 j j j.................. Cov( X, X ) (, )... (, )... ( ) 1 Cov X X Cov X X Var X 2 j
B-5 Inertie On eut définir une distance ou éloignement entre individus : e e ² = ( x x )² j=1 = 1 ij kj d²( e, e ) = = ( e e )'( e e ) i k i k i k i k Alication : Eloignement d un oint du nuage ar raort au centre de gravité : d²( e, G) = ( x x )² i j = 1 ij j
B-5 Inertie Inertie du nuage de oints ar raort à son centre de gravité = somme ondérée des éloignements au centre de gravité n I = d ²( e, G ) = j = i = 1 i i j= 1 = Var ( X ) = Tr ( V ) I caractérise la disersion ou la forme du nuage ar raort à son centre. : au lus I est élevée, au lus le nuage est disersé autour de son centre de gravité. Une inertie nulle signifie que tous les individus sont identiques. Lorsque les variables sont centrées et réduites I= L inertie mesure la quantité d information contenue dans X
B-5 Inertie > cov=cov(crime2) > c=as.matrix(cov); c Meutre Rat Vol Attaque Viol Larcin Meutre 14.95190 25.01378 165.2459 251.4141 645.1653 286.0809 Rat 25.01378 115.76964 562.6393 798.5073 3313.5864 4795.5602 Vol 165.24587 562.63926 7805.4693 4934.1608 24347.0033 28650.7691 Attaque 251.41408 798.50735 4934.1608 10050.6739 27006.2014 29427.3639 Viol 645.16533 3313.58639 24347.0033 27006.2014 187017.9416 248665.3015 Larcin 286.08095 4795.56021 28650.7691 29427.3639 248665.3015 526943.4505 > I=sum(diag(c));I [1] 731948.3
C-1 Tableau centré associé à X Centrage : ermet de ramener toutes les colonnes de X a la même origine, zero: x x x ij ij j Matrice centrée : Xc = X EG' x x x x... x x... x 11 1 12 2 1 1 x j j x x x x... x x... x x 21 1 22 2 2 j j 2.................. X c = x x x x... x x... x x i1 1 i2 2 ij j i.................. x x x... x x... x x n1 x n2 2 nj j n 1
C-2 Tableau centré-réduit associé à X Réduction = ramener toutes les variables à une même origine 0 et un même écart-tye 1. x x Centrage + réduction = x ij j ij σ ( X ) j Xr = X D 1 c s D s = σ ( X ) 1 0 0 0 0 0... 0 0 0 0 0 σ ( X j ) 0 0 0 0 0... 0 0 0 0 0 σ ( X )
C-2 Tableau centré-réduit associé à X x x x x x x x x 11 1 12 2... 1j j... 1 σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j x x x x x x x x 21 1 22 2... 2 j j... 2 σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j.................. X r = x x x x x x x x i1 1 i2 2... ij j... i σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j.................. x x n1 1 σ ( X ) 1 x x x x 2 2... nj j x... n x n σ ( X ) σ ( X ) σ ( X ) 2 j
C-2 Tableau centré-réduit associé à X > crimer=scale(crime2)*sqrt(20/19); round(crimer, digit=3) Meutre Rat Vol Attaque Viol Larcin Alabama 1.793-0.051-0.317 0.686-0.371-1.116 Alaska 0.890 2.466-0.317 0.744 0.094 0.987 Arizona 0.546 0.807 0.164 1.034 2.501 2.539 Arkansas 0.360 0.178-0.475-0.081-0.758-1.144 California 1.076 2.257 1.892 1.501 2.011 1.171 Colorado -0.304 1.551 0.541 0.835 1.526 1.741 Connecticut -0.861-0.852 0.063-0.814 0.128-0.071
C-2 Tableau centré-réduit associé à X données initiales 14 12 10 8 6 4 2 0 0 1 2 3 4 5 données centrées données centrées réduites 2 1,5 1 0,5 0-0,5 0 1 2 3 4 5-1 -1,5-2 8 6 4 2 0 0-2 0,5 1 1,5 2 2,5 3 3,5 4 4,5-4 -6
C-3 Matrice de variance-covariance associée à X V = Var( X ) Cov( X, X )... Cov( X, X )... Cov( X, X ) 1 1 2 1 j 1 Cov( X, X ) Var( X )... Cov( X, X )... Cov( X, X ) 1 2 2 2 j 2.................. Cov( X, X ) Cov( X, X )... Var( X )... Cov( X, X ) 1 j 2 j j j.................. Cov( X, X ) (, )... (, )... ( ) 1 Cov X X Cov X X Var X 2 j V = X ' cpxc cov( X n, X ) = ( )( ) c ' c j l i xij x j xil xl = X PX j l i= 1 Var( X ) = cov( X, X ); σ ( X ) = Var( X ) j j j j j
C-3 Matrice de corrélation associée à X Le coefficient de corrélation linéaire entre deux variables quantitatives ermet de mesurer le lien linéaire entre ces deux variables: Cov( X, X ) r( X, X ) = j k j k σ ( X ) σ ( X ) j k r( X, X ) = X r ' PX r j k j k r X X, d autant lus grand en valeur absolue que le lien j k linéaire est grand. Nul si absence de lien linéaire. 1 (, ) 1
C-3 Matrice de corrélation associée à X R = 1 r( X1, X 2)... r( X1, X j )... r( X1, X ) r( X1, X 2) 1... r( X 2, X j )... r( X 2, X ).................. r ( X1, X j ) r ( X 2, X j )... 1... r ( X j, X ).................. r( X1, X ) r( X 2, X )... r( X j, X )... 1 R = X ' PX D 1VD 1 r r = s s
C-3 Matrice de corrélation associée à X > cor=cor(crime2) #=cov(crimer) > cor Meutre Rat Vol Attaque Viol Larcin Meutre 1.0000000 0.6012205 0.4837076 0.6485505 0.3858168 0.1019198 Rat 0.6012205 1.0000000 0.5918793 0.7402595 0.7121301 0.6139882 Vol 0.4837076 0.5918793 1.0000000 0.5570782 0.6372420 0.4467399 Attaque 0.6485505 0.7402595 0.5570782 1.0000000 0.6229085 0.4043633 Viol 0.3858168 0.7121301 0.6372420 0.6229085 1.0000000 0.7921210 Larcin 0.1019198 0.6139882 0.4467399 0.4043633 0.7921210 1.0000000
C.4- Ecriture matricielles imortantes Le carré de la P-norme d une variable centrée Xj est sa variance 2 X = X ' PX =σ 2 ( X ) j P j j j Le carré de la P-norme d une variable centrée réduite Xj est égal à 1 Le P-roduit scalaire entre deux variables centrées est leur covariance X, ' j X k = X PX = Cov( X, X ) P j k j k Le P-roduit scalaire entre deux variables centrées réduites est leur coefficient de corrélation X ' PX = r( X, X ) j k j k