Module 2 : L analyse en composantes principales - Exercices préparatifs

Documents pareils
Chapitre 1.5a Le champ électrique généré par plusieurs particules

Cours de. Point et système de points matériels

Physique quantique. Dans l UF Physique Quantique et Statistique. 3ème année IMACS. Pierre Renucci (cours) Thierry Amand (TDs)

où «p» représente le nombre de paramètres estimés de la loi de distribution testée sous H 0.

- Cours de mécanique - STATIQUE

Chapitre 6: Moment cinétique

TRAVAUX DIRIGÉS DE M 6

M F. F O Unité: [m. N] La norme du moment de force peut se calculer en introduit le bras de levier d

FINANCE Mathématiques Financières

11.5 Le moment de force τ (tau) : Production d une accélération angulaire

Créer un observatoire de la concurrence. Créer un observatoire de la concurrence. Démarche. ntérêt. C aractéristiques.

Mouvement d'une particule chargée dans un champ magnétique indépendant du temps

Mécanique du point : forces Newtoniennes (PCSI)

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

CIRCULAIRE N 02/04. Elle précise les méthodes de valorisation des titres de capital et des titres de créances contenus dans les actifs de l OPCVM.

Remboursement d un emprunt par annuités constantes

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

CONSTANTES DIELECTRIQUES

Corrigé du problème de Mathématiques générales Partie I

CHAPITRE VI : Le potentiel électrique

Serveur vidéo IP. caméras analogiques PC serveur. PC Client 1. Serveur de stockage ( optionnel )

Po ur d o nne r un é lan à vo tre re traite

Les jeunes économistes

DiaDent Group International

( Codes : voir verso du feuillet 3 ) SPECIMEN

Chapitre 3: TESTS DE SPECIFICATION

tudes & documents ÉCONOMIE ET ÉVALUATION L assurance habitation dans les départements d Outre Mer n 24 Juin 2010

LE PRINCIPE DU RAISONNEMENT PAR RÉCURRENCE

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Moments partiels crédibilistes et application à l évaluation de la performance de fonds spéculatifs

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

( Mecanique des fluides )

I. Gchart, Gplot avec les données des départements. Nuages de points, courbes: Histogramme simple: Avec controle des centres des classes :

Exercices d Électrocinétique

CIGI 2011 Job shop sous contraintes de disponibilité des ressources : modèle mathématique et heuristiques

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

DEUXIEME ANNEE TRONC COMMUN TECHNOLOGIE TRAVAUX DIRIGES DE PHYSIQUE VIBRATIONS ONDES

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

TD 1. Statistiques à une variable.

PHYSIQUE DES SEMI-CONDUCTEURS

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

STATISTIQUE AVEC EXCEL

Quelques éléments d écologie utiles au forestier

Généralités sur les fonctions 1ES

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

CLOUD CX263 MÉLANGEUR

Validation CFD axisymétrique de modèle zonal des écoulements gazeux de chambre de combustion de moteur Diesel

SOMMAIRE. ATRACOM-Centrafrique Manuel de Procédures Administratives Financiers et Comptables

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Mémoire de DEA. Modélisation opérationnelle des domaines de référence

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

A la mémoire de ma grande mère A mes parents A Mon épouse A Mes tantes et sœurs A Mes beaux parents A Toute ma famille A Mes amis A Rihab, Lina et

Montage émetteur commun

Dynamique du point matériel

Permis de feu. Travail par point chaud. r Soudage r Brasage. r Découpage r Tronçonnage. r Meulage r Autres. r Poste à souder r Tronçonneuse

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Guide 2005 GESTION. des solutions partenaires logiciels. IBM Software. commerciale (CRM) comptable et financière logistique marketing de la qualité

Roulements à rotule sur deux rangées de rouleaux en deux parties

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Relation entre deux variables : estimation de la corrélation linéaire

Évaluation de l'incertitude de mesure par une méthode statistique ("méthode de type A") Voir cours d'instrumentation

Chapitre 3. Les distributions à deux variables

Chapitre 2. Matrices

Mesure avec une règle

D'CLICS CONSO. ayez les bons réflexes! Logement, téléphonie, mobilité, budget : soyez acteur de votre consommation!

Informations Techniques A7 A141. Roulements à Billes à Gorge Profonde. Roulements à Billes à Contact Oblique. Roulements à Billes Auto-Aligneurs

Equations aux dérivées partielles

Interface OneNote 2013

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Les déterminants de la diffusion d Internet en Afrique

Calcul de tableaux d amortissement


Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Annexe II. Les trois lois de Kepler

ANNALES SCIENTIFIQUES DE L É.N.S.

DEMANDE D OUVERTURE D UN COMPTE EPARGNE REMUNERE (Réservé aux particuliers) Exemplaire Client (à conserver)

Correction du baccalauréat S Liban juin 2007

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

RESOLUTION PAR LA METHODE DE NORTON, MILLMAN ET KENNELY

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Guide de l acheteur de logiciel de Paie

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Exercices - Polynômes : corrigé. Opérations sur les polynômes

CHAPITRE 1 : Distribution statistique à une dimension

Pour l épreuve d algèbre, les calculatrices sont interdites.

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Fonctions de deux variables. Mai 2011

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Problème 1 : applications du plan affine

Mathématiques Financières : l essentiel Les 10 formules incontournables (Fin de période)

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

FRANCE Tarifs et disponibilités

Intégrales doubles et triples - M

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Statistiques Descriptives à une dimension

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Transcription:

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Module : L analyse en composantes pncpales - Eecces pépaatfs L analyse en composantes pncpales est notée ACP. Elle s applque à tous les tableau de données où les vaables sont de type quanttatf. C est la méthode de éféence pou deu asons : - c est la plus facle à epose su le plan mathématque, - c est une méthode qu peut sev de suppot à d autes technques statstques comme pa eemple la égesson othogonale, la constucton d ndcateus synthétques, la pévson d une chonque ou encoe compléte une nfomaton manquante dans un tableau. Avant de pésente fomellement la méthode de l ACP (Module suvant), on va essaye dans ce module, d ntute la démache à taves deu eemples. e eemple On consdèe le tableau suvant : Indvdus\vaables Y X 8 4 44 4 65 5 5 5 Somme 6 5 La epésentaton gaphque des ndvdus dans l espace R² des deu vaables, en utlsant une base othonomée (, j), j, * j ), condut au nuage des ndvdus (nuage de égesson) Y suvant : 9 8 nuage de égesson 7 6 5 4 4 G (X,Y) 5 j 4 5 6 7 8 9 X /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Avec la égesson, l est pafos possble de vsualse l nfomaton contenue dans le nuage de égesson (les pomtés elatves des 5 ponts) Le tableau des calculs pemettant de touve les éléments d une égesson su données centées (,y) et non centée (X,Y) est le suvant :. Ind Y X X XY Y y Y Y X X y y Ŷ 4-7, -, 79,84 69, 5,6 8,99 8 4 6 8 674 4,8 7,,4 89, 59,6 84,9 44 4 88 96 -, -,,4 9, 9,6 4,69 4 65 9 95 45 7,8 7, 6,84 49, 4,6 6,9 5 5 5 5 75 65 -, -8, 49,84 64, 77,6 9,84 Somme 6 5 5 6685 9,, 77,8 58, 57, 6, Il pemet de calcule les caactéstques qu condusent au paamètes de la égesson. 6 Y Y 47. n 5 5 X n 5 X n 9 5 [ ] Y Y ( 47.) 554. 6 V Y σ V σ [ Y ] V[ Y] 554.6. 54 n 5 5 [ X] X X ( ) 6 [ X ] V[ X] 6. 77 [ X,Y] [ X] σ[ cov YX XY nxy (6685 5 * 47. * ).996 XY. σ n σ 5.77 *.54 996 Xσ Y.98, le coeffcent de détemnaton, nous ndque que 98% du nuage de égesson est eplqué pa la dote de égesson Y ax+ b. Il est donc possble d utlse cette dote pou ésume le nuage de égesson. La méthode de calcul des paamètes a et b de la dote de égesson consste à mnmse la somme des caés des ésdus ente les valeus obsevées Y et le valeus calculées La mnmsaton de la somme des écats au caé pote le nom de méthode des MCO. Cela s éct : ( ) Mn Y Ŷ On démonte que : ( X, Y) σ[ Y] σ[ X] cov.54 â.996 *.7 V(X).77 bˆ Y âx 47..7 *.7 (la dote passe pa le pont G (X,Y ) qu est le cente de gavté du nuage des ponts des ndvdus). Ŷ.7X.7 Ŷ /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Le nuage de égesson pemet de connaîte l nfomaton concenant les ndvdus du tableau. Pa eemple, on vsualse le pont poche du pont 5 et le pont lon du pont. Il est possble auss de quantfe cette nfomaton en calculant toutes les dstances au caé (théoème de Pythagoe) ente les paes de ponts et de les classe pa ode cossant. Le gaphe de égesson monte que le nuage de pont est nséé dans une ellpse au bods aplats, ce qu sgnfe que ce nuage peut ête ésumé au moyen d une dote de égesson. Cette obsevaton est confmée pa le calcul du coeffcent de coélaton. 99, ce qu sgnfe qu l este une elaton étote et postve ente X et Y. Il est donc possble de substtue au nuage de égesson, la dote Ŷ.7X. 7 ou encoe la dote su vaables centées ŷ.7 qu a pou ogne le pont G (X,Y ). (Cf le tableau pécédent pou le détal des calculs) On peut donc calcule les pojectons au sens des monde caés (paallèlement à l ae des odonnées) des 5 ponts su la dote de égesson. Ces pojectons sont données pou les vaables non centées pa les calculs Ŷ, L, Ŷ5. On constate alos que s on calcule la dstance, pa eemple, ente Ŷ et Ŷ 5 au caé, on touve envon celle du nuage de égesson ente le pont et le pont 5. Pa conséquent, l nfomaton concenant les 5 ponts su l ae Ŷ est consevée pa appot à celle du nuage de égesson. On peut donc de que l analyse de données a eu leu pusque l nfomaton est patquement dentque su l ae que dans le plan. On peut auss ésume l nfomaton contenue dans le nuage de ponts en utlsant non pas les pojectons su la dote de égesson des ponts au sens des MCO, mas leus pojectons othogonales su cette même dote, en consevant pou ogne de l ae, le pont G et en constusant un vecteu untae dont on connaît les coodonnées dans l espace R² ; les pojectons othogonales des 5 ponts su cette dote dont données pa le podut scalae ente le vecteu untae et un vecteu qu a pou ogne le pont G et pou etémté le pont à pojete. On pouat constate que, dans ce cas auss, la dstance au caé pa eemple ente le pont et le pont 5 pojetés est appomatvement dentque à celle du plan ente les mêmes ponts. L analyse de données est donc encoe éalsable en pocédant de la sote. Remaque mpotante : losque l on tavalle su les vaables centées, on a les coodonnées suvantes des vecteus et y : X X 7 7 8 7. 4.8 Y Y y. 7.8. Le podut scalae ente les vecteus et y s éct : * y ( ) * ( 7.) + L + ( 8) * (.) 57 * y y De ce fat : cov(, y) n n () D où : V() cov(, ) n et σ ( ) n y /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M cov(, y) De plus : σ() σ(y) * y n y * n n * y y Pa alleus on sat que : * y * y * cos α avec α l angle fomé pa les deu vecteus. D où : cos α. Ans, losque les vaables sont centées, le coeffcent de coélaton ente les vaables est égal au cosnus de l angle fomé pa les vecteus epésentant ces vaables. Y Y Quand on cente et on édut des vaables (pa eemple y ), on fome des vecteus qu ont σ Y tous la même dmenson. ( V (y) ). De ce fat, la vaance est la dstance commune à tous les vecteus (ls se stuent su un cecle de ayon ) et ls se postonnent les uns pa appot au autes pa le coeffcent de coélaton lnéae que l on dédut à pat de l angle fomé pa les deu vecteus. Eemple Sot le tableau de données suvant : Ind\va 4 5 X (,) 6 7 8 Repésentaton gaphque du nuage des ponts ndvdus dans l espace R² des vaables ( en abscsse, en odonnée). Le système d aes est othonomé : base (, j) telle que j, * j. 8 7 6 5 Les ponts du nuage consttuent l nfomaton des lgnes du tableau. Les postons elatves de ces ponts peuvent ête calculées en utlsant la dstance eucldenne. 4 j 4 5 6 7 8 9 4 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Repésentaton gaphque du nuage des ponts vaables dans l espace système d aes est othonomé : base (, j,) telle que : j, * j * j *. R des ndvdus. Le j Les ponts du nuage consttuent l nfomaton donnée pa les colonnes du tableau. Ic auss, on peut calcule la dstance eucldenne ente les deu pont. Calcul des caactéstques des colonnes du tableau Calcul de la moyenne et de l écat type de et : 8 6 4 6 V( ) 6.67 σ ( ). 6 74 V( ) 4 8.67 σ ( ). 944 Calcul de la moyenne et de l écat type de,, : 9 8 4.5 6. 5 4 4 V() (4.5) 85 V() (6.5) 64 V() (4).5.5 6 σ().5 σ().5 σ() 4 5 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Constucton du tableau des vaables centées et édutes : z σ( ) z σ( ) 4 5 - -.5.4 Z (,) 6 7. 8-4.5 -.6 Σ 8 on véfe que : z z, V(z ) V(z ) et Cov ( z,z ) z, z Repésentaton gaphque du nuage des ponts ndvdus dans l espace R des vaables centées édutes ( z en abscsse et z en odonnée). Le système d aes est othonomé : base (, j) telle que j, * j. Dans cet espace, l ogne des aes (pont ) est confondu avec le cente de gavté du tangle (Pont G(z,z ) Z j - - G Z - - Dans l espace R des ndvdus, se stuent les deu vaables centées édutes. Avec un système d aes othonomé on peut calcule : En utlsant les vaables centées édutes dans l espace à tos dmensons des ndvdus avec un système othonomé on peut calcule : d D où d d d (,z ) + + (,z ) la vaance de z 6 6 (,z ) + + (,z ) la vaance de z 4 6 6 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Dans cet espace, la dstance au caé ente l ogne et une vaable est, à N pès, la vaance de la vaable. Quand les vaables sont centées et édutes, toutes les vaables sont équdstantes de l ogne. Cette dstance est, au nombe d obsevatons pès, la vaance des vaables. Récaptulatf : pésentaton des calculs : 4 5 X (,) 6 7 8 6 4 Z j j σj j σ j 6 Tableau des vaables centées édutes : z z z z Z (,) 6 6 -,5,4, avec z j j j. σ 4,5 -,6 6 Z σ z j La moyenne des vaables centées et édutes est égale à. L écat type des vaables centées et édutes est égal à. De plus : cov σ() σ(y) comme σ ( ) et σ(y), le coeffcent de coélaton lnéae ente vaables est égal à la covaance. Remaque : on peut auss tate l nfomaton contenue dans le tableau de dépat en utlsant le tableau des ndvdus centés éduts. X (,) σ ) ( 4 5 4.5.5 6 7 6.5.5 8 4 4 7 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M Q (,) - - - avec qj j σ ( ) Il est possble de epésente l nfomaton contenue dans ce nouveau tableau comme pécédemment et d en te des conclusons. Calcul du podut matcel Z Z N 6 6 4 6 6 6 4 6 5 5 5 5 Le ésultat de ce calcul est une matce caée, de dmenson (,), notée R, contenant les coeffcents de coélaton lnéaes des vaables. Cette matce caée R a pou dmenson le nombe de vaables. Elles possède les popétés suvantes : - Elle est symétque. - elle a des su la dagonale pncpale (les vaances des vaables) - Elle a des valeus nféeues ou égales à en valeu absolue. Dans cette matce R, on a su la dagonale les vaances des vaables, o dans l eecce pécédent on a vu que cette vaance état, au nombe d obsevatons pès, la dstance de la vaable à l ogne. Elle content de pat et d aute de la dagonale le coeffcent de coélaton lnéae ente les deu vaables. O dans l eecce pécédent, on a vu que ce coeffcent de coélaton état le cosnus de l angle fomé pa les deu vaables. L angle fomé pa les deu vaables peut donc en ête dédut. Avec la matce R, l est donc possble de epésente dans l espace les postons elatves des vaables ente elles. Cette matce R nous donne donc l nfomaton echechée concenant les vaables. C est la ason pou laquelle elle pote le nom de matce d nfomaton des vaables. Calcul du podut matcel ZZ : 9 5 6 6 6 9 7 6 ZZ ' 6 4 6 6 6 4 6 5 6 87 6 6 6 6 6 6 Cette matce V n est pas une matce de coélaton, mas elle y essemble. On lu donne le nom de matce d nfomaton des ndvdus. Elle est symétque ; sa dagonale est la somme des caés des ndvdus lgnes du tableau et de pat et d aute on touve la somme des poduts lgnes deu à deu des ndvdus Caactéstques de la matce R Les caactéstques d une matce sont données pa les vecteus popes assocés au valeus popes de la matce. V (,) 8 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M On appelle vecteu pope assocé à la valeu pope λ de la matce R la soluton du système d équaton homogène RX λx [R-λI]X. On sat que s dans ce système d équaton le détemnant de la matce R λι, alos ce système possède une et une seule soluton qu est X et que l on appelle la soluton tvale. C est la ason pou laquelle pou que ce système at des solutons autes que celle-c, l faut que le détemnant R λι. O ce détemnant condut à une équaton (équaton caactéstque) qu a pou vaable λ et pou degé la dmenson de la matce R. Les acnes de cette équaton donnent les dfféentes valeus de λ et potent le nom de valeus popes. Pou chacune des valeus popes, on poua calcule à pat du système de dépat, une nfnté de vecteus X qu on appelle les vecteus popes. Pam cette nfnté de vecteus popes, on echeche pa la sute le vecteu pope de nome (c est-à-de le vecteu untae). Dans ce cas on a : R X (,)(,) λ avec λ R X (,) [ R λι] X R λ λ R λ ( λ) + ( λ) Calcul du détemnant : λ R λι λ ( λ )( λ + ) (. λ) (.69 λ) λ.69 deu valeus popes de R. λ. ( λ) ( ) S on addtonne.69 +., on obtent la dmenson de la matce (le nombe de vaables du tableau). Calcul des vecteus popes assocés pou λ. 69 [ T λι] X.69.69 9 /

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M / + R V On a une nfnté de vecteus popes potés pa la seconde bssectce du plan ( ),. Pou touve un vecteu pope nomé l faut que : ± + En etenant pou la valeu postve, on défnt : b vecteu pope nomé de R. Pou. λ + R V Pou touve un vecteu pope nomé l faut que : ± + b vecteu pope nomé de R. Ces vecteus popes només consttuent une nouvelle base othonomée dans laquelle la nome de chaque vecteu et leu podut scalae est nul : b b et * b * b On peut alos place les coodonnées (dans l ancenne base) de ces vecteus dans une matce (,) B, dans l odes décossant de leus valeus popes.

Analyse de données Module : L analyse en composantes pncpales - Eecces pépaatfs M B (,) coodonnés des vecteus b et b dans l ancen système d aes. Cette matce est une matce othogonale et véfe donc : Caactéstque de la matce V B B, sot B B I S on calcule comme pécédemment les valeus popes de la matce V : V λι c'est-à-de :.6 λ.55.96.5.4 λ.8.96.8.5 λ λ 5.7 on touve : λ.9 λ S on pote dans un tableau les valeus popes de V et de R on a : V R λ 5.7 λ.69 λ.9 λ. λ j λ j n On vot que s on multple les valeus popes de la matce R pa, on obtent les deu pemèes valeus popes de la matce V et que la denèe valeu pope de V est nulle. On peut démonte que les valeus popes de la matce V sont égales au valeus popes de R multplées pa N et qu l y a dans la matce V, N-n valeus popes nulles. On peut auss démonte qu l est possble de calcule les vecteus popes de V connassant ceu de R. Et donc, qu en défntve, les caactéstques de R pemettent de calcule celles de V et écpoquement. /