Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle DACP, STATIS, TUCKER, PARAFAC Méthodes secondaires Dual, SCA Typlogies de trajectoires 1
Introduction Données longitudinales multidimensionnelles Méthodes exploratoires simples ( cf cours 1) Indispensables mais insuffisantes pour l étude des liaisons entre les variables Besoin de méthodes multidimensionnelles Etude des méthodes descriptives à trois voies utilisant le temps dans l interprétation Introduction Rappel: Données longitudinales: mesures répétées dans le temps, tableau à 3 entrées 2
Terminologie - Notations Tableau à trois dimensions X x ijt, i=1,, N; j= 1,, p, t=1,t i pour les individus en lignes j pour les variables en colonnes t pour les instants (temps) de mesure en profondeur Ensemble de matrices : tranches horizontales Xi, tranches latérales Xj, tranches frontales Xt Ensemble de vecteurs: fibres lignes xit, colonnes xjt, tubes xij Méthodes multidimensionnelles 3
Introduction Cadre général: méthodes d analyse simultanée de plusieurs tableaux de données Diverses situations: pt variables mesurées sur nt individus à différentes dates: données évolutives pt variables mesurées sur nt individus à différentes occasions (non temporel) Plusieurs tableaux de contingence ou de proximités Ici : données quantitatives individus-variables 4
Introduction Plusieurs méthodes: DACP STATIS, STATIS DUALE AFM PARAFAC, TUCKER 2. La double ACP (Bouroche,J.M., 1975) ACP n 1: nuage des centres de gravité g t comme étude de l interstructure Recherche de l intrastructure ACP de chaque tableau: T systèmes d axes Système d axes compromis maximise l inertie de la somme des projections de chaque nuage = somme des inerties après centrage 5
double ACP (suite) Axes compromis : vecteurs propres de ACP n 2: ACP de la concaténation verticale (superposition) des X t centrés T Vt t= 1 X 1 X 2 X T double ACP: exemple Crimes et délits en 9 catégories pour l ensemble des départements métropolitains, par année de 1974 à 1993 VO : vols et recels FX :faux et escroqueries DF: délits financiers CH: chèques sans provisions CR: coups, réglements de comptes, traumatismes ST: stupéfiants DD: destructions et dégradations ET : délits à la police des étrangers DV : divers 6
7
8
9
10
Méthodes STATIS Structuration de Tableaux A Trois Indices de la Statistique (Escoufier et L Hermier des plantes (1976) + C.Lavit) permet l exploration simultanée de plusieurs tableaux de données quantitatives: n individus et pt var différentes STATIS Privilégie la position des individus 11
Méthodes STATIS Remarque p var et nt individus différents STATIS DUALE Privilégie les relations entre variables Remarque: données longitudinales : mêmes individus mêmes variables possible application des deux méthodes et DACP L approche de la méthode: Etude classique d un tableau: l analyse factorielle associe au tableau un ensemble de représentation graphiques (cercle de corrélations, plans factoriels) Plusieurs tableaux: études séparées trop de représentations indépendantes, pas pertinent; d où: Recherche d une unique représentation, un résumé global, un compromis des tableaux 12
Méthode STATIS Idée essentielle de la méthode: recherche d une réponse à la question: les distances entre individus sont elles stables d un tableaux à un autre? Nécessité de trouver une structure commune aux études appelée intrastructure 4 étapes: Interstructure : étude globale des différences entre tableaux Compromis : résumer les tableaux en un seul représentatif selon certains critères Intrastructure : étude fine des différences entre tableaux Trajectoires : évolution des individus ou variables suivant les tableaux 13
Notations On dispose de N tableaux Xt à p variables quantitatives décrivant les mêmes n individus X 1 X X L X 2 X X L X M M M O M n X X K X 11 21 P1 12 22 P 2 = t 1n 2n Pn Interstructure : analyse globale ACP particulière: 3 phases Définir un objet représentatif Définir une métrique pour distances entre objets Trouver une image des objets représentatifs 14
Interstructure objet représentatif Wt W t = X t M t X t caractérise (X t, M t, D) Wt contient les produits scalaires entre individus = tous les liens inter individus Individu de l ACP = objet représentatif d un tableau X t, et on lui associe un poids π t Métrique pour distances entre objets Métrique de l ACP: définir une distance entre objets Produit scalaire de Hilbert Schmidt: ( ) S = W W =Tr DW DW tt ' t t' HS t t' Si les objets Wt ont des normes très différentes: ( ) ( ) ( ) 2 2 W W = Tr DW DW / Tr[ DW ] Tr[ DW ] t t ' HS t t ' t t ' 15
Rappels ACP ACP classique : triplet (X, M, D) facteurs principaux : MVu = λu = (1) composantes principales : c = Xu MX DXu= λu XMX DXu= λxu X* (1) WDc= λc W =matrice des produits scalaires entre individus Composantes principales WDc = λc Métrique pour distances entre objets On définit la matrice S qui contient les coefficients RV π 0 1 On associe à chaque tableau un poids: = O 0 π N Comme en ACP on peut construire une image représentative des objets Remarque: S a tous ses termes positifs, on aura un facteur taille 16
Image représentative des objets Rappel : STATIS = ACP particulière : Individu = W t = objet représentatif d un tableau Tableau de données = S = Matrice des coefficients RV (produits scalaires entre objets W t ) et poids Composante principale = vecteur propre de S Image représentative des objets ACP de S Les vecteurs propres de S associés aux deux plus grandes valeurs propres permettent la représentation des objets W 1,, W N sur le 1er plan factoriel : Les coordonnées des W t sur l axe i sont contenues dans c t,i : c = λ u t, i i i i ème valeurpropre de S i ème vecteur propre de S 17
STATIS - Résumé Interstructure Exemple 1: 1er tour présidentielle 18
19
Compromis-Intrastructure Interstructure = analyse globale mise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer. Objectif de la suite = analyse plus fine pour expliquer Deux étapes: * recherche d un point de repère= compromis * étude de l intrastructure Recherche d un compromis Compromis = bon resumé, de même nature que les objets solution: Wco moyenne pondérée desw t Les coefficients étant tels que Wco soit le plus corrélé avec les W t 20
Recherche d un compromis Matrice Compromis W CO α = t 1 π λ 1 ( ) u t t 1 t ième élément du 1 er vecteur propre de S W N W CO = αt t t= 1 1 ère valeur propre de S Matrice de données W = X MX initiales t t t Recherche d un compromis Représentation et Interprétation tation 4 cas: * Wt ont des normes voisines et des grands RV: existence d une structure commune bien décrite par le compromis * un WtW différent des autres: il intervient peu dans la construction du compromis, robuste * Wt normes trop différentes rentes: il faut normer * Wt très différents rents,, RV faibles: : pas de structure commune 21
Intrastructure image représentative des points compromis ACP de W CO D Les vecteurs propres de W CO D associés aux deux plus grandes valeurs propres fournissent une image euclidienne des points compromis Les coordonnées compromis sur l axe i sont contenues dans le vecteur c CO,i : i ème valeur propre de W CO D 1 c = δ v = W Dv δ CO, i i i co i i i ème vecteur propre de W CO D STATIS - Intrastructure 22
Intrastructure : corrélation variablescompromis Chaque composante principale du compromis est un vecteur à n dimension, n étant le nombre d individus des tableaux initiaux. Calcul de leurs corrélations avec les variables initiales des tableaux Xt Représentation des cercles de corrélation Interprétation des axes pour expliquer les positions compromis STA112 des mars individus 2012 23
Wco est encore un opérateur d Escoufier car les α j sont non négatifs Wco est donc associé à un tableau de données compromis X tel que Wco=XMX ACP de X = α X α X α X 1 1 2 2... T T Pondération des tableaux 24
STATIS - Trajectoires des individus Méthode: technique des points supplémentaires Représentation sur l image euclidienne compromis des N nuages des individus c = 1 W Dv CO t, i t i δ i Remarque : c CO,i est le centre de gravité des points c CO t,i STATIS - Trajectoires des individus Objectif : Mise en évidence des écarts entre les W t et avec le compromis au niveau individuel Détection des individus responsables des écarts entre tableaux Définition : On place les différentes positions d un individu tel qu il est décrit par chaque étude. Ces différentes positions définissent sa trajectoire 25
Interprétation des trajectoires Deux classes de trajectoires des individus : Peu étendue autour de sa position compromis = individus dont l évolution suit l évolution moyenne, écart par rapport à la moyenne régulier d un tableau à l autre Trajectoire de grande amplitude = changement de structure suivant les tableaux, différence avec l évolution moyenne Rque: si les axes du compromis sont bien corrélés avec les variables on pourra expliquer les axes par les variables et on interprètera de façon détaillée les trajectoires des individus 26
STATIS DUALE Même démarche que STATIS en prenant comme matrice représentant un tableau, V t la matrice de covariance des variables à la place des W t. On privilégie les variables au lieu des individus. Interstructure: étude globale des variables Compromis: moyenne pondérée des V t Intrastructure: compromis des variables Trajectoires de variables 27