Analyse multidimensionnelle de données longitudinales



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Individus et informations supplémentaires

Introduction. Préambule. Le contexte

Analyse des correspondances avec colonne de référence

Chapitre 2 : Caractéristiques du mouvement d un solide

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Cours d Analyse. Fonctions de plusieurs variables

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Majeurs et mineurs mis en cause par les services de Police en 2013

L'analyse des données à l usage des non mathématiciens

ACP Voitures 1- Méthode

F411 - Courbes Paramétrées, Polaires

Agrégation des portefeuilles de contrats d assurance vie

Introduction à l approche bootstrap

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Relation entre deux variables : estimation de la corrélation linéaire

Modèles pour données répétées

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Chapitre 3. Les distributions à deux variables

Data mining 1. Exploration Statistique

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Introduction à la Visualisation Scientifique

Calcul intégral élémentaire en plusieurs variables

23. Interprétation clinique des mesures de l effet traitement

Traits biologiques : variables ou K-tableaux?

Statistiques Descriptives à une dimension

Michel Henry Nicolas Delorme

Avant-après, amont-aval : les couples de tableaux totalement appariés

Introduction au Data-Mining

(51) Int Cl.: B23P 19/00 ( ) B23P 19/04 ( ) F01L 1/053 ( )

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FORMULAIRE DE STATISTIQUES

Cours 02 : Problème général de la programmation linéaire

Chapitre 0 Introduction à la cinématique

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistique Descriptive Élémentaire

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

TS Physique Satellite à la recherche de sa planète Exercice résolu

Repérage d un point - Vitesse et

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours de méthodes de scoring

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

TP 7 : oscillateur de torsion

DYNAMIQUE DE FORMATION DES ÉTOILES

Fonctions de plusieurs variables. Sébastien Tordeux

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Calcul différentiel sur R n Première partie

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

Fonctions de plusieurs variables

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Théorie et codage de l information

Cours de Mécanique du point matériel

Mémo d utilisation de ADE-4

Gestion obligataire passive

Quelques éléments de statistique multidimensionnelle

Structure du format BMP, sa lecture, sa construction et son écriture

Localisation des fonctions

PARTIE NUMERIQUE (18 points)

MATHS FINANCIERES. Projet OMEGA

Séries Statistiques Simples

LES LOIS PHYSIQUES APPLIQUÉES AUX DEUX-ROUES : 1. LA FORCE DE GUIDAGE

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

Oscillations libres des systèmes à deux degrés de liberté

Initiation à l analyse en composantes principales

CCP PSI Mathématiques 1 : un corrigé

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

LES DÉTERMINANTS DE MATRICES

Introduction à MATLAB R

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Introduction au datamining

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

Optimisation, traitement d image et éclipse de Soleil

Différentiabilité ; Fonctions de plusieurs variables réelles

INF6304 Interfaces Intelligentes

Logiciel XLSTAT version rue Damrémont PARIS

Texte Agrégation limitée par diffusion interne

Cours 9 : Plans à plusieurs facteurs

Activité 11 : Nuage de points ou diagramme de dispersion

Plan du cours Cours théoriques. 29 septembre 2014

3 Approximation de solutions d équations

Transcription:

Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle DACP, STATIS, TUCKER, PARAFAC Méthodes secondaires Dual, SCA Typlogies de trajectoires 1

Introduction Données longitudinales multidimensionnelles Méthodes exploratoires simples ( cf cours 1) Indispensables mais insuffisantes pour l étude des liaisons entre les variables Besoin de méthodes multidimensionnelles Etude des méthodes descriptives à trois voies utilisant le temps dans l interprétation Introduction Rappel: Données longitudinales: mesures répétées dans le temps, tableau à 3 entrées 2

Terminologie - Notations Tableau à trois dimensions X x ijt, i=1,, N; j= 1,, p, t=1,t i pour les individus en lignes j pour les variables en colonnes t pour les instants (temps) de mesure en profondeur Ensemble de matrices : tranches horizontales Xi, tranches latérales Xj, tranches frontales Xt Ensemble de vecteurs: fibres lignes xit, colonnes xjt, tubes xij Méthodes multidimensionnelles 3

Introduction Cadre général: méthodes d analyse simultanée de plusieurs tableaux de données Diverses situations: pt variables mesurées sur nt individus à différentes dates: données évolutives pt variables mesurées sur nt individus à différentes occasions (non temporel) Plusieurs tableaux de contingence ou de proximités Ici : données quantitatives individus-variables 4

Introduction Plusieurs méthodes: DACP STATIS, STATIS DUALE AFM PARAFAC, TUCKER 2. La double ACP (Bouroche,J.M., 1975) ACP n 1: nuage des centres de gravité g t comme étude de l interstructure Recherche de l intrastructure ACP de chaque tableau: T systèmes d axes Système d axes compromis maximise l inertie de la somme des projections de chaque nuage = somme des inerties après centrage 5

double ACP (suite) Axes compromis : vecteurs propres de ACP n 2: ACP de la concaténation verticale (superposition) des X t centrés T Vt t= 1 X 1 X 2 X T double ACP: exemple Crimes et délits en 9 catégories pour l ensemble des départements métropolitains, par année de 1974 à 1993 VO : vols et recels FX :faux et escroqueries DF: délits financiers CH: chèques sans provisions CR: coups, réglements de comptes, traumatismes ST: stupéfiants DD: destructions et dégradations ET : délits à la police des étrangers DV : divers 6

7

8

9

10

Méthodes STATIS Structuration de Tableaux A Trois Indices de la Statistique (Escoufier et L Hermier des plantes (1976) + C.Lavit) permet l exploration simultanée de plusieurs tableaux de données quantitatives: n individus et pt var différentes STATIS Privilégie la position des individus 11

Méthodes STATIS Remarque p var et nt individus différents STATIS DUALE Privilégie les relations entre variables Remarque: données longitudinales : mêmes individus mêmes variables possible application des deux méthodes et DACP L approche de la méthode: Etude classique d un tableau: l analyse factorielle associe au tableau un ensemble de représentation graphiques (cercle de corrélations, plans factoriels) Plusieurs tableaux: études séparées trop de représentations indépendantes, pas pertinent; d où: Recherche d une unique représentation, un résumé global, un compromis des tableaux 12

Méthode STATIS Idée essentielle de la méthode: recherche d une réponse à la question: les distances entre individus sont elles stables d un tableaux à un autre? Nécessité de trouver une structure commune aux études appelée intrastructure 4 étapes: Interstructure : étude globale des différences entre tableaux Compromis : résumer les tableaux en un seul représentatif selon certains critères Intrastructure : étude fine des différences entre tableaux Trajectoires : évolution des individus ou variables suivant les tableaux 13

Notations On dispose de N tableaux Xt à p variables quantitatives décrivant les mêmes n individus X 1 X X L X 2 X X L X M M M O M n X X K X 11 21 P1 12 22 P 2 = t 1n 2n Pn Interstructure : analyse globale ACP particulière: 3 phases Définir un objet représentatif Définir une métrique pour distances entre objets Trouver une image des objets représentatifs 14

Interstructure objet représentatif Wt W t = X t M t X t caractérise (X t, M t, D) Wt contient les produits scalaires entre individus = tous les liens inter individus Individu de l ACP = objet représentatif d un tableau X t, et on lui associe un poids π t Métrique pour distances entre objets Métrique de l ACP: définir une distance entre objets Produit scalaire de Hilbert Schmidt: ( ) S = W W =Tr DW DW tt ' t t' HS t t' Si les objets Wt ont des normes très différentes: ( ) ( ) ( ) 2 2 W W = Tr DW DW / Tr[ DW ] Tr[ DW ] t t ' HS t t ' t t ' 15

Rappels ACP ACP classique : triplet (X, M, D) facteurs principaux : MVu = λu = (1) composantes principales : c = Xu MX DXu= λu XMX DXu= λxu X* (1) WDc= λc W =matrice des produits scalaires entre individus Composantes principales WDc = λc Métrique pour distances entre objets On définit la matrice S qui contient les coefficients RV π 0 1 On associe à chaque tableau un poids: = O 0 π N Comme en ACP on peut construire une image représentative des objets Remarque: S a tous ses termes positifs, on aura un facteur taille 16

Image représentative des objets Rappel : STATIS = ACP particulière : Individu = W t = objet représentatif d un tableau Tableau de données = S = Matrice des coefficients RV (produits scalaires entre objets W t ) et poids Composante principale = vecteur propre de S Image représentative des objets ACP de S Les vecteurs propres de S associés aux deux plus grandes valeurs propres permettent la représentation des objets W 1,, W N sur le 1er plan factoriel : Les coordonnées des W t sur l axe i sont contenues dans c t,i : c = λ u t, i i i i ème valeurpropre de S i ème vecteur propre de S 17

STATIS - Résumé Interstructure Exemple 1: 1er tour présidentielle 18

19

Compromis-Intrastructure Interstructure = analyse globale mise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer. Objectif de la suite = analyse plus fine pour expliquer Deux étapes: * recherche d un point de repère= compromis * étude de l intrastructure Recherche d un compromis Compromis = bon resumé, de même nature que les objets solution: Wco moyenne pondérée desw t Les coefficients étant tels que Wco soit le plus corrélé avec les W t 20

Recherche d un compromis Matrice Compromis W CO α = t 1 π λ 1 ( ) u t t 1 t ième élément du 1 er vecteur propre de S W N W CO = αt t t= 1 1 ère valeur propre de S Matrice de données W = X MX initiales t t t Recherche d un compromis Représentation et Interprétation tation 4 cas: * Wt ont des normes voisines et des grands RV: existence d une structure commune bien décrite par le compromis * un WtW différent des autres: il intervient peu dans la construction du compromis, robuste * Wt normes trop différentes rentes: il faut normer * Wt très différents rents,, RV faibles: : pas de structure commune 21

Intrastructure image représentative des points compromis ACP de W CO D Les vecteurs propres de W CO D associés aux deux plus grandes valeurs propres fournissent une image euclidienne des points compromis Les coordonnées compromis sur l axe i sont contenues dans le vecteur c CO,i : i ème valeur propre de W CO D 1 c = δ v = W Dv δ CO, i i i co i i i ème vecteur propre de W CO D STATIS - Intrastructure 22

Intrastructure : corrélation variablescompromis Chaque composante principale du compromis est un vecteur à n dimension, n étant le nombre d individus des tableaux initiaux. Calcul de leurs corrélations avec les variables initiales des tableaux Xt Représentation des cercles de corrélation Interprétation des axes pour expliquer les positions compromis STA112 des mars individus 2012 23

Wco est encore un opérateur d Escoufier car les α j sont non négatifs Wco est donc associé à un tableau de données compromis X tel que Wco=XMX ACP de X = α X α X α X 1 1 2 2... T T Pondération des tableaux 24

STATIS - Trajectoires des individus Méthode: technique des points supplémentaires Représentation sur l image euclidienne compromis des N nuages des individus c = 1 W Dv CO t, i t i δ i Remarque : c CO,i est le centre de gravité des points c CO t,i STATIS - Trajectoires des individus Objectif : Mise en évidence des écarts entre les W t et avec le compromis au niveau individuel Détection des individus responsables des écarts entre tableaux Définition : On place les différentes positions d un individu tel qu il est décrit par chaque étude. Ces différentes positions définissent sa trajectoire 25

Interprétation des trajectoires Deux classes de trajectoires des individus : Peu étendue autour de sa position compromis = individus dont l évolution suit l évolution moyenne, écart par rapport à la moyenne régulier d un tableau à l autre Trajectoire de grande amplitude = changement de structure suivant les tableaux, différence avec l évolution moyenne Rque: si les axes du compromis sont bien corrélés avec les variables on pourra expliquer les axes par les variables et on interprètera de façon détaillée les trajectoires des individus 26

STATIS DUALE Même démarche que STATIS en prenant comme matrice représentant un tableau, V t la matrice de covariance des variables à la place des W t. On privilégie les variables au lieu des individus. Interstructure: étude globale des variables Compromis: moyenne pondérée des V t Intrastructure: compromis des variables Trajectoires de variables 27