Extraction d informations stratégiques par Analyse en Composantes Principales



Documents pareils
Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Analyse en Composantes Principales

L'analyse des données à l usage des non mathématiciens

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

1 Complément sur la projection du nuage des individus

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

données en connaissance et en actions?

Introduction à la B.I. Avec SQL Server 2008

La classification automatique de données quantitatives

Logiciel XLSTAT version rue Damrémont PARIS

Localisation des fonctions

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Business Intelligence

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Introduction. Préambule. Le contexte

INTRODUCTION AU DATA MINING

Statistique : Résumé de cours et méthodes

Statistique Descriptive Élémentaire

Entrepôt de données 1. Introduction

Utiliser Access ou Excel pour gérer vos données

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Annexe commune aux séries ES, L et S : boîtes et quantiles

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

BIRT (Business Intelligence and Reporting Tools)

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Relation entre deux variables : estimation de la corrélation linéaire

Apprentissage Automatique

SPHINX Logiciel de dépouillement d enquêtes


SUGARCRM MODULE RAPPORTS

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

A. Le contrôle continu

THOT - Extraction de données et de schémas d un SGBD

M6 MOMENT CINÉTIQUE D UN POINT MATÉRIEL

Traitement des données avec Microsoft EXCEL 2010

Exercice : la frontière des portefeuilles optimaux sans actif certain

Infolettre #18 : Les graphiques avec Excel 2010

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La visualisation de données relationnelles au service de la recherche d informations

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

SAP BusinessObjects Web Intelligence (WebI) BI 4

Travaux pratiques avec RapidMiner

GMEC1311 Dessin d ingénierie. Chapitre 1: Introduction

Opérations de base sur ImageJ

Pentaho Business Analytics Intégrer > Explorer > Prévoir

TRAVAUX DE RECHERCHE DANS LE

Mémo d utilisation de ADE-4

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

L inégale répartition de l énergie solaire est à l origine des courants atmosphériques

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Cycle de formation certifiante Sphinx

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Avant-après, amont-aval : les couples de tableaux totalement appariés

Business & High Technology

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Introduction au datamining

Cours de Mécanique du point matériel

Presse Plieuse Synchronisée. Gamme PSN SPECIFICATIONS TECHNIQUES PRESSE PLIEUSE. Gamme PSN

Exemple d application en CFD : Coefficient de traînée d un cylindre

Individus et informations supplémentaires

1 La visualisation des logs au CNES

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

C.F.A.O. : Conception et Fabrication Assistées par Ordinateur.

EXCEL et base de données

Les mesures à l'inclinomètre

TangibleData. Manipulation tangible et multitouch de bases de données

Business Intelligence avec Excel, Power BI et Office 365

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Fonctions de plusieurs variables

Emmanuel CROMBEZ 30 mai 2015

Présentation du logiciel

PRIMAVERA RISK ANALYSIS

Création de mises en plan

Saisie de la déclaration de cotisations FSPOEIE

Installation de CPA STUDIO :

Manuel de formation Spaceman 1 ère journée

QU EST-CE QUE LE DECISIONNEL?

BASE DE DONNÉES D'ASSISTANCE AU DÉVELOPPEMENT POUR LA MAURITANIE (DAD MAURITANIE)

Classe de première L

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

GÉRER La force de l image. Business Intelligence

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

Introduction à l approche bootstrap

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Initiation à l analyse en composantes principales

Aide-mémoire de statistique appliquée à la biologie

Formation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées

Transcription:

Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction A la fin des années 60, ces méthodes ont été largement diffusées par l école française d analyse de données et notamment par J-P Benzécri pour analyser aussi bien des données factuelles que textuelles dans un cadre débordant largement du domaine scientifique et technique. Le but poursuivi était de simplifier l espace informationnel afin d en déduire une représentation graphique aussi fidèle que possible et compréhensible de façon intuitive. Notre contribution a essentiellement porté sur les points suivants : Pouvoir juger graphiquement de la qualité de l analyse (nombre d axes à prendre en compte, étude de la distribution des données et de leurs corrélations), Proposer des cartes classiques en 2D avec les principales projections, Proposer des cartes en 3D puis en 4D (par l utilisation de niveaux de gris), qui permettent de visualiser un part nettement plus importante de l information, Rendre ces cartes interactives (rotations, zooms, sélections, éditions, ), Gérer la coopération de ces cartes avec les autres méthodes via le réseau, Animer ces cartes afin d en déceler visuellement les caractéristiques essentielles, Permettre le choix des axes et introduire la notion de glissement d axes, Permettre la sélection d items et des documents qui leurs sont attachés (recherche d information ciblée), Pouvoir extraire des éléments ou des groupes remarquables (connecteurs, classes, signaux émergents, ), Proposer des cartes dynamiques permettant de visualiser l évolution sous forme de trajectoires, Permettre de visualiser l évolution relative (occurrences anormales). 2 Analyse en composantes principales (ACP) Elle s applique aux données quantitatives et éventuellement aux matrices issues du qualitatif comme celles de contingence et de cooccurrence (notamment dans le cas de l analyse relationnelle entre acteurs). Le nuage des individus (lignes) est représenté dans l espace des variables (colonnes). Le but est de trouver le meilleur modèle réduit à n variables synthétiques qui représente au mieux l ensemble des informations de la matrice. Une fois générée la matrice de variance covariance entre les variables initiales il suffit de rechercher les vecteurs propres associés aux valeurs propres de plus forts modules de cette matrice pour déterminer les composantes principales de ce modèle optimal. La première composante représente en fait l axe de rotation autour duquel le nuage de points a la plus faible inertie, donc celui qui explique le mieux la dispersion des individus. En étendant cette démarche au sous espace orthogonal, on trouve la seconde composante et ainsi de suite.

Dans l histogramme ci-dessous, généré après chaque ACP, nous pouvons constater la décroissance des modules des valeurs propres ainsi que l augmentation du taux d information visualisée en fonction du nombre de composantes prises en compte. Figure 1. : Valeurs propres triées et taux d information en fonction du nombre de composantes. Le module d une valeur propre rapporté à la somme des modules représente, en fait, la part d information portée par la composante qui lui est associée, la somme des modules des premières valeurs propres détermine donc le taux d information visualisé dans une carte factorielle. Ainsi, pour une vue 4D, le taux d information manipulé sera égal au rapport de la somme des 4 premiers modules à la somme totale. C est bien entendu mieux qu en 2 ou 3D. L histogramme précédent permet de savoir jusqu où aller dans l analyse descendante (vers les composantes secondaires), afin de parcourir la majeure partie de l information disponible. L ensemble des individus projetés dans ce sous espace particulier génère un nuage dont il faut étudier la distribution. Pour cela, une première carte factorielle est proposée, elle est basée sur les coordonnées des individus dans l espace ordonné des nouvelles variables (composantes principales). Pour pouvoir expliquer certains phénomènes observés, il est possible de générer parallèlement, dans une seconde carte, le cercle (sphère en 3D et hyper sphère en 4D) des corrélations des anciennes variables par rapport aux nouvelles. Comme dans un cas il s agit de coordonnées et dans l autre de corrélations, les deux cartes obtenues ne sont pas superposables, mais une comparaison sous le même azimut de visualisation permet de déduire les causalités des ressemblances ou des dissemblances constatées. Les quatre fonctions d exploration suivantes ont été implémentées dans Tétralogie au niveau des cartes en 4D : Rotations dans les plans de l espace 4D définis par les axes : 1 et 2 (plan de l écran), 1 et 3 (plan horizontal orthogonal à l écran), 2 et 3 (plan vertical orthogonal à l écran) comme en 3D, 1 et 4 (axe horizontal et niveaux de gris), 2 et 4 (axe vertical et niveaux de gris) 3 et 4 (axe orthogonal à l écran et niveaux de gris) spécifiques au 4D. Glissement d axes : {1, 2, 3, 4} => {2, 3, 4, 5} {2, 3, 4, 5} => {3, 4, 5, 6} etc Sélection interactive des axes à visualisés : {2, 4, 5, 8} par exemple. Zooms : avant (volontairement limité) lié au rayon perçu du nuage, arrière (sans limite). Ces modifications de l azimut de visualisation sont exportables d une carte à l autre et d un ordinateur connecté au réseau à l autre. Elles sont un des éléments essentiels de notre processus de découverte de connaissance aussi bien individuel que collectif. Tutorial 3 VSST 2006 Page 2 08/01/2006

Ci-dessous, deux cartes synchrones dans lesquelles les individus sont les documents et les variables les auteurs qui les ont signés : Documents Figure 2. : Carte 4D des coordonnées des documents dans l espace des auteurs. Auteurs des documents Figure 3. : Hyper sphère 4D des corrélations des auteurs. Tutorial 3 VSST 2006 Page 3 08/01/2006

A remarquer, qu il est facile de mettre en relation les documents et les auteurs (ou les équipes) qui les ont signés, car les deux cartes sont présentées sous le même azimut et les éléments liés se trouvent donc exactement dans le même secteur. Dans l exemple ci-dessus, les deux documents en bas à droite (Figure 63 : carte des coordonnées des documents dans l espace des auteurs) sont liés aux trois auteurs présents dans la même zone du cercle (hyper sphère) des corrélations (figure 64). Mais dans la majorité des cas, cette méthode de base n est pas parfaitement adaptée à notre problématique qui manipule plus volontiers des variables essentiellement qualitatives. En effet, elle privilégie trop les signaux forts et ne permet donc pas le mise en évidence des signaux faible, des émergences et de certaines nuances qui sont, bien entendu, les éléments recherchés par tout processus de veille. 3 Analyse en composantes principales réduite (ACPr) Comme la nature et la dispersion des variables sont parfois très hétérogènes, une normalisation de celles-ci est alors nécessaire pour obtenir des cartes lisibles et sur lesquelles les variables ont toutes des rôles similaires. Les variables sont alors réduites par normalisation (division par la norme de chaque vecteur colonne), ce qui a tendance à arrondir le nuage et donc à générer des valeurs propres de plus faibles modules. La matrice à diagonaliser est alors celle des corrélations (diagonale unitaire) et non plus la matrice de variance-covariance. Ci-dessous, l observatoire d une ACP réduite appliquée à une structure de recherche croisant l ensemble des auteurs d une équipe avec ses auteurs principaux: Figure 4. : Observatoire de la qualité d une analyse multidimensionnelle. Dans cet observatoire de la qualité d une analyse multidimensionnelle nous trouverons les éléments suivants : l histogramme des modules des valeurs propres trié par ordre décroissant superposé à celui rapporté à la plus forte d entre elles, l histogramme des cumuls de ces modules rapporté à leur somme globale et exprimant le taux d information porté par les n premiers axes principaux, la répartition de la densité relative (taux de valeurs nulles) des individus en fonction du plus dense d entre eux, la répartition de la densité relative des variables en fonction de la plus dense, la répartition des corrélations entre les lignes (matrices de contingence ou de cooccurrence), la répartition des corrélations entre variables. Cet observatoire de la qualité d une analyse, va nous permettre de déterminer très rapidement : la profondeur de l analyse : nombre de composantes à prendre en compte pour atteindre un taux d information supérieur à 80% ou 90%, Tutorial 3 VSST 2006 Page 4 08/01/2006

donc le type de carte factorielle à utiliser : 2D, 3D, 4D, 4D en utilisant la fonction de glissement d axes, le degré d hétérogénéité des individus et des variables (par densité relative) donc la distribution de la population analysée, le nombre de classes de densité (ici 3 pour les individus et une seule pour les variables), les fortes corrélations positives ou négatives qui signalent la présence de liens remarquables ou d exclusions qu il va falloir détecter et expliquer (ici corrélations à 0,8-0,7 puis 0,5 pour les individus et à 0,7 pour les variables), la présence éventuelle de plusieurs valeurs propres de module maximum qui nous indiquerait que la matrice n est pas connexe et qu il faut donc analyser séparément chacune de ses classes connexes. Dans la carte factorielle correspondante que nous présentons ci-dessous, nous distinguons plusieurs équipes dont les caractéristiques sont les suivantes : les leaders se trouvent implantés vers l extérieur (Asther, Colonna, Thibault), car la réduction des variables ne change pas la nature quantitative de l analyse, les collaborateurs sont plus centrés (moins de publications), mais ont la même orientation que le ou les leaders de leur équipe, les liens entre équipes s effectuent par l intermédiaire d auteurs ayant une position médiane (Lesage, Buléon), la taille et la coloration interne des icônes permettent de mieux différencier les classes. Figure 5. : Carte factorielle des coordonnées des individus d une ACPr. 4 Conclusion Cette méthode d analyse des matrices de cooccurrence est essentiellement utile pour les croisements entre acteurs. Elle privilégie les signaux forts. Les leaders se trouvent à l extérieur du nuage les connecteurs entre deux groupes. Dans les autres cas (matrices asymétriques), son principal inconvénient est lié à la nécessité d utiliser deux cartes aux métriques différentes, elle est donc réservée aux spécialistes de l analyse de données. Tutorial 3 VSST 2006 Page 5 08/01/2006