Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com



Documents pareils
Introduction. Préambule. Le contexte

La classification automatique de données quantitatives

1 - PRESENTATION GENERALE...

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Introduction au datamining

Quelques éléments de statistique multidimensionnelle

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Introduction au Data-Mining

Extraction d informations stratégiques par Analyse en Composantes Principales

Entrepôt de données 1. Introduction

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Logiciel XLSTAT version rue Damrémont PARIS

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

SIG ET ANALYSE EXPLORATOIRE

1. Les types d enquêtes

Analyse tarifaire en ligne (TAO) de l'omc

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Chapitre 3. Les distributions à deux variables

1. Vocabulaire : Introduction au tableau élémentaire

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

Introduction au Data-Mining

Introduction à Business Objects. J. Akoka I. Wattiau

Traitement des données avec Microsoft EXCEL 2010

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Rapport d'analyse des besoins

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Introduction : présentation de la Business Intelligence

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Annexe sur la maîtrise de la qualité

Chapitre 1 : Introduction aux bases de données

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Cycle de formation certifiante Sphinx

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Analyse hiérarchique de tâches (AHT)

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Utiliser Access ou Excel pour gérer vos données

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

SPHINX Logiciel de dépouillement d enquêtes

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

2 Grad Info Soir Langage C++ Juin Projet BANQUE

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

NOTIONS DE PROBABILITÉS

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

REVUE DE STATISTIQUE APPLIQUÉE

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

données en connaissance et en actions?

OBJET : Utilisation des données contenues dans les annuaires téléphoniques.

Les tableaux croisés dynamiques

Traitement numérique de l'image. Raphaël Isdant

Les clients puissance cube

Mémo d'utilisation de BD Dico1.6

Université de Bangui. Modélisons en UML

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

INF6304 Interfaces Intelligentes

Contenu attendu des guides nationaux de bonnes pratiques d hygiène GBPH

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Aider à la décision. - La matrice d Eisenhower - Le diagramme de Pareto - Les arbres d objectifs - Le diagramme d affinités - La méthode Philips 6.

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Localisation des fonctions

Les bases de données Page 1 / 8

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

LibreOffice Calc : introduction aux tableaux croisés dynamiques

2. Activités et Modèles de développement en Génie Logiciel

Evaluation de la variabilité d'un système de mesure

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Fiche conseil n 16 Audit

Travaux pratiques avec RapidMiner

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

SAP BusinessObjects Web Intelligence (WebI) BI 4

Systèmes de transport public guidés urbains de personnes

Communiqué de Lancement

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Protection sociale complémentaire : les dispenses d'affiliation de vos salariés (retraite, prévoyance, mutuelle)

Associations Dossiers pratiques

ORACLE TUNING PACK 11G

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Introduction à la B.I. Avec SQL Server 2008

Annexe A de la norme 110

SERIE 1 Statistique descriptive - Graphiques

INTRODUCTION AU DATA MINING

Transcription:

Le contexte méthodologique Les techniques descriptives multidimensionnelles et techniques de Data mining (mises en œuvre par exemple dans le logiciel SPAD que nous avons développé au sein de la société CISIA) sont exécutées dans le cadre d'enchaînements de procédures de visualisation et de synthèse utilisant leurs complémentarités, et filtrant la complexité et la redondance des données brutes. Ces méthodes sont présentées en détail dans les ouvrages "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis"(Lebart, Morineau, Warwick) est une documentation en anglais comportant des exemples d'application et incluant la description des techniques. Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs: la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d'effectuer des opérations algorithmiques complexes, le désir de s'affranchir des hypothèses techniques rarement réalistes. Ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Les techniques factorielles Il est toujours possible de calculer des distances entre les lignes et les colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon immédiate: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est là l'une des tâches dévolues à l'analyse factorielle au sens large: opérer une réduction de dimension de certaines représentations "multidimensionnelles". Techniquement, les techniques factorielles reposent toutes sur une propriété mathématique des tableaux (ou matrices) rectangulaires: la décomposition aux valeurs singulières (décomposition d' Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables Alain Morineau Page 1 DeeNov

(colonnes). Cette "restitution des individus à la statistique" (travaux de Jean-Paul Benzécri) induit une attitude nouvelle vis-à-vis des traitements statistiques. L'analyse en composantes principales Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales n'est vraiment utilisée que depuis l avènement de micros-ordinateurs. Elle s'applique aux tableaux de type "variables-individus" dont les colonnes représentent des variables à valeurs numériques, et les lignes des individus, des observations, des objets, etc. Les proximités entre variables s'interprètent en termes de corrélation, les proximités entre individus s'interprétent en termes de similitudes globales des valeurs centrées réduites correspondantes. L'analyse en composantes principales peut donner lieu à de nombreuses variantes: elle peut s'appliquer à des rangs (diagonalisation de la matrice de corrélation des rangs de Spearman), elle peut s'appliquer après l'élimination de l'effet de certaines variables (analyse locale ou partielle). Elle peut donner lieu à la projection de variables supplémentaires (numériques ou nominales) sur les plans factoriels. Ainsi, sur une typologie de 1000 consommateurs (chacun ayant été décrit par 12 variables numériques) on peut faire apparaître les caractéristiques des personnes concernées: sexe, catégorie sicioprofessionnelle, nombre d enfants, mode d habitat, etc. Les applications de cette technique aux études marketing ont été spectaculaires. L'analyse des correspondances Cette technique, présentée sous ce nom et de façon systématique par J.P. Benzécri, a un certain nombre de précurseurs, parmi lesquels il faut citer L. Guttman et C. Hayashi. Elle s'applique aux tables de contingences ou à certains tableaux binaires (formés de 0 et de 1). Elle fournit des représentations des associations entre lignes et colonnes de ces tableaux fondées sur une distance entre profils (vecteurs de fréquences conditionnelles) désignée sous le nom de distance du Khi-2. L'analyse des correspondances multiples. L'analyse des correspondances multiples fait l'objet d'une mention particulière en raison de l'étendue de son champ d'application. Elle permet de décrire de vastes tableaux binaires, dont les fichiers d'enquêtes socio-économiques constituent un exemple privilégié: les lignes de ces tableaux sont en général des individus ou observations (plusieurs milliers) ; les colonnes sont des modalités de variables nominales, le plus souvent des modalités de réponses à des questions. Il s'agit en fait d'une extension du domaine d'application de l'analyse des correspondances, avec cependant des procédures de calcul et des règles d'interprétation spécifiques. Cette extension se fonde sur la remarque suivante. On dispose pour k individus des valeurs prises par deux variables nominales ayant respectivement n et p modalités. Il est alors équivalent de soumettre à l'analyse des correspondances la table de contingence (n,p) croisant les deux variables, ou d'analyser le tableau binaire, codé 0 et 1, à k lignes et (n+p) colonnes qui décrit les réponses. L'analyse Alain Morineau Page 2 DeeNov

de ce dernier tableau paraît plus coûteuse mais elle est plus intéressante car elle se généralise immédiatement au cas de plus de deux variables. Les techniques de classification Il s agit ici de faire des groupements d'éléments (en général, les lignes d'un tableau), les moins arbitraires possibles, à partir de leurs vecteurs de description. (les colonnes du tableau). Notons qu une classification peut se faire directement à partir de distances entre couples d'éléments, mais il s'agit là d'un type de données moins fréquent. Ces groupements peuvent se faire par agglomération progressive des éléments deux à deux (comme cela se fait en classification hiérarchique), ou par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes (méthode itérative des centres mobiles, ou méthode "k-means"). Il est possible aussi de combiner les deux types d agorithmes de façon à profiter des avantages de chacun. L algorithme mixte ainsi obtenu permet de traiter de gros ensembles de données de façon efficace. Il procède en quatre étapes: 1) Partitionnement initial en quelques dizaines ou centaines de classes (par une technique du type centres mobiles). 2) Agrégation des classes obtenues L'agrégation hiérarchique est assez coûteuse si elle s'applique à des milliers d'individus, mais on réduit le volume des calculs en construisant l arbre hiérarchique sur les regroupements préalables de l étape 1. 3) Choix du nombre de classes par coupure de l'arbre (en général après une inspection visuelle) et optimisation de la partition obtenue par réaffectations (de type centres mobiles). 4) Caractérisation statistique des classes Une fois les individus regroupés en classes, il est facile d'obtenir une description statistique de ces classes: on peut en effet, pour les variables numériques comme pour les variables nominales, calculer des statistiques d'écarts entre les valeurs internes à la classe et les valeurs globales; on peut également convertir ces statistiques en valeurs-tests et opérer un tri sur ces valeurs-test. On obtient finalement, pour chaque classe, les modalités et les variables les plus caractéristiques. Les classes ainsi typées constituent une typologie. Complémentarité de la Classification et des méthodes factorielles Les techniques de classification fournissent un éclairage des données différent de celui des techniques factorielles: les deux approches sont complémentaires. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections sur les plans factoriels. De plus, il est plus facile de décrire des paquets (les classes) qu'un continuum spatial (les plans factoriels) : 1) Les visualisations sont limitées à deux, ou en tout cas, à très peu de dimensions, alors que le nombre d'axes utilisables pour les calculs peut atteindre plusieurs dizaines, voir centaines. 2) Les visualisations peuvent inclure des milliers de points et donc founir des graphiques illisibles. Alain Morineau Page 3 DeeNov

L'utilisation conjointe de la classification automatique et des analyses factorielles permet de remédier à ces difficultés. Lorsqu'il y a trop de points sur un graphique, il est opportun de les regrouper en classes homogènes. Que les éléments soient situés dans un espace à deux ou à cent dimensions, les algorithmes utilisés pour ces regroupements fonctionnent de la même façon.. Autrement dit, l'opération de regroupement présente un double intérêt: allégement des sorties graphiques d'une part, prise en compte de la dimension réelle du nuage de points d'autre part. La notion de classe est intuitive (groupes d'individus les plus semblables possibles). La description des classes fait appel à la lecture de libellés rangés par ordre d intérêt. Les descriptions sont donc faciles à lire (le rangement par ordre d intérêt est fondé sur des comparaisons de pourcentages). Mais ce sont les méthodes factorielles qui permettent de visualiser les positions relatives des classes dans l'espace, et aussi de mettre en évidence certaines variations continues ou certaines dérives dans cet espace (phénomènes qui auraient pu être masqués par la discontinuité des classes). Les deux techniques sont donc complémentaires, et se valident mutuellement. Variables actives et illustratives L'analyse des correspondances et l'analyse en composantes principales, permettent de trouver de bons sous-espaces pour représenter des proximités entre profils ou entre vecteurs de description d'observations. De plus ces analyses permettent de positionner des lignes ou des colonnes supplémentaires du tableau dans ces sous-espaces. On peut ainsi illustrer les plans factoriels par des informations n'ayant pas participé à la construction de ces plans, opération qui va avoir des conséquences très importantes au niveau de l'interprétation des résultats. Les éléments ou variables servant à calculer les plans factoriels sont appelés éléments actifs ou variables actives: ils doivent former un ensemble homogène pour que les distances entre individus ou observations s'interprètent facilement. Ils sont en général relatifs à un même thème ou point-de-vue. Cette dichotomie entre variables actives et variables illustratives est fondamentale. Elle est du même ordre que la distinction que l'on établit entre variables endogènes (variable y à expliquer) et exogènes (variables x explicatives) dans les modèles de régression multiple. D'un point de vue géométrique, les deux situations sont d'ailleurs très similaires. Les variables exogènes engendrent un sous-espace sur lequel seront projetées les variables endogènes. De façon analogue, les variables actives engendrent un sous-espace que l'on va réduire pour le visualiser. C'est sur cet espace réduit que l'on va projeter les variables illustratives. Alain Morineau Page 4 DeeNov

Le thèmascope L'enchaînement classique de méthodes que l'on peut désigner sous le nom de thèmascope comprend les étapes suivantes : 1) Choix d'un thème, c'est-à-dire d'une batterie homogène d'éléments actifs. Ce thème définira un point de vue particulier pour la description. On peut décrire les individus du point de vue de leurs caractéristiques de base, mais aussi à partir d'un thème particulier: habitudes de consommation, opinions politiques, etc... 2) Etablissement d'une cartographie des observations à partir des variables actives (analyse des correspondances simples ou multiples, ou analyse en composantes principales, selon la nature des éléments actifs). 3) Positionnement des éléments illustratifs. On projettera toute l'information disponible susceptible d'aider à comprendre ou à interpréter la cartographie produte par les éléments actifs. En fait, la sélection des variables supplémentaires ayant des coordonnées significatives sur les axes factoriels peut se faire de façon automatique, ce qui permet d'envisager des explorations systématiques, avec de nombreux croisements de variables. 4) Partition de l'ensemble des observations, en utilisant par exemple la procédure mixte décrite plus haut. 5) Positionnement sur les graphiques précédents des centres des classes (une partition définit en fait une variable nominale particulière). Ces modalités peuvent elles aussi être projetées en éléments illustratifs sur les plans factoriels. 6) Description systématique des classes par les modalités et les variables les plus caractéristiques. En somme, cet enchaînement décrit un thème (multidimensionnel par nature) par la conjonction des deux techniques disponibles: réduction de dimension d'une part, regroupement d'autre part. Il plonge ce thème dans le contexte général de l étude, grâce aux deux techniques de projection de variables illustratives et de description automatique des classes. La sélection des éléments les plus significatifs sur les plans factoriels et lors de la description des classes, est faite automatiquement (elle est pilotée par des seuils de type statistque). Les éléments sélectionnés peuvent être décrits par des libellés explicites. Le lecteur dispose donc d'une information filtrée et parfaitement lisible. Alain Morineau Page 5 DeeNov

Le «Thèmascope» Les procédures préconisées pour traiter l'information issue des grands tableaux sont de type exploratoire (elles ne présupposent pas de modèles a priori, ni d'hypothèses sur les distributions théoriques des quantités observées), mais font autant appel aux possibilités de gestion de l'ordinateur qu'à ses possibilités de calcul. A des opérations de réduction de l'information (analyses factorielles descriptives, classification automatique) s'ajoutent des procédures de classements systématiques, de tri, de sélection, qui contribuent à la mise en forme et à la lisibilité des résultats obtenus. Les idées générales de ces traitements exploratoires systématiques sont les suivantes : 1. L'utilisation des techniques d'analyse des données est surtout justifiée lorsque le volume des données est un obstacle à l'assimilation directe de l'information. Suivant le cas c'est le nombre d'individus statistiques (lignes du tableau) ou le nombre de variables observées (colonnes) ou les deux qui sont sources de problèmes. Dans tous les cas, un "dictionnaire" complet décrivant les libellés de chaque variable et de ses modalités est indispensable pour obtenir des listages de résultats rapidement utilisables. Ainsi, pour décrire un axe factoriel, on donnera rarement un listage exhaustif des coordonnées des modalités sur cet axe : on imprimera seulement les libellés complets des modalités occupant les positions les plus significatives. De la même façon, pour décrire une classe d'individus (fournie par un algorithme de classification automatique), on sélectionnera les variables ou les modalités les plus caractéristiques de cette classe, et l'on imprimera les libellés correspondants dans leur ordre d importance. Il sera nécessaire de disposer de telles descriptions compactes et claires des résultats pour pouvoir juger de la pertinence d'une analyse, sans avoir à déchiffrer des colonnes de valeurs numériques ou à griffonner des graphiques. 2. Il existe une dichotomie fondamentale entre éléments actifs (participant à la construction des axes et des classes) et éléments illustratifs, qui interviennent a posteriori pour caractériser ces axes ou ces classes. Une analyse exploratoire ne fournira qu'un point de vue, hypothéqué par le choix des éléments actifs (variables ou modalités). L'ensemble des éléments actifs doit être homogène, car il doit permettre de calculer des distances entre individus ou observations qui aient un sens. Dans un traitement d'enquête par exemple, il serait maladroit de mélanger des informations signalétiques (âge, sexe...) et les opinions des personnes. Comment interpréterait-on alors la proximité entre deux individus? Il est important d'obtenir une typologie des individus d'un seul point de vue, quitte ensuite à utiliser toute l'information disponible sur ces individus pour identifier et interpréter les classes obtenues. On se restreint à analyser un seul thème à chaque fois (d'où le nom de "thèmascope"). L'ensemble des éléments illustratifs n'a nul besoin d'être homogène. On a même intérêt à ce qu'il soit le plus étendu possible, car cela augmente la possibilité de découvrir la "bonne" variable ou le bon croisement de variables susceptible d'expliquer les axes ou les classes. D'où l'importance des techniques permettant de procéder à une sélection automatique et à une édition claire des éléments les plus significatifs. 3. Analyse factorielle et classification sont complémentaires. La classification permet de corriger les déformations que l'analyse factorielle fait subir aux données en les réduisant à des représentations planes ; elle permet également de disséquer l'espace en isolant des zones homogènes, et d'en faciliter ainsi la description. Il est en effet beaucoup plus facile de décrire quelques paquets d'individus plutôt qu'un continuum de points. Chaque analyse est complétée par de telles classifications, avec identification systématique des classes. Alain Morineau Page 6 DeeNov

4. Tri systématique des caractéristiques. Positionnement systématique des caractéristiques des individus Les individus-lignes du tableau sont en général "anonymes", et ne nous intéressent que par leurs caractéristiques (âge, sexe... ou tout autre attribut). Au lieu de représenter les positions des individus dans l'espace factoriel, il est donc utile de représenter les centres de gravité des groupes d'individus correspondant aux divers attributs. Il y a parfois plusieurs milliers de modalités, et il est exclu de faire une représentation graphique de l'ensemble des points correspondants. Le critère de sélection statistique des réponses significatives est la valeur-test. Les valeurs-tests pour un axe factoriel ou une variable C'est une quantité attachée (sur chaque axe factoriel) à chaque modalité de réponse. Précisons le principe de son calcul : si les individus caractérisés par une modalité sont répartis aléatoirement dans la population, leur centre de gravité sera proche de celui de l'ensemble des individus (on tient évidemment compte de l'effectif de la modalité dans ces calculs). Ce que mesure la valeur-test est précisément la distance entre les centres de gravité, distance qui est convertie en "variable normale centrée réduite". Les valeurs-tests pour une classe ou un groupe Un attribut est considéré comme caractéristique de la classe si son abondance dans la classe est jugée significativement supérieure à son abondance dans la population. L'abondance de la modalité s'apprécie en premier lieu en comparant son pourcentage dans la classe à son pourcentage dans la population. Mais cette comparaison est insuffisante: il faut aussi tenir compte du degré d'inclusion de la classe dans la modalité. Le critère "valeur-test" tient compte de tous ces éléments. Il s'agit d'un critère statistique analogue à une variable normale centrée réduite: le critère s évaluen en nombre d écarts-types d une loi normale. On peut alors trier ces valeurs-tests et n'imprimer que les plus significatives, ce qui permet de caractériser très rapidement les classes. Quelques références Benzécri J-P. (1973). L'Analyse des Données, Tome 1: La Taxinomie, Tome 2: L'Analyse des Correspondances Dunod, Paris (2de. éd. 1976). Benzécri J-P. (1992). Correspondance Analysis Handbook, Marcel Dekber, New York. Bouroche J-M., Saporta G. (1983, 2006). L'analyse des Données. P.U.F., Collection "Que sais-je", Paris. Diday E., Lemaire J., Pouget J., Tetsu C. (1983). Eléments d'analyse des Données. Dunod, Paris. Escofier B., Pagès J. (1997).Initiation aux traitements statistiques. PUR, Rennes. Jolliffe I.T.(1986), Principal Component Analysis, Springer Verlag, New York. Lebart L., Morineau A. (1987). SPAD Système Portable pour l'analyse des Données. CISIA Paris. Lebart L., Morineau A., Fénelon J-P. (1979). Traitement des Données Statistiques, Méthodes et Programmes. Dunod, Paris. Lebart L., Morineau A., Piron, M. (1984, 2006). Analyse exploratoire Multidimensionnelle. Dunod, Paris. Lebart L., Morineau A., Warwick K.W. (1984). Multivariate Descriptive Statistical Analysis, Correspondence Analysis and Related Techniques for Large Matrices. Wiley, New York. Lebart L., Salem A. (1988). Analyse Statistique des Données Textuelles. Dunod, Paris. Lerman I. C. (1981). Classification et Analyse Ordinale des Données. Dunod. Paris. Nishisato S. (1980). Analysis of Categorical Data, Dual Scaling and its Applications. Universty of Toronto Press, Toronto. Roux M. (1985). Algorithmes de Classification. Masson, Paris. Saporta G. (1990, 2006). Probabilités, Analyse des Données et Statistiques. Technip, Paris. Tenenhaus M. (2007). Statistique : méthodes pour décrire, expliquer et prévoir. Dunod, Paris.. Volle M. (1981, 1997). Analyse des Données. Economica, Paris. Alain Morineau Page 7 DeeNov