L ANALYSE DES CORRESPONDANCES MULTIPLES «À LA HOLLANDAISE» : INTRODUCTION A L ANALYSE D HOMOGENEITE

Documents pareils

Des familles de deux enfants

dénombrement, loi binomiale

Module : réponse d un système linéaire

Un modèle de composition automatique et distribuée de services web par planification

La classification automatique de données quantitatives

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).

Compression scalable d'images vidéo par ondelettes 2D+t

S2I 1. quartz circuit de commande. Figure 1. Engrenage

Accès optiques : la nouvelle montée en débit

Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France

Découvrez les bâtiments* modulaires démontables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Santé et hygiène bucco-dentaire des salariés de la RATP

Sous le feu des questions

NFE107 Urbanisation et architecture des systèmes d information. Juin «La virtualisation» CNAM Lille. Auditeur BAULE.L 1

prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1

1 Complément sur la projection du nuage des individus

TP : Outils de simulation. March 13, 2015

DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS

Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014

Commande prédictive des systèmes non linéaires dynamiques

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Manuel de l'utilisateur

Chambre Régionale de Métiers et de l Artisanat. Région Auvergne. Région Auvergne

VOIP. Pr MOUGHIT Mohamed Cours VOIP Pr MOUGHIT Mohamed 1

Extraction d informations stratégiques par Analyse en Composantes Principales

Catalogue 3 Chaine sur Mesure

Fonctions de plusieurs variables

Logiciel XLSTAT version rue Damrémont PARIS

Traitement des données avec Microsoft EXCEL 2010

.NET remoting. Plan. Principes de.net Remoting

En vue de l'obtention du. Présentée et soutenue par Philippe NERISSON Le 5 février 2009

Analyse en Composantes Principales

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Relation entre deux variables : estimation de la corrélation linéaire

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Chapitre 3. Les distributions à deux variables

INF6304 Interfaces Intelligentes

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Quantification Scalaire et Prédictive

Introduction à l approche bootstrap

Introduction à MATLAB R

Analyse de la variance Comparaison de plusieurs moyennes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Les marchés du crédit dans les PVD

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

3 Approximation de solutions d équations

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Statistiques Descriptives à une dimension

CATALOGUE 2. Chaine avec attachements

Théorèmes de Point Fixe et Applications 1

Initiation à LabView : Les exemples d applications :

Apprentissage Automatique

Vous êtes un prestataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret peut vous accompagner!

Introduction au Data-Mining

Statistique Descriptive Élémentaire

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Introduction au datamining

L'analyse des données à l usage des non mathématiciens

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Analyse des correspondances avec colonne de référence

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Programmes des classes préparatoires aux Grandes Ecoles

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

données en connaissance et en actions?

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Rappels sur les suites - Algorithme

Optimisation, traitement d image et éclipse de Soleil

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Introduction. Préambule. Le contexte

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

REVUE DE STATISTIQUE APPLIQUÉE

Cours d Analyse. Fonctions de plusieurs variables

Annexe 6. Notions d ordonnancement.

Arbres binaires de décision

Introduction au Data-Mining

IBM SPSS Direct Marketing 21

LES TYPES DE DONNÉES DU LANGAGE PASCAL

«INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION BRITANNIQUE»

Séance 0 : Linux + Octave : le compromis idéal

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Annexe commune aux séries ES, L et S : boîtes et quantiles

Projet de Traitement du Signal Segmentation d images SAR

Évaluation de la régression bornée

Transcription:

L ANALYSE DES CORRESPONDANCES MULTIPLES «À LA HOLLANDAISE» : INTRODUCTION A L ANALYSE D HOMOGENEITE Dominique Desbois INRA-SAE, UMR AgroParisTech Economie ublique- Bureau du RICA, Service Central des Enquêtes et Etudes Statistiques,, rue Henri ROL-TANGUY, TSA 70007, 93555 MONTREUIL SOUS BOIS CEDEX. Courriel :dominique.desbois@agriculture.gouv.fr - Fax : +33 49 55 85 00 RESUMÉ : L analyse des corresondances multiles est une méthode exloratoire multidimensionnelle qui fournit une rerésentation synthétique des catégories issues d une batterie de critères qualitatifs, référentiel d un rotocole d exérimentation ou d enquête. Cette note a our but d'aider les utilisateurs de SPSS dans la mise en oeuvre de l analyse des corresondances multiles au moyen de l analyse d homogénéité (rocédure HOMALS du logiciel SPSS ). Cette mise en oeuvre concerne l'analyse de tableaux de données construits à artir de variables nominales. L équivalence entre l analyse d homogénéité et l analyse des corresondances multiles est illustrée à artir d un exemle réertorié dans la littérature statistique. La note est comlétée ar un exosé algébrique consacré à l analyse d homogénéité. MOT CLEFS : Analyse des corresondances multiles, analyse d homogénéité, logiciel statistique SPSS, mise en oeuvre. MULTIPLE CORRESPONDENCE ANALYSIS À LA HOLLANDAISE : INTRODUCTION TO THE ANALYSIS OF HOMOGENEITY ABSTRACT : The multile corresondence analysis is a multidimensional exloratory method which rovides a synthetic reresentation of the categories issued from a battery of qualitative criteria, belonging to a reference frame of an exerimentation rotocol or an investigation survey. The aim of this note is to hel the SPSS users in the imlementation of the multile corresondence analysis by means of the homogeneity analysis (rocedure HOMALS in the SPSS software). Equivalence between the analysis of homogeneity and the multile corresondence analysis is illustrated on the basis of an examle excerted from the statistical literature. The note is sulemented by an algebraic addendum devoted to the homogeneity analysis. KEY WORDS: Multile corresondence analysis, homogeneity analysis, software statistical SPSS, imlementation. HOMALS [Gifi, 990] est une rocédure itérative basée sur la technique des moindres carrés alternées ermettant de réaliser une analyse d homogénéité. L une des otions articulières de cette rocédure fournit les facteurs d une analyse des corresondances multiles. L obectif de cette note est donc de résenter l analyse d homogénéité our les utilisateurs francohones de SPSS afin qu ils uissent utiliser lus aisément cette rocédure our déouiller leurs données d enquête de façon ertinente, en réalisant des analyses de corresondances multiles. L auteur remercie Gilbert Saorta our ses conseils de lecture et ses remarques critiques mais reste le seul resonsable des éventuelles omissions ou erreurs. Homogeneity Analysis by Alternating Least Squares Analyse d homogénéité ar les moindres carrés alternés. Revue MODULAD, 008-94 - Numéro 38

. L ANALYSE D HOMOGENEITE, POUR UNE REPRESENTATION OPTIMALE DES CATEGORIES. Soit un ensemble d observations décrivant des obets au moyen de catégories issues d une batterie de critères qualitatifs (variables catégorielles). L analyse d homogénéité est une technique exloratoire d analyse des données ermettant de décrire les relations existant entre deux ou lusieurs de ces variables catégorielles en fournissant une rerésentation grahique de leurs catégories, sous la forme d un nuage de oints (oints-catégories) roetés dans un sous-esace de faible dimension. Cette rerésentation grahique, effectuée dans un système d axes orthonormés aelés «dimensions» est otimale au sens où elle maximise l écart entre les ositions des différentes catégories. Dans ce sous-esace articulier, on eut également rerésenter les obets soumis à l observation (oints-obets) en liant leur rerésentation à celle des catégories de référence de l étude. Pour chaque variable, les catégories d une même variable scindent le nuage des oints rerésentant les obets en sous-nuages de oints qui rassemblent les obets artageant la même catégorie. Les oints rerésentant les catégories sont situés au centre du sous-nuage des oints rerésentant les obets qui aartiennent à la même catégorie. Les roximités entres obets reflètent les similarités ou les dissimilarités entre leurs configurations resectives de réonse à la batterie de critères qualitatifs. Ainsi, les obets artageant un même rofil de réonse sont roetés en un même oint. Ceendant, la réciroque n est as forcément vérifiée : deux obets dont les scores (valeurs de la roection selon les dimensions) sont roches ne sont as nécessairement similaires. Si une variable ossède un bon ouvoir discriminant, les obets se situeront à roximité des catégories auxquelles ils aartiennent. Idéalement, les obets classés dans la même catégorie doivent se situer à roximité les uns des autres, leurs scores étant similaires. Les catégories aartenant à des variables différentes sont situées à roximité les unes des autres si elles caractérisent les mêmes sous-ensembles d obets. Ainsi, deux obets ayant des scores similaires our un critère articulier doivent osséder des scores similaires our les variables qui lui sont homogènes. Revue MODULAD, 008-95 - Numéro 38

Figure : visualisation des obets, face et rofil du etit matériel de quincaillerie (extrait de l ouvrage [Hartigan 975]). Le terme d homogénéité se réfère donc à une situation où les variables fournissent une artition de l ensemble des obets selon les mêmes catégories ou des catégories similaires. Historiquement, le concet d homogénéité est associé à un aradigme selon lequel des variables distinctes euvent mesurer le même hénomène. Par exemle, our les sychométriciens, les erformances intellectuelles sont arochées à travers une batterie de tests qualifiés d homogènes, au sens ou la somme des scores obtenus à un sens car elle fournit une mesure de ces erformances. De façon lus formelle, on eut définir l analyse d homogénéité, stricto sensu, comme un rogramme de minimisation d une fonction-obectif, la erte d homogénéité (cf. infra 3 our une définition), ermettant d obtenir une rerésentation grahique des catégories qui corresonde à la solution otimale résentée antérieurement. La généralisation de cette définition fournit un cadre méthodologique où le terme d analyse d homogénéité se réfère à une famille de techniques d analyse multivariée artageant, selon différentes formes de codage des données et sous des formulations diverses du critère d otimalité, un aradigme commun d otimisation de l homogénéité des variables. L analyse d homogénéité eut être également résentée comme la solution d un roblème de décomosition en valeurs rores et en valeur rores singulières, et eut de ce fait être rattachée aux méthodes factorielles : ainsi, our deux critères qualitatifs, l analyse d homogénéité est équivalente à l analyse des corresondances ; our lusieurs critères, elle Revue MODULAD, 008-96 - Numéro 38

est équivalente à l analyse des corresondances multiles. A ce titre, elle eut également être résentée comme une méthode de ositionnement multidimensionnel travaillant à artir d un tableau de «dissimilarités» constitué ar les distances du Khi-Deux entre rofils-lignes issus d un tableau disonctif comlet codant, our la oulation I des obets, les caractéristiques observées selon l ensemble J des modalités ou catégories d observation. L analyse d homogénéité eut également être considérée comme une analyse en comosantes rinciales sur données nominales (modèle de Guttman). Lorsqu il n y a as de relations linéaires entre variables ou lorsque les variables sont nominales, l analyse d homogénéité est référable à une analyse en comosantes rinciales normée (i.e. effectuées sur variables centrées et réduites). Portrait de Louis GUTTMAN, 96-987 (Materials for the History of Statistics, The University of York) Revue MODULAD, 008-97 - Numéro 38

. UN EXEMPLE D ANALYSE D HOMOGENEITE : les etits articles de quincaillerie. Ce remier exemle illustratif de l analyse d homogénéité est basé sur des données décrivant de etits articles de quincailleries (clous, vis, boulons, etc.) à l aide de variables catégorielles [Hartigan, 975] décrivant leur forme et leur dimension. Il y a n=4 obets ou observations et =6 variables descritives catégorielles, la variable OBJECT identifiant les 4 observations. Nom Valeur Etiquette Position OBJECT Obet THREAD Pointe N non Y oui HEAD Forme de la tête 3 F late O conique R ronde U coue Y cylindre INDHEAD Indentation de la tête 4 L fente N aucune T étoile BOTTOM Forme de la base 5 F late S tranchante LENGTH Longueur en demi-ouces 6 0,5" " 3,5" 4 " 5,5" BRASS Cuivré 7 N non Y oui Tableau : descritif des données et détail des catégories Ci-dessous figure, dans l éditeur de données SPSS, le tableau de ces données descritives sous forme alhanumérique : Figure : le tableau des données alhanumériques Revue MODULAD, 008-98 - Numéro 38

.. Pouvoir exlicatif des dimensions de la solution La rerésentation grahique que l on souhaite obtenir de ces données en termes de catégories et d obets, s effectue dans un reère orthonormé dont on doit réciser le nombre d axes a, aelé la dimension de la solution. La dimension maximum du sous-esace de rerésentation est égale soit au nombre de catégories (m=9) moins le nombre de variables sans valeurs manquantes (=6), soit au nombre d observations (n=4) moins un si celui-ci est inférieur, soit a=min{3,3}=3. En ratique, le nombre d axes utilisé our la rerésentation est généralement très inférieur à ce maximum car souvent une solution comortant deux ou trois dimensions suffit our synthétiser les traits essentiels de l information contenue dans le tableau des données, l information additionnelle aortée ar des dimensions sulémentaires se révélant marginale. Les valeurs rores ermettent de rendre comte de l imortance relative de chaque dimension dans la art d information statistique ris en comte ar la solution. Ces valeurs rores rennent des valeurs dans l intervalle [ 0 ;]. La valeur est atteinte ar la valeur rore triviale qui corresond au vecteur rore reliant le centre de gravité du nuages des rofils catégoriels et l origine du reère. Les valeurs rores nulles corresondent à des directions indéterminées de la solution 3. Eigenvalues Dimension Eigenvalue,6,368 Tableau : les deux remières valeurs rores. Leur raort avec la somme totale des valeurs rores, aelé le taux d inertie en analyse des corresondances, constitue une mesure essimiste de la art de variabilité globale rise en comte. La rocédure HOMALS de SPSS étant limitée à 0 dimensions, le calcul est effectué dans ce sous-esace. Néanmoins, les valeurs rores d ordre suérieur ayant une valeur résiduelle, cette aroximation ne change as fondamentalement l estimation des taux d inertie. Dimension Valeur rore Taux d'inertie Inertie cumulée 0,6 0,87 0,87 0,368 0,70 0,457 3 0,38 0,5 0,608 4 0,79 0,9 0,737 5 0,97 0,09 0,88 6 0,8 0,059 0,887 7 0,086 0,040 0,97 8 0,084 0,039 0,966 9 0,056 0,06 0,99 0 0,09 0,009,000 Tableau 3 : taux d inertie associés au valeurs rores. 3 tout vecteur est solution de l équation aux valeurs rores, donc vecteur rore. Revue MODULAD, 008-99 - Numéro 38

Ainsi, les deux dimensions retenues ermettent de rendre en comte 46% de l inertie totale à travers une rerésentation grahique lane interrétable en termes de distances entre observations... Rerésentation grahique des obets à artir des scores Les scores (coordonnées des obets selon les remières dimensions de la solution) ermettent de reérer les valeurs extrêmes («outlier») : l obet roeté à l extrémité négative de la dimension (D<0) eut être considéré comme une valeur atyique ou aberrante et, de ce fait, éventuellement exclu lors d une analyse ultérieure (cf. infra). Obect Scores 0 - «outlier» - -3 Dimension -4-5 -,0 -,0 0,0,0,0 Dimension Cases weighted by number of obects. Figure 3 : roection des obets dans le lan des deux remières dimensions. Cette rerésentation des obets sous forme de tournesol (le nombre de étales du tournesol est roortionnel au nombre d obets) est bien adatée aux ensembles d obets dont la cardinalité n est imortante car elle ermet de rendre comte des différences de densité au sein du nuage des oints-obets. Si le nombre d observations est suffisamment faible, il est alors ossible de roeter chacune des observations avec leur identifiant. Cela ermet de vérifier la configuration de réonses fournies ar des sous-ensembles articuliers d obets. Ce grahique ermet de constater que la remière dimension (axe horizontal D) séare les vis (screw) et les boulons (bolt), qui ont un filetage (thread), des clous (nail) et des unaises (tack) qui n en ont as. De façon moins rononcée, cette remière dimension instaure une séaration entre les boulons (bolt) qui ont Revue MODULAD, 008-00 - Numéro 38

une base late et tous les autres obets (qui ont une base ointue). La seconde dimension (axe vertical D) séare les obets screw et nail6 de l ensemble des autres obets : ces deux obets sont les lus longs (cf. figure ). Notons également que screw aaraît comme l obet le lus éloigné de l origine : la configuration des caractéristiques de cet obet aaraît comme très sécifique uisqu elle n est artagée ar aucun autre obet. screw3 screw5 screw4 tack nail tack tack screw nailb bolt bolt3 nail bolt4 0 nail3 bolt5 - nail4 bolt6 nail5 - bolt nail8-3 screwb nail7 screw Dimension -4-5 nail6 -,5 -,0 -,5 0,0,5,0,5 Dimension Figure 4 : étiquetage des obets dans le lan des deux remières dimensions. Ceendant, la ratique des variables illustratives (cf. infra.5) dans l établissement des grahiques facilite la synthèse de ces informations : our chacun de ces grahiques illustratifs, les obets sont étiquetés à artir de la alette de valeurs catégorielles issue de la variable illustrative sélectionnée. La rocédure HOMALS ermet de sécifier les variables illustratives utilisées our roduire une rerésentation grahique de la densité des différentes modalités de réonse. Revue MODULAD, 008-0 - Numéro 38

.3. Mesures du ouvoir discriminant La mesure du ouvoir discriminant d un critère relativement à une dimension eut se définir comme le ourcentage de variance de la dimension exliqué ar ce critère. La valeur maximum de cet indicateur est égale à si tous les obets se réartissent sur l ensemble de ces catégories (caractère comlet de la nomenclature des catégories) et si les obets aartenant à la même catégorie se révèlent identiques en termes de configuration descritive relativement aux autres critères. S il y a des données manquantes dans le tableau analysé, l indice du ouvoir discriminant du critère eut être suérieur à. Cette mesure du ouvoir discriminant étant calculée comme la moyenne ondérée, ar la fréquence des catégories, des carrés des coordonnées des catégories (quantifications). Dans le langage de l analyse des corresondances, il s agit de la moyenne ondérée des qualités de rerésentation des modalités de cette variable sur l axe factoriel. Le ouvoir discriminant d un critère est d autant lus élevée= que ses catégories résentent une disersion imortante de leurs coordonnées selon la dimension examinée. La moyenne des indices de discrimination sur l ensemble des critères est égale our chaque dimension à la valeur rore corresondante, exrimant ainsi la variance de cette dimension. Les dimensions sont ordonnées dans l ordre décroissant de leur variance, les valeurs rores étant extraites ar ordre d imortance décroissant : la direction de la remière dimension corresond au vecteur rore associé à la remière valeur rore (la lus élevée) ; la direction de la seconde dimension corresond au second vecteur rore associé à la seconde valeur rore en imortance ; etc. Le diagramme des mesures du ouvoir discriminant indique que la remière dimension est constituée ar une synthèse des variables thread (résence d une ointe) et bottom (forme de la base) : les deux variables résentent des niveaux d indice de discrimination imortants our la ère dimension et faibles our la nde dimension. Ainsi, les catégories de ces variables sont bien disersées selon l axe D et eu disersées selon l axe D. Inversement, la variable length résente une valeur élevée de l indice de discrimination selon l axe D et une valeur faible our l axe D. En conséquence, l angle entre le vecteur corresondant à cette variable et la nde dimension est faible, la valeur de l indice selon l axe D corresondant au carré du cosinus de l angle. Cet indice, assimilable au carré d un coefficient de corrélation (R ), exrime la similarité entre les deux directions, et reflète la ségrégation observée selon la nde dimension sur le diagramme des obets entre les obets les lus longs (situés dans le demi-lan D<0) et l ensemble des autres obets (situés dans le demi-lan D>0). Remarquons également que les variables concernant la forme et l indentation de la tête résentent des valeurs imortantes de leurs indices de discrimination selon les deux dimensions. Par contre la variable brass située rès de l origine du grahique n aaraît as comme discriminante dans ce lan des deux remières dimensions, l ensemble des obets ouvant osséder ou non le caractère cuivré. Pour la même raison, la variable length ne eut être liée à la ère dimension uisqu elle ne discrimine les obets que dans la nde dimension. Revue MODULAD, 008-0 - Numéro 38

Discrimination Measures,0,8 Length in ha Indentation Head form,6,4 Dimension, BRASSN 0,0 Bottom shae THREADN 0,0,,4,6,8,0 Dimension Figure 5 : mesure du ouvoir discriminant selon les deux remières dimensions. Si l indice de discrimination indique quelle est la art de variance exliquée ar une variable our chaque dimension, il ne ermet as de distinguer entre les variables dont les catégories résentent une disersion moyenne selon une dimension et celles dont la luart des catégories ont des coordonnées similaires à l excetion de certaines d entre elles très différentes..4. Quantifications des catégories En revanche, les roections grahiques des catégories ermettent de caractériser récisément les relations entre catégories d une même variable mais aussi entre catégories de variables distinctes, en situant chaque catégorie sur un même grahique au moyen de leurs quantifications selon chaque dimension (équivalent des coordonnées factorielles des rofils catégoriels dans l analyse des corresondances multiles). Ainsi, la variable length ossède cinq catégories dont trois sont localisées dans la artie suérieure du grahique (demi-lan D>0) et les deux autres (soit,5 et,5 ) se situent dans la artie inférieure du grahique (demi-lan D<0). En outre, la catégorie étiquetée _/_in (soit,5 ) située à l extrémité négative de la nde dimension, se singularise très nettement ar raort à l ensemble des autres catégories, reoignant en cela la catégorie STAR (tête en étoile ou cruciforme) de la variable Indentation of head (indentation de la tête). En fait, la catégorie _/_in est située au oint moyen Revue MODULAD, 008-03 - Numéro 38

(barycentre) des localisations des deux obets qui artagent cette sécificité, soit screw et nail6. La catégorie STAR se situe exactement au lieu géométrique de roection de l obet screw qui est le seul à résenter cette indentation cruciforme de la tête. Cette catégorie STAR se différencie des deux autres catégories (SLIT fente et NONE sans indentation) selon la nde dimension. Quantifications 0 SLIT NONE _/_in - - _/_in Length in half-inche -3 BRASSN Dimension -4-5 STAR Bottom shae Indentation of head Head form THREADN -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Figure 6 : quantification des catégories. La disersion des catégories d une variable selon une dimension articulière reflète la variabilité de la configuration des réonses et constitue un indicateur de son ouvoir discriminant relatif à cette dimension. Ainsi, selon l axe horizontal D, les catégories de la variable THREADN (codage numérique de la variable thread) sont très disersées alors qu elles ne le sont as selon l axe vertical D. Il s en suit que la variable thread discrimine mieux les obets selon la ère dimension que selon la nde dimension. En revanche, les catégories de la forme de la tête (Head form) sont autant disersées selon l axe D que selon l axe D. On en conclut que le ouvoir discriminant de cette variable est équivalent selon les deux dimensions. Une variable dont les catégories sont lus disersées selon une dimension ossède un ouvoir discriminant lus imortant selon cette dimension qu une autre variable dont les catégories sont roetées de façon moins disersées. Par exemle, selon la ère dimension, les deux catégories de la variable BRASSN (codage numérique de la variable brass - caractère cuivré) Revue MODULAD, 008-04 - Numéro 38

sont beaucou moins disersées que les deux catégories de la variable THREADN, indiquant que la variable thread ossède un ouvoir discriminant lus imortant que celui de brass selon cette dimension (vérifiable en figure 5, d arès les niveaux relatifs de la mesure de discrimination des deux variables considérées)..5. Grahiques illustratifs On eut éventuellement ousser lus loin l analyse en consultant les différents grahiques illustratifs roetant individuellement, our chaque variable, les obets étiquetés ar le codage des catégories. L utilisation de ces variables illustratives montre que la ère dimension séare arfaitement le groue des articles ossédant une ointe, étiquetés Yes_Thread et situés dans le demi-lan [ D<0 ], du groue de ceux qui n ont as de ointe, étiquetés No_Thread et situés dans le demi-lan [ D>0 ]. Cette différenciation arfaite en fait un indicateur bien corrélé à la ère dimension. Obect Scores Labeled by THREADL 0 Yes_Thread Yes_Thread Yes_Thread Yes_Thread No_Thread No_Thread No_Thread Yes_Thread Yes_Thread No_Thread - No_Thread - Dimension -3-4 Yes_Thread -3,0 -,0 -,0 0,0,0,0 3,0 Dimension Cases weighted by number of obects. Figure 7 : roection des obets, variable illustrative THREADL («résence d une ointe»). Revue MODULAD, 008-05 - Numéro 38

La roection des obets étiquetés ar la forme de la tête (Head form) montre que celle-ci discrimine bien les articles dans les deux dimensions. Les obets à tête late (FLAT) sont situés dans le quadrant suérieur droit [ D>0 & D>0 ] tandis que les articles dont la tête est en coue (CUP) sont situés dans le quadrant inférieur droit [ D<0 & D>0 ]. Les obets à tête conique (CONE) sont situés dans le quadrant inférieur gauche [ D<0 & D<0 ] mais on observe que ces obets sont beaucou lus disersés que dans les autres catégories. Dans le quadrant suérieur gauche [ D>0 & D<0 ], les obets à tête cylindrique (CYLINDER) ne euvent être distingués des obets à tête ronde (ROUND). Obect Scores Labeled by Head form CYLINDER ROUND CYLINDER CYLINDER ROUND ROUND FLAT FLAT FLAT 0 CONE CONE CUP - CUP - -3 CONE Dimension -4-5 -,0 -,0 0,0,0,0 Dimension Cases weighted by number of obects. Figure 8 : roection des obets, variable illustrative HEADL («forme de la tête»). Revue MODULAD, 008-06 - Numéro 38

Le grahique selon les catégories de longueur montre que ces catégories se distinguent non as selon l axe horizontal du grahique mais lutôt selon l axe vertical. Ce constat confirme l analyse selon laquelle les catégories de la variable length ne discriminent as les obets selon la ère dimension mais seulement selon la nde, les obets les lus courts étant situés dans le demi-lan [D>0] Obect Scores Labeled by Length in half-inches 0 - /_in _in_in /_in /_in /_in /_in _in _/_in _/_in - -3 Dimension -4-5 _/_in -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects. Figure 9 : roection des obets, variable illustrative LENGHTL«longueur en ouces» Le grahique illustratif à artir de la variable BRASS (caractère cuivré ou non de l obet) ne ermet as de mettre en évidence une différenciation nette des obets selon l une ou l autre des deux remières dimensions. Revue MODULAD, 008-07 - Numéro 38

.6. Filtrage des observations atyiques Une fois identifiées les observations atyiques comortant tro de caractéristiques qui leur sont rores, on eut les exclure de l analyse ar filtrage, ermettant ainsi de se focaliser sur les hénomènes dont l occurrence n est as marginale. Si l on réitère l analyse d homogénéité arès un traitement excluant cette observation ugée atyique, on constate un léger changement au niveau des valeurs rores qui ne modifie as de manière radicale l ordre de grandeur de leur taux d inertie. Pour autant, on ne doit as conclure sans examen réalable à la quasi-équivalence des deux analyses Le grahique des mesures de discrimination indique désormais que l indentation de la tête («head indentation») ne discrimine lus les obets selon la nde dimension mais seulement selon la ère dimension, tandis que le caractère discriminant de la variable brass (cuivré ou non) se manifeste désormais selon la nde dimension. Les indices de discrimination des autres variables demeurent inchangés dans ces deux remières dimensions. lenght in half inch,0 Discrimination Measures head form brass,8,6 bottom shae,4, thread Dimension 0,0 -, 0,0,,4,6,8,0 head indentation Dimension Figure 0 : mesures de discrimination, arès filtrage de l obet atyique. Revue MODULAD, 008-08 - Numéro 38

Le grahique des obets étiquetés ar la variable brass montre que les obets cuivrés («YES_Br») sont désormais roetés à l extrémité négative de la nde dimension (zone [ - <D<- ]) alors que les obets non cuivrés («Not_Br») sont roetés dans le demi-lan [ D>- ], confirmant ainsi le ouvoir discriminant de la variable brass selon la nde dimension. Obect Scores Labeled by BRASSL,0 Not_Br,5,0,5 0,0 -,5 Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br -,0 Dimension -,5 -,0 YES_Br YES_Br -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects. Figure : roection des obets étiquetés ar BRASSL, arès filtrage de l obet atyique Revue MODULAD, 008-09 - Numéro 38

La roection illustrative des obets étiquetés ar les catégories relatives à l indentation de la tête («Indentation of head») montre que la remière dimension ermet de discriminer arfaitement les obets non indentés («NONE») des obets indentés («SLIT»), comme dans l analyse récédente. Ceendant, la nde dimension ne discrimine lus les catégories d indentation, à l inverse de l analyse récédente. Obect Scores Labeled by Indentation of head,0 NONE,5,0,5 0,0 -,5 SLIT SLIT SLIT SLIT SLIT SLIT SLIT NONE NONE NONE -,0 Dimension -,5 -,0 SLIT NONE -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects.. Figure : roection des obets étiquetés ar indentation de la tête («INDHEADL»), arès filtrage de l obet atyique Revue MODULAD, 008-0 - Numéro 38

3. L ANALYSE D HOMOGENEITE, POUR UNE REPRESENTATION OPTIMALE DES CATEGORIES. 3.. Le concet d homogénéité Déveloée ar le groue Albert Gifi 4, la rocédure HOMALS se base sur le concet d homogénéité, que l on eut définir de la manière suivante. Soit le vecteur z, =, L, contenant les observations faites sur les n individus, d une oulation, corresondant à la variable. Z Le vecteur z est homogène à x, vecteur unitaire (de norme ), si et seulement si arès une transformation t de normalisation (tel que t z = ), on a x = t ( z ). suit : z ( ) Si le vecteur n est as homogène à x, on définit la erte d homogénéité comme σ ( x, t) = = t ( x t ( z )( x t ( z ). 3.. La rocédure HOMALS Soit la matrice des indicatrices de codage corresondant aux indicatrices de codage d une variable Z qualitative à modalités. La transformation t du vecteur z eut être définie Z ( ) Z Y k ar t z = où Y est une matrice à n k coefficients. La rocédure HOMALS consiste à minimiser la fonction de erte suivante : σ [ ] t ( X, Y) = trace ( X Z Y )( X Z Y ) = sous les contraintes d orthonormalisation t XX = ni et de centrage X = 0. 3.3. Equivalence avec l analyse des corresondances multiles [Gifi, 990] résente l analyse d homogénéité comme la résolution d un roblème de décomosition sectrale, soit en valeurs singulières, soit en valeur rores, qui fournit en fait les facteurs d une analyse des corresondances multiles. Cette résentation est issue du travail de [Tenenhaus et Young, 985] qui établit un cadre concetuel commun our analyser les relations entre différentes méthodes multivariées d analyse de données catégorielles, montrant ainsi l équivalence entre analyse des corresondances multiles et analyse d homogénéité. L analyse d homogénéité eut également être vue comme une technique de ositionnement multidimensionnel restituant une image euclidienne (à artir de grahiqueslans) des «dissimilarités» constituées ar les distances du Khi-Deux entre rofils-lignes. 4. EFFECTUER UNE ANALYSE D HOMOGENEITE AVEC SPSS Pour obtenir une analyse d homogénéité sous SPSS, il convient de créer ar recodage, à artir du tableau des données alhanumériques (cf. figure ), un tableau numérique comortant l ensemble des variables à analyser. Pour ce faire, il faut utiliser la rocédure de recodage automatique <Automatic Recode> du menu de transformation <Transform>, créant ainsi la variable threadn (codage 4 Albert Gifi fût durant quarante années le maître d hôtel de Sir Françis Galton [Gilham, 00] avant de devenir le nom collectif des membres du Deartment of Data Theory de l Université de Leiden (Pays-Bas). Ce groue, constitué autour de Jan de Leeuw a mis au oint un système our l analyse multivariée non linéaire qui recouvre de multiles techniques factorielles allant de l analyse en comosantes rinciales à l analyse canonique. Le travail de ce groue est résenté dans l ouvrage [Gifi, 990] Revue MODULAD, 008 - - Numéro 38

numérique) à artir de la variable thread (codage alhanumérique) ar transformation des catégories rises dans un ordre lexicograhique croissant (cf. figure 3). Figure 3 : recodage des variables alhanumériques en variables numériques. Figure 4 : variables numériques recodées. Dans une seconde étae, il faut créer ar recoie autant de variables illustratives qu il y a de critères articiant à l analyse. Pour ce faire, il suffit de sélectionner les variables recodées en Revue MODULAD, 008 - - Numéro 38

cliquant avec la touche «Control» maintenue enfoncée («Ctrl+Clic») sur les colonnes corresondantes de l éditeur des données (cf. figure 5). Figure 5 : sélection multile ar Ctrl+Clic des variables numériques recodées. Ensuite, il faut sélectionner à artir du menu <Edit>, la commande <Coy> (avec le clavier, faire un <Ctrl+C>), our ouvoir coller (menu <Edit>, commande <Paste>, ou équivalentclavier faire un <Ctrl+V>), arès avoir effectué une sélection multile de cinq colonnes vides : Figure 6 : fichier des variables numériques, actives et illustratives. Revue MODULAD, 008-3 - Numéro 38

Pour obtenir une analyse d homogénéité, il faut sélectionner à artir du menu <Analyse>, la rocédure <Otimal Scaling> du menu <Data Reduction>, en choisissant les otions corresondantes (otions ar défaut de la rocédure, soit un seul ensemble de variables avec toutes les variables considérées comme nominales) : Figure 7 : otions corresondant à l analyse d homogénéité La remière étae de la sécification de la rocédure consiste à sélectionner les variables actives de l analyse (threadn, headn, indheadn, bottomn, brassn, lenghtn) en définissant our chacune d entre-elles le nombre de modalités : Figure 8 : sécification des variables actives. Revue MODULAD, 008-4 - Numéro 38

Dans la seconde étae, on sécifie les variables illustratives de l analyse (obectl, threadl, headl, brassl, lenghtl) en définissant également our chacune d entre-elles le nombre de modalités : Figure 9 : sécification des variables illustratives La dernière étae de cette sécification concerne le choix du nombre de dimensions (nombre d axes factoriels) choisies our la rerésentation grahique des obets, des modalités et des variables. On choisit ici une rerésentation grahique en deux dimensions comme solution articulière au roblème d otimisation sous contraintes que ose l analyse formulée en terme d homogénéité (cf. 3). Les différentes otions de traitement euvent être choisies en utilisant le bouton <Otions >. Ces otions ortent sur les résultats (Dislay), les grahiques (Plot), la sauvegarde des coordonnées factorielles des obets (<Save obect scores>) et les critères de contrôle de l algorithme (Criteria). Figure 0 : choix des otions. Revue MODULAD, 008-5 - Numéro 38

Les résultats demandés (cf. section Dislay de la figure 0) sont les distributions marginales obtenues ar comtage (Frequencies), les valeurs rores (Eigenvalues), le ouvoir discriminant des variables actives (Discrimination measures), les coordonnées factorielles des modalités our chaque variable (Category quantifications), les coordonnées factorielles des obets (Obect scores). Les grahiques demandés (cf. section Plot de la figure 0) sont le grahique factoriel des modalités de variables actives (Category quantifications), celui des obets (Obect scores) et le diagramme du ouvoir discriminant des variables selon chacune des dimensions (Discrimination measures). A ces grahiques s aoutent autant de grahiques de densité des obets étiquetés ar les modalités qu il y a de variables illustratives. La sauvegarde des coordonnées factorielles demandée (Save obect scores) s effectue dans le fichier d origine, mais eut être ultérieurement sauvegardé dans un fichier sécifique, comme suit, our de nouvelles analyses (classification sur axes factoriels) : Figure : sauvegarde des coordonnées factorielle des obets dans un fichier sécifique. Revue MODULAD, 008-6 - Numéro 38

Les macro-instructions du rogramme SPSS corresondant aux otions récédemment définies euvent être sauvegardées dans un fichier de syntaxe en utilisant le bouton <Paste> de la boîte de dialogue : Figure : sauvegarde des macro-instructions dans un fichier rogramme (extension «.SPS»). Le seuil de convergence (Convergence=.0000) et le nombre maximum d itérations (Maximum interations=00) ermettent de contrôler l algorithme itératif des moindres carrés alternés de la rocédure HOMALS dans la recherche d une solution. Iteration History Iteration Fit Difference from the Previous Iteration,3757,3757,849876,779 3,943649,093773 4,966800,035 5,9768,000 6,980,00588 7,98504,00993 8,986838,00735 9,98785,0003 0,988444,000593,988793,000349,988999,00006 3,989,0003 4,98996,000074 5,9894,000045 6,98969,00008 7,98987,00008 8,98998,0000 9 a,989306,000008 a. The iteration rocess stoed because the convergence test value was reached. Tableau 4 : historique des itérations Dans cet exemle, l algorithme s arrête à l itération n 9 car l amélioration de l indice d austement (Fit) est devenue inférieure à la valeur du seuil de convergence. Revue MODULAD, 008-7 - Numéro 38

5. L algorithme itératif de la rocédure HOMALS de SPSS 5 L algorithme itératif HOMALS (Homogeneity Analysis by Means of Alternating Least Squares Analyse d Homogénéité ar Moindres Carrés Alternés) est la version moderne de la rocédure roosée initialement ar Guttman en 94 our l analyse des données catégorielles. Le traitement des valeurs manquantes est basé sur l introduction de ondérations nulles dans la fonction de erte (cf. De Leeuw & Van Rickevorsel, 980). D autres otions our le traitement des valeurs manquantes existent et sont basées sur le recodage (Gifi 98, Meulman 98). 5.. Notations En l absence d autre convention exlicite, nous utilisons dans l exosé de cet algorithme les notations suivantes : n nombre d observations (ou obets) nombre de variables (ou critères) s nombre de dimensions (ou facteurs) Pour chaque critère, =, L, m h vecteur n des observations catégorielles k nombre de catégories (ou modalités)du critère Z matrice n k des indicatrices de modalités our le critère ( ) z ik O si l' observation i aartient à la catégorie k du critère élément matriciel de G = 0 sinon matrice-filtre n n des indicatrices d observations our le critère ( ) o ii élément matriciel de D D [, k ] si l' observation i aartient à l'intervalle M = 0 sinon matrice diagonale des oids contenant les effectifs marginaux des modalités du critère matrice diagonale k k des effectifs marginaux des modalités. Les matrices de coordonnées factorielles sont : X matrice n s des coordonnées factorielles des observations (obets) selon les s dimensions Y matrice k s des coordonnées factorielles des modalités du critère selon les s dimensions Y matrice concaténée k des coordonnées factorielles de l ensemble des modalités 5 Cette section est une libre traduction du document technique corresondant fourni ar SPSS Revue MODULAD, 008-8 - Numéro 38

5.. Formulation du rogramme d otimisation de la fonction obectif L obectif d HOMALS est de trouver une matrice X et un ensemble de matrices Y (our =, L, ) tel que la fonction obectif : ( ) σ X, Y = tr ( X Z Y ) ( X Z Y ) soit minimale sous la contrainte de normalisation X O X = ni s, où O = O est la matrice-obet et I est la s s s matrice identité. L introduction des matrices-filtres O ermet de contrôler qu aucune des valeurs observées actives our le critère ne sorte de l intervalle sulémentaires ( o = 0). ii [, ]. La matrice-obet O définit ainsi our chaque obet i k l ensemble des observations actives de l analyse ( o Les coordonnées factorielles de chaque obet sont centrées, ce qui eut s écrire : où u est le n -vecteur constant de comosante scalaire égale à. 5.3. Algorithme itératif d otimisation Les rinciales étaes de l algorithme d otimisation sont les suivantes : i) Initialisation ; ii) Calcul des coordonnées factorielles des obets ; iii) Orthonormalisation ; iv) Calcul des coordonnées factorielles des modalités v) Test de convergence : si oui, oursuivre ; si non, aller en ii) ; vi) Rotation. ii = ) et l ensemble des observations u O X = 0, i) Initialisation La matrice X des coordonnées factorielles est initialisée ar tirage aléatoire sous contraintes de centrage ( u O X = 0 ) et de normalisation ( X O X = ni s X ~ ). A artir de la matrice normalisée, o n obtient une remière aroximation des coordonnées factorielles des catégories du critère, soit ~ ~ Y D G X. = ii) Calcul des coordonnées factorielles des obets Dans un remier tems, on définit, comme intermédiaire de calcul, une matrice W suivant : ~ W O G Y Dans un second tems, on centre cette matrice ar raort à l ensemble des obets actifs de l analyse en renant en comte le filtrage réalisé ar la matrice-obet O : ~ W ( O [ O uu O u / O u] )W Ces deux étaes conduisent à des solutions localement otimales si on n alique as de contraintes d orthogonalité. Revue MODULAD, 008-9 - Numéro 38

iii) Orthonormalisation + La rocédure d orthonormalisation consiste à trouver une matrice X, M -orthonormale, qui soit la lus roche ossible, au sens des moindres carrés, de la matrice W ~. Cette matrice est obtenue en aliquant la rocédure d orthormalisation de Gram-Schmidt (rocédure GRAM, reris de Börk et Golub, 973), selon l équation suivante : X + ~ M GRAM M W ( ) ce qui, à une rotation rès, conduit à la solution des moindres carrés. iv) Calcul des coordonnées factorielles des modalités + Pour chaque critère, on calcule la matrice Y des quantifications de ses modalités, comme suit : ~ Y + D G X = v) Test de convergence + + La différence { ( X ~ Y ~ σ, ) σ ( X, Y )} entre deux évaluations successives de la fonction obectif est comarée à la sécification ε du seuil de convergence, fournie ar l utilisateur. Les étaes ii) à iv) sont réitérées tant que la différence est suérieure au seuil de convergence fixé. vi) Rotation La fonction de erte σ ( X,Y) étant invariante ar rotation simultanée de X et de Y, la rocédure itérative ne fournit as nécessairement une orientation correcte our les axes factoriels. En effet, du oint de vue théorique, la solution en dimension s fournit les s remiers axes factoriels de la solution à s+ dimensions, ce que ne garantit as cet algorithme itératif. L imbrication des différentes solutions est obtenue ar extraction des vecteurs rores de la matrice Y D Y le calcul s effectuant ar la méthode de tridiagonalisation de Householder en utilisant l algorithme QL roosé ar [Wilkinson, 965]. 5.4. Diagnostics Rang maximum 6 Le rang maximun indique le nombre maximum de dimensions qui euvent être extraites des données, soit : s ( ) ( ) max = min n, k max l, l où m est le nombre de variables sans valeurs manquantes, k est le nombre de catégories distinctes l s max du critère et n, le nombre d observations. Bien que le nombre de dimensions non-triviales uisse être inférieur à s lorsque =, la rocédure HOMALS ermet de sécifier des cardinalités de max s max dimension qui vont usqu à. 6 Imrimé en guise d avertissement lorsque la dimension de la solution demandée excède le rang de l oérateur d inertie. Revue MODULAD, 008-0 - Numéro 38

Marges Le tableau des sommes de colonne de la matrice D fournit directement les effectifs marginaux des modalités du critère. La somme des éléments de la matrice O donne indirectement (en la soustrayant de n) le nombre de valeurs manquantes 7 our les modalités de chaque critère. Pouvoir discriminant Le ouvoir discriminant d un critère selon une dimension s est défini ar : ( ) ( ) s = y η s D y s n Il est constitué ar la variance de la roection du critère selon la dimension s. Comte tenu du fait que la trace est un oérateur invariant ar changement de base, la somme des valeurs rores eut se calculer comme somme des ouvoirs discriminants sur l ensemble des critères, soit : λ s = η s s s La valeur minimale de la erte d homogénéité σ ( X,Y) est égale à s η s. s 6. REFERENCES BIBLIOGRAPHIQUES Benzécri J.-P. (973) L analyse des données. Tome II L analyse des corresondances, Dunod, 63. Bö rk A. et Golub G. H. (973) «Numerical methods for comuting angles between linear subsaces», Mathematics of Comutation, 7: 579 594. De Leeuw J. et Van Rickevorsel, J. (980) «HOMALS and PRINCALS Some generalizations of rincial comonents analysis», in: Data Analysis and Informatics, E. Diday et al, eds. Amsterdam: North-Holland. Gillham N.W. (00) A Life of Sir Francis Galton : from African Exloration to the Birth of Eugenics, Oxford University Press. Gifi A. (98) Nonlinear multivariate analysis, Leiden, Deartment of Data Theory. Gifi A. (990) Nonlinear Multivariate Analysis, Wiley, 579. Guttman L. (94) The quantification of a class of attributes: A theory and method of scale construction. In: The Prediction of Personal Adustment, P. Horst et al, eds. New York: Social Science Research Council. Hartigan J.A. (975) Clustering Algorithms. Wiley, New York, 35. Lebart L (975) «L orientation du déouillement de certaines enquêtes ar l analyse des corresondances multiles», Consommation, n,. 73-96, Dunod. Meulman J. (98). Homogeneity analysis of incomlete data, Leiden, DSWO Press. 7 Ou encore exclues de l analyse car les valeurs observées n aartiennent as à l intervalle des catégories admises [, ]. k Revue MODULAD, 008 - - Numéro 38

Meulman J.H., Heiser J.H. (00) SPSS Categories.0, SPSS Inc., Chicago, 330. Nishisato S. (980).Analysis of categorical data: Dual scaling and its alication. University of Toronto Press, Toronto. SPSS (994) SPSS 6. Categories, SPSS Inc., Chicago, 09. Tenenhaus M., Young F.W. (985) «An analysis and synthesis of multile corresondence analysis, otimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data», Psychometrika, 50,. 9-9. Wilkinson J. H. (965) The algebraic eigenvalue roblem, Oxford: Clarendon Press. Portrait de Sir Francis Galton avec son maître d hôtel Albert Gifi Source : htt://www.galton.org/hotos Revue MODULAD, 008 - - Numéro 38

Annexe algébrique sur l analyse de l homogénéité 8 A Introduction A. Le groue Gifi L analyse de l homogénéité constitue le aradigme concetuel du système d analyse multivarié non linéaire déveloé ar le groue Gifi. Albert Gifi est le nom collectif choisi ar les membres du Deartment of Data Theory de l Université de Leiden (Pays-Bas). Ce groue, constitué autour de Jan de Leeuw a mis au oint un système our l analyse multivariée non linéaire résenté dans l ouvrage [Gifi, 990]. La méthodologie déveloée ar le groue Gifi couvre un très large éventail de méthodes d analyse exloratoire des données multivariées, rincialement des techniques factorielles allant de l analyse en comosantes rinciales à l analyse canonique. A. Le concet d homogénéité Le concet d homogénéité auquel se réfère ces travaux formalise un des aradigmes fondateurs de la sychométrie selon lequel des critères différents euvent mesurer une même caractéristique. Lorsque des variables distinctes (résultats aux tests, réonses aux questions, items choisis) semblent lus ou moins mesurer une même caractéristique, elles sont qualifiées d «homogènes». A.3 L obectif de l analyse d homogénéité Suosons que nous ayons rassemblé des données sur une oulation de n obets (individus, roduits, régions, etc.) à artir de critères résentant un nombre fini de catégories selon lesquelles se distribuent les obets étudiés. L obectif de l analyse d homogénéité est de rerésenter la structure que roette sur cette oulation (i.e. les rofils de comortement) la batterie des critères d observation utilisés, ceux-ci ouvant résentant des échelles de mesure différentes. Les échelles de mesure utilisées ar ces critères ou variables catégorielles à k catégories euvent être numériques (les catégories rerésentent des intervalles de mesure disoints), ordinales (les catégories sont ordonnées) ou nominales (les catégories codent simlement l aartenance à une classe). L obectif de l analyse d homogénéité est donc de rerésenter les obets étudiés et les critères d étude dans un esace euclidien de faible dimension (rerésentation multivariée à s dimensions s < ) en renant en comte les contraintes imosées ar les différentes échelles de mesure utilisées. Cette rerésentation euclidienne constitue la solution du rogramme de maximisation de l homogénéité associé à l analyse d homogénéité, s étant aelée la dimension de la solution. A.4 La méthode de rerésentation Le choix de la méthode de rerésentation s effectue ar l intermédiaire de l otimisation d une fonction-obectif mesurant l homogénéité. Cette rocédure d otimisation ermet de calculer des valeurs, scores et quantifications, utilisées our construire une rerésentation géométrique dans un esace euclidien de faible dimension des relations, resectivement entre obets étudiés et entre catégories des critères d observation. 8 Cette annexe s insire très largement des ouvrages cités, en articulier de [Meulmann, 98]. Revue MODULAD, 008-3 - Numéro 38

En théorie, les valeurs observées our ces variables catégorielles distinctes mais homogènes euvent être remlacées ar la valeur unique d une variable synthétique x. A.5 La mesure de l homogénéité Pour des variables catégorielles numériques, un changement d échelle sécifique oéré ar une transformation linéaire eut amener les valeurs de chaque critère à coïncider avec celles de la variable synthétique. Ces critères sont alors homogènes. Ce n est as touours le cas, on eut alors utiliser des transformations non linéaires our les rendre homogènes. Les critères étudiés sont alors homogénéisables. En ratique, les batteries de critères étudiés ne sont as touours arfaitement homogénéisables. C est souvent le cas lorsqu elles comortent des variables ordinales voire nominales. On se contente alors d une solution arochée ourvu que la erte d information induite ar l agrégation des différents critères soit minimale. Le défaut d homogénéité eut être assimilé aux différences constatées entre les critères étudiés our chacun des obets ( écarts internes aux obets). Ces écarts internes aux obets doivent être distinguées des différences sécifiques entre obets constatées our des critères homogènes (écarts entre obets). Une mesure ossible de ce défaut d homogénéité consiste à raorter la mesure de ces différences internes (somme des carrés des écarts internes aux obets) à celle des différences sécifiques (somme des carrés des écarts entre obets) ou ce qui est équivalent au total des différences (somme totale des carrés des écarts). En substituant une variable synthétique à la batterie de critères étudiés, on établit une relation d équivalence entre la mesure de l homogénéité imarfaite de ces variables catégorielles et la erte d information liée à leur agrégation selon une échelle unique de catégories : maximiser l homogénéité revient à minimiser la erte d information. Pour une mesure normalisée de l homogénéité sur un intervalle [ 0 ; ], on eut formaliser cette relation d équivalence ar l équation : mesure d homogénéité = erte d information [] A.6 Les rincies de l analyse d homogénéité A l issue de cet exosé informel, récaitulons les rincies qui constituent le fondement de l analyse de l homogénéité : i) une batterie de critères d observation numériques est dite homogène si toutes les variables qui la comosent sont liés ar une relation linéaire ; ces variables sont alors qualifiées d homogènes ; ii) iii) une batterie de critères d observation numériques est dite homogénéisable si elle eut-être rendue homogène au moyen de transformations ortant sur ces variables numériques ; une batterie de critères formée de variables numériques, ordinales ou nominales est homogénéisable si toutes ces variables euvent être transformées selon un rocessus de quantification suscetible de les rendre homogènes ; iv) l homogénéité d un ensemble de variables centrées est aréciée à l aune du raort entre la somme des carrés des écarts entre obets (SCE inter ) et la somme des carrés des écarts totale (SCE total ); l homogénéité arfaite corresond à la valeur our ce ratio, i.e. à une valeur nulle our la somme des carrés des écarts interne aux obets (SCE intra ) ; v) l analyse d homogénéité consiste à transformer les variables numériques ou à quantifier les variables ordinales ou nominales (en affectant une valeur numérique à chaque catégorie) our maximiser la mesure de l homogénéité. Revue MODULAD, 008-4 - Numéro 38

Pour oursuivre l analyse, il convient de donner une formulation lus récise à l énoncé de ces rincies en utilisant le cadre algébrique d un esace vectoriel où ob ets et critères sont rerésentés ar des vecteurs et leurs transformations sont rerésentées ar des matrices. A Analyse de l homogénéité en dimension A. Concets A.. Le tableau des observations Ainsi, le tableau des observations eut être rerésenté ar une matrice H de données catégorielles concaténant les vecteurs h, =, L,, chaque vecteur h contenant les observations h i corresondant au critère ou variable catégorielle sur l individu i de la oulation des n obets observés : h L h L h M M M H = [ h ] = h i L hi L h, L, h, L, h i M M M hn L hn L hn Suivant l équation [], maximiser l homogénéité revient donc à minimiser la erte d information lorsque l on remlace la batterie de critères { h, L, h, L, h } ar une variable synthétique x. Tableau A : le tableau des données catégorielles. id threadn headn indheadn bottom n lengthn brassn 4 3 4 5 6 7 4 5 8 4 3 9 4 3 0 3 5 3 4 5 4 3 3 4 5 5 3 4 6 7 5 8 5 9 5 0 5 3 4 Le tableau des données catégorielles ci-dessus code l aartenance des n=4 obets observés aux catégories de l analyse our les =6 critères d observations retenus. Revue MODULAD, 008-5 - Numéro 38