L ANALYSE DES CORRESPONDANCES MULTIPLES «À LA HOLLANDAISE» : INTRODUCTION A L ANALYSE D HOMOGENEITE
|
|
|
- Marie-Louise Audy
- il y a 10 ans
- Total affichages :
Transcription
1 L ANALYSE DES CORRESPONDANCES MULTIPLES «À LA HOLLANDAISE» : INTRODUCTION A L ANALYSE D HOMOGENEITE Dominique Desbois INRA-SAE, UMR AgroParisTech Economie ublique- Bureau du RICA, Service Central des Enquêtes et Etudes Statistiques,, rue Henri ROL-TANGUY, TSA 70007, MONTREUIL SOUS BOIS CEDEX. Courriel :[email protected] - Fax : RESUMÉ : L analyse des corresondances multiles est une méthode exloratoire multidimensionnelle qui fournit une rerésentation synthétique des catégories issues d une batterie de critères qualitatifs, référentiel d un rotocole d exérimentation ou d enquête. Cette note a our but d'aider les utilisateurs de SPSS dans la mise en oeuvre de l analyse des corresondances multiles au moyen de l analyse d homogénéité (rocédure HOMALS du logiciel SPSS ). Cette mise en oeuvre concerne l'analyse de tableaux de données construits à artir de variables nominales. L équivalence entre l analyse d homogénéité et l analyse des corresondances multiles est illustrée à artir d un exemle réertorié dans la littérature statistique. La note est comlétée ar un exosé algébrique consacré à l analyse d homogénéité. MOT CLEFS : Analyse des corresondances multiles, analyse d homogénéité, logiciel statistique SPSS, mise en oeuvre. MULTIPLE CORRESPONDENCE ANALYSIS À LA HOLLANDAISE : INTRODUCTION TO THE ANALYSIS OF HOMOGENEITY ABSTRACT : The multile corresondence analysis is a multidimensional exloratory method which rovides a synthetic reresentation of the categories issued from a battery of qualitative criteria, belonging to a reference frame of an exerimentation rotocol or an investigation survey. The aim of this note is to hel the SPSS users in the imlementation of the multile corresondence analysis by means of the homogeneity analysis (rocedure HOMALS in the SPSS software). Equivalence between the analysis of homogeneity and the multile corresondence analysis is illustrated on the basis of an examle excerted from the statistical literature. The note is sulemented by an algebraic addendum devoted to the homogeneity analysis. KEY WORDS: Multile corresondence analysis, homogeneity analysis, software statistical SPSS, imlementation. HOMALS [Gifi, 990] est une rocédure itérative basée sur la technique des moindres carrés alternées ermettant de réaliser une analyse d homogénéité. L une des otions articulières de cette rocédure fournit les facteurs d une analyse des corresondances multiles. L obectif de cette note est donc de résenter l analyse d homogénéité our les utilisateurs francohones de SPSS afin qu ils uissent utiliser lus aisément cette rocédure our déouiller leurs données d enquête de façon ertinente, en réalisant des analyses de corresondances multiles. L auteur remercie Gilbert Saorta our ses conseils de lecture et ses remarques critiques mais reste le seul resonsable des éventuelles omissions ou erreurs. Homogeneity Analysis by Alternating Least Squares Analyse d homogénéité ar les moindres carrés alternés. Revue MODULAD, Numéro 38
2 . L ANALYSE D HOMOGENEITE, POUR UNE REPRESENTATION OPTIMALE DES CATEGORIES. Soit un ensemble d observations décrivant des obets au moyen de catégories issues d une batterie de critères qualitatifs (variables catégorielles). L analyse d homogénéité est une technique exloratoire d analyse des données ermettant de décrire les relations existant entre deux ou lusieurs de ces variables catégorielles en fournissant une rerésentation grahique de leurs catégories, sous la forme d un nuage de oints (oints-catégories) roetés dans un sous-esace de faible dimension. Cette rerésentation grahique, effectuée dans un système d axes orthonormés aelés «dimensions» est otimale au sens où elle maximise l écart entre les ositions des différentes catégories. Dans ce sous-esace articulier, on eut également rerésenter les obets soumis à l observation (oints-obets) en liant leur rerésentation à celle des catégories de référence de l étude. Pour chaque variable, les catégories d une même variable scindent le nuage des oints rerésentant les obets en sous-nuages de oints qui rassemblent les obets artageant la même catégorie. Les oints rerésentant les catégories sont situés au centre du sous-nuage des oints rerésentant les obets qui aartiennent à la même catégorie. Les roximités entres obets reflètent les similarités ou les dissimilarités entre leurs configurations resectives de réonse à la batterie de critères qualitatifs. Ainsi, les obets artageant un même rofil de réonse sont roetés en un même oint. Ceendant, la réciroque n est as forcément vérifiée : deux obets dont les scores (valeurs de la roection selon les dimensions) sont roches ne sont as nécessairement similaires. Si une variable ossède un bon ouvoir discriminant, les obets se situeront à roximité des catégories auxquelles ils aartiennent. Idéalement, les obets classés dans la même catégorie doivent se situer à roximité les uns des autres, leurs scores étant similaires. Les catégories aartenant à des variables différentes sont situées à roximité les unes des autres si elles caractérisent les mêmes sous-ensembles d obets. Ainsi, deux obets ayant des scores similaires our un critère articulier doivent osséder des scores similaires our les variables qui lui sont homogènes. Revue MODULAD, Numéro 38
3 Figure : visualisation des obets, face et rofil du etit matériel de quincaillerie (extrait de l ouvrage [Hartigan 975]). Le terme d homogénéité se réfère donc à une situation où les variables fournissent une artition de l ensemble des obets selon les mêmes catégories ou des catégories similaires. Historiquement, le concet d homogénéité est associé à un aradigme selon lequel des variables distinctes euvent mesurer le même hénomène. Par exemle, our les sychométriciens, les erformances intellectuelles sont arochées à travers une batterie de tests qualifiés d homogènes, au sens ou la somme des scores obtenus à un sens car elle fournit une mesure de ces erformances. De façon lus formelle, on eut définir l analyse d homogénéité, stricto sensu, comme un rogramme de minimisation d une fonction-obectif, la erte d homogénéité (cf. infra 3 our une définition), ermettant d obtenir une rerésentation grahique des catégories qui corresonde à la solution otimale résentée antérieurement. La généralisation de cette définition fournit un cadre méthodologique où le terme d analyse d homogénéité se réfère à une famille de techniques d analyse multivariée artageant, selon différentes formes de codage des données et sous des formulations diverses du critère d otimalité, un aradigme commun d otimisation de l homogénéité des variables. L analyse d homogénéité eut être également résentée comme la solution d un roblème de décomosition en valeurs rores et en valeur rores singulières, et eut de ce fait être rattachée aux méthodes factorielles : ainsi, our deux critères qualitatifs, l analyse d homogénéité est équivalente à l analyse des corresondances ; our lusieurs critères, elle Revue MODULAD, Numéro 38
4 est équivalente à l analyse des corresondances multiles. A ce titre, elle eut également être résentée comme une méthode de ositionnement multidimensionnel travaillant à artir d un tableau de «dissimilarités» constitué ar les distances du Khi-Deux entre rofils-lignes issus d un tableau disonctif comlet codant, our la oulation I des obets, les caractéristiques observées selon l ensemble J des modalités ou catégories d observation. L analyse d homogénéité eut également être considérée comme une analyse en comosantes rinciales sur données nominales (modèle de Guttman). Lorsqu il n y a as de relations linéaires entre variables ou lorsque les variables sont nominales, l analyse d homogénéité est référable à une analyse en comosantes rinciales normée (i.e. effectuées sur variables centrées et réduites). Portrait de Louis GUTTMAN, (Materials for the History of Statistics, The University of York) Revue MODULAD, Numéro 38
5 . UN EXEMPLE D ANALYSE D HOMOGENEITE : les etits articles de quincaillerie. Ce remier exemle illustratif de l analyse d homogénéité est basé sur des données décrivant de etits articles de quincailleries (clous, vis, boulons, etc.) à l aide de variables catégorielles [Hartigan, 975] décrivant leur forme et leur dimension. Il y a n=4 obets ou observations et =6 variables descritives catégorielles, la variable OBJECT identifiant les 4 observations. Nom Valeur Etiquette Position OBJECT Obet THREAD Pointe N non Y oui HEAD Forme de la tête 3 F late O conique R ronde U coue Y cylindre INDHEAD Indentation de la tête 4 L fente N aucune T étoile BOTTOM Forme de la base 5 F late S tranchante LENGTH Longueur en demi-ouces 6 0,5" " 3,5" 4 " 5,5" BRASS Cuivré 7 N non Y oui Tableau : descritif des données et détail des catégories Ci-dessous figure, dans l éditeur de données SPSS, le tableau de ces données descritives sous forme alhanumérique : Figure : le tableau des données alhanumériques Revue MODULAD, Numéro 38
6 .. Pouvoir exlicatif des dimensions de la solution La rerésentation grahique que l on souhaite obtenir de ces données en termes de catégories et d obets, s effectue dans un reère orthonormé dont on doit réciser le nombre d axes a, aelé la dimension de la solution. La dimension maximum du sous-esace de rerésentation est égale soit au nombre de catégories (m=9) moins le nombre de variables sans valeurs manquantes (=6), soit au nombre d observations (n=4) moins un si celui-ci est inférieur, soit a=min{3,3}=3. En ratique, le nombre d axes utilisé our la rerésentation est généralement très inférieur à ce maximum car souvent une solution comortant deux ou trois dimensions suffit our synthétiser les traits essentiels de l information contenue dans le tableau des données, l information additionnelle aortée ar des dimensions sulémentaires se révélant marginale. Les valeurs rores ermettent de rendre comte de l imortance relative de chaque dimension dans la art d information statistique ris en comte ar la solution. Ces valeurs rores rennent des valeurs dans l intervalle [ 0 ;]. La valeur est atteinte ar la valeur rore triviale qui corresond au vecteur rore reliant le centre de gravité du nuages des rofils catégoriels et l origine du reère. Les valeurs rores nulles corresondent à des directions indéterminées de la solution 3. Eigenvalues Dimension Eigenvalue,6,368 Tableau : les deux remières valeurs rores. Leur raort avec la somme totale des valeurs rores, aelé le taux d inertie en analyse des corresondances, constitue une mesure essimiste de la art de variabilité globale rise en comte. La rocédure HOMALS de SPSS étant limitée à 0 dimensions, le calcul est effectué dans ce sous-esace. Néanmoins, les valeurs rores d ordre suérieur ayant une valeur résiduelle, cette aroximation ne change as fondamentalement l estimation des taux d inertie. Dimension Valeur rore Taux d'inertie Inertie cumulée 0,6 0,87 0,87 0,368 0,70 0, ,38 0,5 0, ,79 0,9 0, ,97 0,09 0,88 6 0,8 0,059 0, ,086 0,040 0,97 8 0,084 0,039 0, ,056 0,06 0,99 0 0,09 0,009,000 Tableau 3 : taux d inertie associés au valeurs rores. 3 tout vecteur est solution de l équation aux valeurs rores, donc vecteur rore. Revue MODULAD, Numéro 38
7 Ainsi, les deux dimensions retenues ermettent de rendre en comte 46% de l inertie totale à travers une rerésentation grahique lane interrétable en termes de distances entre observations... Rerésentation grahique des obets à artir des scores Les scores (coordonnées des obets selon les remières dimensions de la solution) ermettent de reérer les valeurs extrêmes («outlier») : l obet roeté à l extrémité négative de la dimension (D<0) eut être considéré comme une valeur atyique ou aberrante et, de ce fait, éventuellement exclu lors d une analyse ultérieure (cf. infra). Obect Scores 0 - «outlier» - -3 Dimension ,0 -,0 0,0,0,0 Dimension Cases weighted by number of obects. Figure 3 : roection des obets dans le lan des deux remières dimensions. Cette rerésentation des obets sous forme de tournesol (le nombre de étales du tournesol est roortionnel au nombre d obets) est bien adatée aux ensembles d obets dont la cardinalité n est imortante car elle ermet de rendre comte des différences de densité au sein du nuage des oints-obets. Si le nombre d observations est suffisamment faible, il est alors ossible de roeter chacune des observations avec leur identifiant. Cela ermet de vérifier la configuration de réonses fournies ar des sous-ensembles articuliers d obets. Ce grahique ermet de constater que la remière dimension (axe horizontal D) séare les vis (screw) et les boulons (bolt), qui ont un filetage (thread), des clous (nail) et des unaises (tack) qui n en ont as. De façon moins rononcée, cette remière dimension instaure une séaration entre les boulons (bolt) qui ont Revue MODULAD, Numéro 38
8 une base late et tous les autres obets (qui ont une base ointue). La seconde dimension (axe vertical D) séare les obets screw et nail6 de l ensemble des autres obets : ces deux obets sont les lus longs (cf. figure ). Notons également que screw aaraît comme l obet le lus éloigné de l origine : la configuration des caractéristiques de cet obet aaraît comme très sécifique uisqu elle n est artagée ar aucun autre obet. screw3 screw5 screw4 tack nail tack tack screw nailb bolt bolt3 nail bolt4 0 nail3 bolt5 - nail4 bolt6 nail5 - bolt nail8-3 screwb nail7 screw Dimension -4-5 nail6 -,5 -,0 -,5 0,0,5,0,5 Dimension Figure 4 : étiquetage des obets dans le lan des deux remières dimensions. Ceendant, la ratique des variables illustratives (cf. infra.5) dans l établissement des grahiques facilite la synthèse de ces informations : our chacun de ces grahiques illustratifs, les obets sont étiquetés à artir de la alette de valeurs catégorielles issue de la variable illustrative sélectionnée. La rocédure HOMALS ermet de sécifier les variables illustratives utilisées our roduire une rerésentation grahique de la densité des différentes modalités de réonse. Revue MODULAD, Numéro 38
9 .3. Mesures du ouvoir discriminant La mesure du ouvoir discriminant d un critère relativement à une dimension eut se définir comme le ourcentage de variance de la dimension exliqué ar ce critère. La valeur maximum de cet indicateur est égale à si tous les obets se réartissent sur l ensemble de ces catégories (caractère comlet de la nomenclature des catégories) et si les obets aartenant à la même catégorie se révèlent identiques en termes de configuration descritive relativement aux autres critères. S il y a des données manquantes dans le tableau analysé, l indice du ouvoir discriminant du critère eut être suérieur à. Cette mesure du ouvoir discriminant étant calculée comme la moyenne ondérée, ar la fréquence des catégories, des carrés des coordonnées des catégories (quantifications). Dans le langage de l analyse des corresondances, il s agit de la moyenne ondérée des qualités de rerésentation des modalités de cette variable sur l axe factoriel. Le ouvoir discriminant d un critère est d autant lus élevée= que ses catégories résentent une disersion imortante de leurs coordonnées selon la dimension examinée. La moyenne des indices de discrimination sur l ensemble des critères est égale our chaque dimension à la valeur rore corresondante, exrimant ainsi la variance de cette dimension. Les dimensions sont ordonnées dans l ordre décroissant de leur variance, les valeurs rores étant extraites ar ordre d imortance décroissant : la direction de la remière dimension corresond au vecteur rore associé à la remière valeur rore (la lus élevée) ; la direction de la seconde dimension corresond au second vecteur rore associé à la seconde valeur rore en imortance ; etc. Le diagramme des mesures du ouvoir discriminant indique que la remière dimension est constituée ar une synthèse des variables thread (résence d une ointe) et bottom (forme de la base) : les deux variables résentent des niveaux d indice de discrimination imortants our la ère dimension et faibles our la nde dimension. Ainsi, les catégories de ces variables sont bien disersées selon l axe D et eu disersées selon l axe D. Inversement, la variable length résente une valeur élevée de l indice de discrimination selon l axe D et une valeur faible our l axe D. En conséquence, l angle entre le vecteur corresondant à cette variable et la nde dimension est faible, la valeur de l indice selon l axe D corresondant au carré du cosinus de l angle. Cet indice, assimilable au carré d un coefficient de corrélation (R ), exrime la similarité entre les deux directions, et reflète la ségrégation observée selon la nde dimension sur le diagramme des obets entre les obets les lus longs (situés dans le demi-lan D<0) et l ensemble des autres obets (situés dans le demi-lan D>0). Remarquons également que les variables concernant la forme et l indentation de la tête résentent des valeurs imortantes de leurs indices de discrimination selon les deux dimensions. Par contre la variable brass située rès de l origine du grahique n aaraît as comme discriminante dans ce lan des deux remières dimensions, l ensemble des obets ouvant osséder ou non le caractère cuivré. Pour la même raison, la variable length ne eut être liée à la ère dimension uisqu elle ne discrimine les obets que dans la nde dimension. Revue MODULAD, Numéro 38
10 Discrimination Measures,0,8 Length in ha Indentation Head form,6,4 Dimension, BRASSN 0,0 Bottom shae THREADN 0,0,,4,6,8,0 Dimension Figure 5 : mesure du ouvoir discriminant selon les deux remières dimensions. Si l indice de discrimination indique quelle est la art de variance exliquée ar une variable our chaque dimension, il ne ermet as de distinguer entre les variables dont les catégories résentent une disersion moyenne selon une dimension et celles dont la luart des catégories ont des coordonnées similaires à l excetion de certaines d entre elles très différentes..4. Quantifications des catégories En revanche, les roections grahiques des catégories ermettent de caractériser récisément les relations entre catégories d une même variable mais aussi entre catégories de variables distinctes, en situant chaque catégorie sur un même grahique au moyen de leurs quantifications selon chaque dimension (équivalent des coordonnées factorielles des rofils catégoriels dans l analyse des corresondances multiles). Ainsi, la variable length ossède cinq catégories dont trois sont localisées dans la artie suérieure du grahique (demi-lan D>0) et les deux autres (soit,5 et,5 ) se situent dans la artie inférieure du grahique (demi-lan D<0). En outre, la catégorie étiquetée _/_in (soit,5 ) située à l extrémité négative de la nde dimension, se singularise très nettement ar raort à l ensemble des autres catégories, reoignant en cela la catégorie STAR (tête en étoile ou cruciforme) de la variable Indentation of head (indentation de la tête). En fait, la catégorie _/_in est située au oint moyen Revue MODULAD, Numéro 38
11 (barycentre) des localisations des deux obets qui artagent cette sécificité, soit screw et nail6. La catégorie STAR se situe exactement au lieu géométrique de roection de l obet screw qui est le seul à résenter cette indentation cruciforme de la tête. Cette catégorie STAR se différencie des deux autres catégories (SLIT fente et NONE sans indentation) selon la nde dimension. Quantifications 0 SLIT NONE _/_in - - _/_in Length in half-inche -3 BRASSN Dimension -4-5 STAR Bottom shae Indentation of head Head form THREADN -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Figure 6 : quantification des catégories. La disersion des catégories d une variable selon une dimension articulière reflète la variabilité de la configuration des réonses et constitue un indicateur de son ouvoir discriminant relatif à cette dimension. Ainsi, selon l axe horizontal D, les catégories de la variable THREADN (codage numérique de la variable thread) sont très disersées alors qu elles ne le sont as selon l axe vertical D. Il s en suit que la variable thread discrimine mieux les obets selon la ère dimension que selon la nde dimension. En revanche, les catégories de la forme de la tête (Head form) sont autant disersées selon l axe D que selon l axe D. On en conclut que le ouvoir discriminant de cette variable est équivalent selon les deux dimensions. Une variable dont les catégories sont lus disersées selon une dimension ossède un ouvoir discriminant lus imortant selon cette dimension qu une autre variable dont les catégories sont roetées de façon moins disersées. Par exemle, selon la ère dimension, les deux catégories de la variable BRASSN (codage numérique de la variable brass - caractère cuivré) Revue MODULAD, Numéro 38
12 sont beaucou moins disersées que les deux catégories de la variable THREADN, indiquant que la variable thread ossède un ouvoir discriminant lus imortant que celui de brass selon cette dimension (vérifiable en figure 5, d arès les niveaux relatifs de la mesure de discrimination des deux variables considérées)..5. Grahiques illustratifs On eut éventuellement ousser lus loin l analyse en consultant les différents grahiques illustratifs roetant individuellement, our chaque variable, les obets étiquetés ar le codage des catégories. L utilisation de ces variables illustratives montre que la ère dimension séare arfaitement le groue des articles ossédant une ointe, étiquetés Yes_Thread et situés dans le demi-lan [ D<0 ], du groue de ceux qui n ont as de ointe, étiquetés No_Thread et situés dans le demi-lan [ D>0 ]. Cette différenciation arfaite en fait un indicateur bien corrélé à la ère dimension. Obect Scores Labeled by THREADL 0 Yes_Thread Yes_Thread Yes_Thread Yes_Thread No_Thread No_Thread No_Thread Yes_Thread Yes_Thread No_Thread - No_Thread - Dimension -3-4 Yes_Thread -3,0 -,0 -,0 0,0,0,0 3,0 Dimension Cases weighted by number of obects. Figure 7 : roection des obets, variable illustrative THREADL («résence d une ointe»). Revue MODULAD, Numéro 38
13 La roection des obets étiquetés ar la forme de la tête (Head form) montre que celle-ci discrimine bien les articles dans les deux dimensions. Les obets à tête late (FLAT) sont situés dans le quadrant suérieur droit [ D>0 & D>0 ] tandis que les articles dont la tête est en coue (CUP) sont situés dans le quadrant inférieur droit [ D<0 & D>0 ]. Les obets à tête conique (CONE) sont situés dans le quadrant inférieur gauche [ D<0 & D<0 ] mais on observe que ces obets sont beaucou lus disersés que dans les autres catégories. Dans le quadrant suérieur gauche [ D>0 & D<0 ], les obets à tête cylindrique (CYLINDER) ne euvent être distingués des obets à tête ronde (ROUND). Obect Scores Labeled by Head form CYLINDER ROUND CYLINDER CYLINDER ROUND ROUND FLAT FLAT FLAT 0 CONE CONE CUP - CUP - -3 CONE Dimension ,0 -,0 0,0,0,0 Dimension Cases weighted by number of obects. Figure 8 : roection des obets, variable illustrative HEADL («forme de la tête»). Revue MODULAD, Numéro 38
14 Le grahique selon les catégories de longueur montre que ces catégories se distinguent non as selon l axe horizontal du grahique mais lutôt selon l axe vertical. Ce constat confirme l analyse selon laquelle les catégories de la variable length ne discriminent as les obets selon la ère dimension mais seulement selon la nde, les obets les lus courts étant situés dans le demi-lan [D>0] Obect Scores Labeled by Length in half-inches 0 - /_in _in_in /_in /_in /_in /_in _in _/_in _/_in - -3 Dimension -4-5 _/_in -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects. Figure 9 : roection des obets, variable illustrative LENGHTL«longueur en ouces» Le grahique illustratif à artir de la variable BRASS (caractère cuivré ou non de l obet) ne ermet as de mettre en évidence une différenciation nette des obets selon l une ou l autre des deux remières dimensions. Revue MODULAD, Numéro 38
15 .6. Filtrage des observations atyiques Une fois identifiées les observations atyiques comortant tro de caractéristiques qui leur sont rores, on eut les exclure de l analyse ar filtrage, ermettant ainsi de se focaliser sur les hénomènes dont l occurrence n est as marginale. Si l on réitère l analyse d homogénéité arès un traitement excluant cette observation ugée atyique, on constate un léger changement au niveau des valeurs rores qui ne modifie as de manière radicale l ordre de grandeur de leur taux d inertie. Pour autant, on ne doit as conclure sans examen réalable à la quasi-équivalence des deux analyses Le grahique des mesures de discrimination indique désormais que l indentation de la tête («head indentation») ne discrimine lus les obets selon la nde dimension mais seulement selon la ère dimension, tandis que le caractère discriminant de la variable brass (cuivré ou non) se manifeste désormais selon la nde dimension. Les indices de discrimination des autres variables demeurent inchangés dans ces deux remières dimensions. lenght in half inch,0 Discrimination Measures head form brass,8,6 bottom shae,4, thread Dimension 0,0 -, 0,0,,4,6,8,0 head indentation Dimension Figure 0 : mesures de discrimination, arès filtrage de l obet atyique. Revue MODULAD, Numéro 38
16 Le grahique des obets étiquetés ar la variable brass montre que les obets cuivrés («YES_Br») sont désormais roetés à l extrémité négative de la nde dimension (zone [ - <D<- ]) alors que les obets non cuivrés («Not_Br») sont roetés dans le demi-lan [ D>- ], confirmant ainsi le ouvoir discriminant de la variable brass selon la nde dimension. Obect Scores Labeled by BRASSL,0 Not_Br,5,0,5 0,0 -,5 Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br Not_Br -,0 Dimension -,5 -,0 YES_Br YES_Br -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects. Figure : roection des obets étiquetés ar BRASSL, arès filtrage de l obet atyique Revue MODULAD, Numéro 38
17 La roection illustrative des obets étiquetés ar les catégories relatives à l indentation de la tête («Indentation of head») montre que la remière dimension ermet de discriminer arfaitement les obets non indentés («NONE») des obets indentés («SLIT»), comme dans l analyse récédente. Ceendant, la nde dimension ne discrimine lus les catégories d indentation, à l inverse de l analyse récédente. Obect Scores Labeled by Indentation of head,0 NONE,5,0,5 0,0 -,5 SLIT SLIT SLIT SLIT SLIT SLIT SLIT NONE NONE NONE -,0 Dimension -,5 -,0 SLIT NONE -,0 -,5 -,0 -,5 0,0,5,0,5,0 Dimension Cases weighted by number of obects.. Figure : roection des obets étiquetés ar indentation de la tête («INDHEADL»), arès filtrage de l obet atyique Revue MODULAD, Numéro 38
18 3. L ANALYSE D HOMOGENEITE, POUR UNE REPRESENTATION OPTIMALE DES CATEGORIES. 3.. Le concet d homogénéité Déveloée ar le groue Albert Gifi 4, la rocédure HOMALS se base sur le concet d homogénéité, que l on eut définir de la manière suivante. Soit le vecteur z, =, L, contenant les observations faites sur les n individus, d une oulation, corresondant à la variable. Z Le vecteur z est homogène à x, vecteur unitaire (de norme ), si et seulement si arès une transformation t de normalisation (tel que t z = ), on a x = t ( z ). suit : z ( ) Si le vecteur n est as homogène à x, on définit la erte d homogénéité comme σ ( x, t) = = t ( x t ( z )( x t ( z ). 3.. La rocédure HOMALS Soit la matrice des indicatrices de codage corresondant aux indicatrices de codage d une variable Z qualitative à modalités. La transformation t du vecteur z eut être définie Z ( ) Z Y k ar t z = où Y est une matrice à n k coefficients. La rocédure HOMALS consiste à minimiser la fonction de erte suivante : σ [ ] t ( X, Y) = trace ( X Z Y )( X Z Y ) = sous les contraintes d orthonormalisation t XX = ni et de centrage X = Equivalence avec l analyse des corresondances multiles [Gifi, 990] résente l analyse d homogénéité comme la résolution d un roblème de décomosition sectrale, soit en valeurs singulières, soit en valeur rores, qui fournit en fait les facteurs d une analyse des corresondances multiles. Cette résentation est issue du travail de [Tenenhaus et Young, 985] qui établit un cadre concetuel commun our analyser les relations entre différentes méthodes multivariées d analyse de données catégorielles, montrant ainsi l équivalence entre analyse des corresondances multiles et analyse d homogénéité. L analyse d homogénéité eut également être vue comme une technique de ositionnement multidimensionnel restituant une image euclidienne (à artir de grahiqueslans) des «dissimilarités» constituées ar les distances du Khi-Deux entre rofils-lignes. 4. EFFECTUER UNE ANALYSE D HOMOGENEITE AVEC SPSS Pour obtenir une analyse d homogénéité sous SPSS, il convient de créer ar recodage, à artir du tableau des données alhanumériques (cf. figure ), un tableau numérique comortant l ensemble des variables à analyser. Pour ce faire, il faut utiliser la rocédure de recodage automatique <Automatic Recode> du menu de transformation <Transform>, créant ainsi la variable threadn (codage 4 Albert Gifi fût durant quarante années le maître d hôtel de Sir Françis Galton [Gilham, 00] avant de devenir le nom collectif des membres du Deartment of Data Theory de l Université de Leiden (Pays-Bas). Ce groue, constitué autour de Jan de Leeuw a mis au oint un système our l analyse multivariée non linéaire qui recouvre de multiles techniques factorielles allant de l analyse en comosantes rinciales à l analyse canonique. Le travail de ce groue est résenté dans l ouvrage [Gifi, 990] Revue MODULAD, Numéro 38
19 numérique) à artir de la variable thread (codage alhanumérique) ar transformation des catégories rises dans un ordre lexicograhique croissant (cf. figure 3). Figure 3 : recodage des variables alhanumériques en variables numériques. Figure 4 : variables numériques recodées. Dans une seconde étae, il faut créer ar recoie autant de variables illustratives qu il y a de critères articiant à l analyse. Pour ce faire, il suffit de sélectionner les variables recodées en Revue MODULAD, Numéro 38
20 cliquant avec la touche «Control» maintenue enfoncée («Ctrl+Clic») sur les colonnes corresondantes de l éditeur des données (cf. figure 5). Figure 5 : sélection multile ar Ctrl+Clic des variables numériques recodées. Ensuite, il faut sélectionner à artir du menu <Edit>, la commande <Coy> (avec le clavier, faire un <Ctrl+C>), our ouvoir coller (menu <Edit>, commande <Paste>, ou équivalentclavier faire un <Ctrl+V>), arès avoir effectué une sélection multile de cinq colonnes vides : Figure 6 : fichier des variables numériques, actives et illustratives. Revue MODULAD, Numéro 38
21 Pour obtenir une analyse d homogénéité, il faut sélectionner à artir du menu <Analyse>, la rocédure <Otimal Scaling> du menu <Data Reduction>, en choisissant les otions corresondantes (otions ar défaut de la rocédure, soit un seul ensemble de variables avec toutes les variables considérées comme nominales) : Figure 7 : otions corresondant à l analyse d homogénéité La remière étae de la sécification de la rocédure consiste à sélectionner les variables actives de l analyse (threadn, headn, indheadn, bottomn, brassn, lenghtn) en définissant our chacune d entre-elles le nombre de modalités : Figure 8 : sécification des variables actives. Revue MODULAD, Numéro 38
22 Dans la seconde étae, on sécifie les variables illustratives de l analyse (obectl, threadl, headl, brassl, lenghtl) en définissant également our chacune d entre-elles le nombre de modalités : Figure 9 : sécification des variables illustratives La dernière étae de cette sécification concerne le choix du nombre de dimensions (nombre d axes factoriels) choisies our la rerésentation grahique des obets, des modalités et des variables. On choisit ici une rerésentation grahique en deux dimensions comme solution articulière au roblème d otimisation sous contraintes que ose l analyse formulée en terme d homogénéité (cf. 3). Les différentes otions de traitement euvent être choisies en utilisant le bouton <Otions >. Ces otions ortent sur les résultats (Dislay), les grahiques (Plot), la sauvegarde des coordonnées factorielles des obets (<Save obect scores>) et les critères de contrôle de l algorithme (Criteria). Figure 0 : choix des otions. Revue MODULAD, Numéro 38
23 Les résultats demandés (cf. section Dislay de la figure 0) sont les distributions marginales obtenues ar comtage (Frequencies), les valeurs rores (Eigenvalues), le ouvoir discriminant des variables actives (Discrimination measures), les coordonnées factorielles des modalités our chaque variable (Category quantifications), les coordonnées factorielles des obets (Obect scores). Les grahiques demandés (cf. section Plot de la figure 0) sont le grahique factoriel des modalités de variables actives (Category quantifications), celui des obets (Obect scores) et le diagramme du ouvoir discriminant des variables selon chacune des dimensions (Discrimination measures). A ces grahiques s aoutent autant de grahiques de densité des obets étiquetés ar les modalités qu il y a de variables illustratives. La sauvegarde des coordonnées factorielles demandée (Save obect scores) s effectue dans le fichier d origine, mais eut être ultérieurement sauvegardé dans un fichier sécifique, comme suit, our de nouvelles analyses (classification sur axes factoriels) : Figure : sauvegarde des coordonnées factorielle des obets dans un fichier sécifique. Revue MODULAD, Numéro 38
24 Les macro-instructions du rogramme SPSS corresondant aux otions récédemment définies euvent être sauvegardées dans un fichier de syntaxe en utilisant le bouton <Paste> de la boîte de dialogue : Figure : sauvegarde des macro-instructions dans un fichier rogramme (extension «.SPS»). Le seuil de convergence (Convergence=.0000) et le nombre maximum d itérations (Maximum interations=00) ermettent de contrôler l algorithme itératif des moindres carrés alternés de la rocédure HOMALS dans la recherche d une solution. Iteration History Iteration Fit Difference from the Previous Iteration,3757,3757,849876,779 3,943649, ,966800,035 5,9768,000 6,980, ,98504, ,986838, ,98785,0003 0,988444,000593,988793,000349,988999, ,989,0003 4,98996, ,9894, ,98969, ,98987, ,98998, a,989306, a. The iteration rocess stoed because the convergence test value was reached. Tableau 4 : historique des itérations Dans cet exemle, l algorithme s arrête à l itération n 9 car l amélioration de l indice d austement (Fit) est devenue inférieure à la valeur du seuil de convergence. Revue MODULAD, Numéro 38
25 5. L algorithme itératif de la rocédure HOMALS de SPSS 5 L algorithme itératif HOMALS (Homogeneity Analysis by Means of Alternating Least Squares Analyse d Homogénéité ar Moindres Carrés Alternés) est la version moderne de la rocédure roosée initialement ar Guttman en 94 our l analyse des données catégorielles. Le traitement des valeurs manquantes est basé sur l introduction de ondérations nulles dans la fonction de erte (cf. De Leeuw & Van Rickevorsel, 980). D autres otions our le traitement des valeurs manquantes existent et sont basées sur le recodage (Gifi 98, Meulman 98). 5.. Notations En l absence d autre convention exlicite, nous utilisons dans l exosé de cet algorithme les notations suivantes : n nombre d observations (ou obets) nombre de variables (ou critères) s nombre de dimensions (ou facteurs) Pour chaque critère, =, L, m h vecteur n des observations catégorielles k nombre de catégories (ou modalités)du critère Z matrice n k des indicatrices de modalités our le critère ( ) z ik O si l' observation i aartient à la catégorie k du critère élément matriciel de G = 0 sinon matrice-filtre n n des indicatrices d observations our le critère ( ) o ii élément matriciel de D D [, k ] si l' observation i aartient à l'intervalle M = 0 sinon matrice diagonale des oids contenant les effectifs marginaux des modalités du critère matrice diagonale k k des effectifs marginaux des modalités. Les matrices de coordonnées factorielles sont : X matrice n s des coordonnées factorielles des observations (obets) selon les s dimensions Y matrice k s des coordonnées factorielles des modalités du critère selon les s dimensions Y matrice concaténée k des coordonnées factorielles de l ensemble des modalités 5 Cette section est une libre traduction du document technique corresondant fourni ar SPSS Revue MODULAD, Numéro 38
26 5.. Formulation du rogramme d otimisation de la fonction obectif L obectif d HOMALS est de trouver une matrice X et un ensemble de matrices Y (our =, L, ) tel que la fonction obectif : ( ) σ X, Y = tr ( X Z Y ) ( X Z Y ) soit minimale sous la contrainte de normalisation X O X = ni s, où O = O est la matrice-obet et I est la s s s matrice identité. L introduction des matrices-filtres O ermet de contrôler qu aucune des valeurs observées actives our le critère ne sorte de l intervalle sulémentaires ( o = 0). ii [, ]. La matrice-obet O définit ainsi our chaque obet i k l ensemble des observations actives de l analyse ( o Les coordonnées factorielles de chaque obet sont centrées, ce qui eut s écrire : où u est le n -vecteur constant de comosante scalaire égale à Algorithme itératif d otimisation Les rinciales étaes de l algorithme d otimisation sont les suivantes : i) Initialisation ; ii) Calcul des coordonnées factorielles des obets ; iii) Orthonormalisation ; iv) Calcul des coordonnées factorielles des modalités v) Test de convergence : si oui, oursuivre ; si non, aller en ii) ; vi) Rotation. ii = ) et l ensemble des observations u O X = 0, i) Initialisation La matrice X des coordonnées factorielles est initialisée ar tirage aléatoire sous contraintes de centrage ( u O X = 0 ) et de normalisation ( X O X = ni s X ~ ). A artir de la matrice normalisée, o n obtient une remière aroximation des coordonnées factorielles des catégories du critère, soit ~ ~ Y D G X. = ii) Calcul des coordonnées factorielles des obets Dans un remier tems, on définit, comme intermédiaire de calcul, une matrice W suivant : ~ W O G Y Dans un second tems, on centre cette matrice ar raort à l ensemble des obets actifs de l analyse en renant en comte le filtrage réalisé ar la matrice-obet O : ~ W ( O [ O uu O u / O u] )W Ces deux étaes conduisent à des solutions localement otimales si on n alique as de contraintes d orthogonalité. Revue MODULAD, Numéro 38
27 iii) Orthonormalisation + La rocédure d orthonormalisation consiste à trouver une matrice X, M -orthonormale, qui soit la lus roche ossible, au sens des moindres carrés, de la matrice W ~. Cette matrice est obtenue en aliquant la rocédure d orthormalisation de Gram-Schmidt (rocédure GRAM, reris de Börk et Golub, 973), selon l équation suivante : X + ~ M GRAM M W ( ) ce qui, à une rotation rès, conduit à la solution des moindres carrés. iv) Calcul des coordonnées factorielles des modalités + Pour chaque critère, on calcule la matrice Y des quantifications de ses modalités, comme suit : ~ Y + D G X = v) Test de convergence + + La différence { ( X ~ Y ~ σ, ) σ ( X, Y )} entre deux évaluations successives de la fonction obectif est comarée à la sécification ε du seuil de convergence, fournie ar l utilisateur. Les étaes ii) à iv) sont réitérées tant que la différence est suérieure au seuil de convergence fixé. vi) Rotation La fonction de erte σ ( X,Y) étant invariante ar rotation simultanée de X et de Y, la rocédure itérative ne fournit as nécessairement une orientation correcte our les axes factoriels. En effet, du oint de vue théorique, la solution en dimension s fournit les s remiers axes factoriels de la solution à s+ dimensions, ce que ne garantit as cet algorithme itératif. L imbrication des différentes solutions est obtenue ar extraction des vecteurs rores de la matrice Y D Y le calcul s effectuant ar la méthode de tridiagonalisation de Householder en utilisant l algorithme QL roosé ar [Wilkinson, 965] Diagnostics Rang maximum 6 Le rang maximun indique le nombre maximum de dimensions qui euvent être extraites des données, soit : s ( ) ( ) max = min n, k max l, l où m est le nombre de variables sans valeurs manquantes, k est le nombre de catégories distinctes l s max du critère et n, le nombre d observations. Bien que le nombre de dimensions non-triviales uisse être inférieur à s lorsque =, la rocédure HOMALS ermet de sécifier des cardinalités de max s max dimension qui vont usqu à. 6 Imrimé en guise d avertissement lorsque la dimension de la solution demandée excède le rang de l oérateur d inertie. Revue MODULAD, Numéro 38
28 Marges Le tableau des sommes de colonne de la matrice D fournit directement les effectifs marginaux des modalités du critère. La somme des éléments de la matrice O donne indirectement (en la soustrayant de n) le nombre de valeurs manquantes 7 our les modalités de chaque critère. Pouvoir discriminant Le ouvoir discriminant d un critère selon une dimension s est défini ar : ( ) ( ) s = y η s D y s n Il est constitué ar la variance de la roection du critère selon la dimension s. Comte tenu du fait que la trace est un oérateur invariant ar changement de base, la somme des valeurs rores eut se calculer comme somme des ouvoirs discriminants sur l ensemble des critères, soit : λ s = η s s s La valeur minimale de la erte d homogénéité σ ( X,Y) est égale à s η s. s 6. REFERENCES BIBLIOGRAPHIQUES Benzécri J.-P. (973) L analyse des données. Tome II L analyse des corresondances, Dunod, 63. Bö rk A. et Golub G. H. (973) «Numerical methods for comuting angles between linear subsaces», Mathematics of Comutation, 7: De Leeuw J. et Van Rickevorsel, J. (980) «HOMALS and PRINCALS Some generalizations of rincial comonents analysis», in: Data Analysis and Informatics, E. Diday et al, eds. Amsterdam: North-Holland. Gillham N.W. (00) A Life of Sir Francis Galton : from African Exloration to the Birth of Eugenics, Oxford University Press. Gifi A. (98) Nonlinear multivariate analysis, Leiden, Deartment of Data Theory. Gifi A. (990) Nonlinear Multivariate Analysis, Wiley, 579. Guttman L. (94) The quantification of a class of attributes: A theory and method of scale construction. In: The Prediction of Personal Adustment, P. Horst et al, eds. New York: Social Science Research Council. Hartigan J.A. (975) Clustering Algorithms. Wiley, New York, 35. Lebart L (975) «L orientation du déouillement de certaines enquêtes ar l analyse des corresondances multiles», Consommation, n, , Dunod. Meulman J. (98). Homogeneity analysis of incomlete data, Leiden, DSWO Press. 7 Ou encore exclues de l analyse car les valeurs observées n aartiennent as à l intervalle des catégories admises [, ]. k Revue MODULAD, Numéro 38
29 Meulman J.H., Heiser J.H. (00) SPSS Categories.0, SPSS Inc., Chicago, 330. Nishisato S. (980).Analysis of categorical data: Dual scaling and its alication. University of Toronto Press, Toronto. SPSS (994) SPSS 6. Categories, SPSS Inc., Chicago, 09. Tenenhaus M., Young F.W. (985) «An analysis and synthesis of multile corresondence analysis, otimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data», Psychometrika, 50, Wilkinson J. H. (965) The algebraic eigenvalue roblem, Oxford: Clarendon Press. Portrait de Sir Francis Galton avec son maître d hôtel Albert Gifi Source : htt:// Revue MODULAD, Numéro 38
30 Annexe algébrique sur l analyse de l homogénéité 8 A Introduction A. Le groue Gifi L analyse de l homogénéité constitue le aradigme concetuel du système d analyse multivarié non linéaire déveloé ar le groue Gifi. Albert Gifi est le nom collectif choisi ar les membres du Deartment of Data Theory de l Université de Leiden (Pays-Bas). Ce groue, constitué autour de Jan de Leeuw a mis au oint un système our l analyse multivariée non linéaire résenté dans l ouvrage [Gifi, 990]. La méthodologie déveloée ar le groue Gifi couvre un très large éventail de méthodes d analyse exloratoire des données multivariées, rincialement des techniques factorielles allant de l analyse en comosantes rinciales à l analyse canonique. A. Le concet d homogénéité Le concet d homogénéité auquel se réfère ces travaux formalise un des aradigmes fondateurs de la sychométrie selon lequel des critères différents euvent mesurer une même caractéristique. Lorsque des variables distinctes (résultats aux tests, réonses aux questions, items choisis) semblent lus ou moins mesurer une même caractéristique, elles sont qualifiées d «homogènes». A.3 L obectif de l analyse d homogénéité Suosons que nous ayons rassemblé des données sur une oulation de n obets (individus, roduits, régions, etc.) à artir de critères résentant un nombre fini de catégories selon lesquelles se distribuent les obets étudiés. L obectif de l analyse d homogénéité est de rerésenter la structure que roette sur cette oulation (i.e. les rofils de comortement) la batterie des critères d observation utilisés, ceux-ci ouvant résentant des échelles de mesure différentes. Les échelles de mesure utilisées ar ces critères ou variables catégorielles à k catégories euvent être numériques (les catégories rerésentent des intervalles de mesure disoints), ordinales (les catégories sont ordonnées) ou nominales (les catégories codent simlement l aartenance à une classe). L obectif de l analyse d homogénéité est donc de rerésenter les obets étudiés et les critères d étude dans un esace euclidien de faible dimension (rerésentation multivariée à s dimensions s < ) en renant en comte les contraintes imosées ar les différentes échelles de mesure utilisées. Cette rerésentation euclidienne constitue la solution du rogramme de maximisation de l homogénéité associé à l analyse d homogénéité, s étant aelée la dimension de la solution. A.4 La méthode de rerésentation Le choix de la méthode de rerésentation s effectue ar l intermédiaire de l otimisation d une fonction-obectif mesurant l homogénéité. Cette rocédure d otimisation ermet de calculer des valeurs, scores et quantifications, utilisées our construire une rerésentation géométrique dans un esace euclidien de faible dimension des relations, resectivement entre obets étudiés et entre catégories des critères d observation. 8 Cette annexe s insire très largement des ouvrages cités, en articulier de [Meulmann, 98]. Revue MODULAD, Numéro 38
31 En théorie, les valeurs observées our ces variables catégorielles distinctes mais homogènes euvent être remlacées ar la valeur unique d une variable synthétique x. A.5 La mesure de l homogénéité Pour des variables catégorielles numériques, un changement d échelle sécifique oéré ar une transformation linéaire eut amener les valeurs de chaque critère à coïncider avec celles de la variable synthétique. Ces critères sont alors homogènes. Ce n est as touours le cas, on eut alors utiliser des transformations non linéaires our les rendre homogènes. Les critères étudiés sont alors homogénéisables. En ratique, les batteries de critères étudiés ne sont as touours arfaitement homogénéisables. C est souvent le cas lorsqu elles comortent des variables ordinales voire nominales. On se contente alors d une solution arochée ourvu que la erte d information induite ar l agrégation des différents critères soit minimale. Le défaut d homogénéité eut être assimilé aux différences constatées entre les critères étudiés our chacun des obets ( écarts internes aux obets). Ces écarts internes aux obets doivent être distinguées des différences sécifiques entre obets constatées our des critères homogènes (écarts entre obets). Une mesure ossible de ce défaut d homogénéité consiste à raorter la mesure de ces différences internes (somme des carrés des écarts internes aux obets) à celle des différences sécifiques (somme des carrés des écarts entre obets) ou ce qui est équivalent au total des différences (somme totale des carrés des écarts). En substituant une variable synthétique à la batterie de critères étudiés, on établit une relation d équivalence entre la mesure de l homogénéité imarfaite de ces variables catégorielles et la erte d information liée à leur agrégation selon une échelle unique de catégories : maximiser l homogénéité revient à minimiser la erte d information. Pour une mesure normalisée de l homogénéité sur un intervalle [ 0 ; ], on eut formaliser cette relation d équivalence ar l équation : mesure d homogénéité = erte d information [] A.6 Les rincies de l analyse d homogénéité A l issue de cet exosé informel, récaitulons les rincies qui constituent le fondement de l analyse de l homogénéité : i) une batterie de critères d observation numériques est dite homogène si toutes les variables qui la comosent sont liés ar une relation linéaire ; ces variables sont alors qualifiées d homogènes ; ii) iii) une batterie de critères d observation numériques est dite homogénéisable si elle eut-être rendue homogène au moyen de transformations ortant sur ces variables numériques ; une batterie de critères formée de variables numériques, ordinales ou nominales est homogénéisable si toutes ces variables euvent être transformées selon un rocessus de quantification suscetible de les rendre homogènes ; iv) l homogénéité d un ensemble de variables centrées est aréciée à l aune du raort entre la somme des carrés des écarts entre obets (SCE inter ) et la somme des carrés des écarts totale (SCE total ); l homogénéité arfaite corresond à la valeur our ce ratio, i.e. à une valeur nulle our la somme des carrés des écarts interne aux obets (SCE intra ) ; v) l analyse d homogénéité consiste à transformer les variables numériques ou à quantifier les variables ordinales ou nominales (en affectant une valeur numérique à chaque catégorie) our maximiser la mesure de l homogénéité. Revue MODULAD, Numéro 38
32 Pour oursuivre l analyse, il convient de donner une formulation lus récise à l énoncé de ces rincies en utilisant le cadre algébrique d un esace vectoriel où ob ets et critères sont rerésentés ar des vecteurs et leurs transformations sont rerésentées ar des matrices. A Analyse de l homogénéité en dimension A. Concets A.. Le tableau des observations Ainsi, le tableau des observations eut être rerésenté ar une matrice H de données catégorielles concaténant les vecteurs h, =, L,, chaque vecteur h contenant les observations h i corresondant au critère ou variable catégorielle sur l individu i de la oulation des n obets observés : h L h L h M M M H = [ h ] = h i L hi L h, L, h, L, h i M M M hn L hn L hn Suivant l équation [], maximiser l homogénéité revient donc à minimiser la erte d information lorsque l on remlace la batterie de critères { h, L, h, L, h } ar une variable synthétique x. Tableau A : le tableau des données catégorielles. id threadn headn indheadn bottom n lengthn brassn Le tableau des données catégorielles ci-dessus code l aartenance des n=4 obets observés aux catégories de l analyse our les =6 critères d observations retenus. Revue MODULAD, Numéro 38
33 A.. Une mesure de la erte d information L élaboration d une solution accetable à ce roblème de substitution asse en règle générale ar la minimisation d une fonction-obectif mesurant la erte d information que l on aelle le σ x, définie ar : stress, et que l on notera ( ) ( x) = = σ x h [] où x h désigne une fonction quadratique des écarts (norme) entre le critère h et la variable synthétique x. x h = SCE x h, Si cette fonction quadratique est la somme des carrés des écarts ( ) alors il s agit du carré de la norme euclidienne usuelle notée σ = = ( x) = SCE ( x h ) = x h h x : Si la norme utilisée est la racine carrée de la somme des carrés des écarts ( x h euclidienne du vecteur x h ), l otimum atteint ar la fonction obectif est constitué ar la moyenne arithmétique, notée h., norme A..3 Définition de la erte d homogénéité Reliant erte d information et homogénéité sur la base de cette relation d équivalence, le groue Gifi a reris la méthode initialement roosée ar Louis Guttman ([Guttman, 94] our la recherche d un «score», échelle d attitudes commune à une batterie de critères qualitatifs. En synthétisant l ensemble des observations effectuées sur les individus ar une seule et même variable qui maximise l homogénéité d une batterie de critères, on eut introduire simultanément un oérateur de différenciation des individus en cherchant des transformations de critères (ar exemle, en aliquant un système de oids { y, L, y, L, y }) qui ermettent ar substitution de la moyenne ondérée des variables catégorielles ainsi transformées d obtenir des scores individuels (valeurs individuelles our la variable synthétique x calculée arès transformations) qui soient les lus différents ossibles entre obets. En désignant ar y le vecteur des oids { y, L, y, L, y }, on aboutit ainsi à un σ x, y, défini ar : rogramme de minimisation d une fonction de erte, notée ( ) ( x y) σ, = x y h [3] = Les vecteurs h sont suosés centrés et le coefficient y ermet d effectuer une homothétie sécifique au vecteur h. Revue MODULAD, Numéro 38
34 Il en résulte une transformation linéaire du système de codage des catégories du critère. La solution du rogramme de minimisation de cette fonction de erte est une moyenne ondérée ~ y des h : h w = w h avec w =. = y A. Transformations linéaires = A.. Homogénéité et transformations linéaires Les transformations linéaires des variables euvent modifier à la fois les moyennes (ar translation) et les variances (ar homothétie). Dans un remier tems, travaillons avec des variables centrées (dont les valeurs sont des écarts à la moyenne) et rocédons au moyen de ondération sur l ensemble des variables. Soit t la transformation linéaire ar ondération sécifique à la variable h, telle que t [ h ] = y h avec y la ondération affectée à la variable. Les différences entre la variable synthétique x et les variables numériques h =, L sont alors exrimées ar la fonction de erte suivante :, σ ( x; ) = ( x [ h ]) = x [ h ] = t SCE t t x y h = σ (x; = = = Nous ouvons reformuler cett e fonction de erte en l écrivant sous forme d une somme des roduits scalaires des vecteur x y h ar eux-mêmes : σ ( ) ( x, y) = x y h = ( x y h ) ( x y h ) = = En déveloant cette exression et en remarquant qu un scalaire est égal à son transosé ( x h = h x ), on eut écrire la fonction de erte sous forme matricielle si l on définit la matrice D d ordre ar la diagonale de la matrice H H ( D = diag [ H H] ), où H figure la matrice des données d ordre n et y le vecteur des oids : ( x ; y) = x x + ( y h ) ( h y ) x ( h y ) = x x + y Dy x Hy = = En minimisant cette fonction, il convient d imoser une contrainte sur la taille du vecteur x ou du vecteur y our exclure la solution triviale où x et y sont nuls. Cette contrainte eut s exrimer comme une standardisation des scores individuels x x =. Une autre formulation ossible de cette contrainte est la standardisation des variables transformées, soit y Dy =. Les deux aroches donnant le même résultat à un facteur d échelle rès, nous travaillerons avec la remière contrainte ortant sur le vecteur des scores in dividuels. σ A.. Minimum sous contrainte de normalisation En utilisant la technique des multilicateurs de Lagrange, on eut déterminer le minimum de la fonction σ ( x;y) sous contrainte de normalisation x x = : en notant μ le multilicateur de Lagrange, cela revient à trouver le minimum d e la fonction f ( x, y, μ ) = σ ( x; y) μ( x x ). Les extrema sont obtenus en dérivant la fonction et en annulant ses dérivées artielles. Soit : y) Revue M ODULAD, Numéro 38
35 ( x, y, μ) ( ) f f x, y, μ = x μx Hy = 0 et = Dy x H= 0 x y y Dy ( D étant sy métrique, on a =Dy et on remarquera que D y = ( Dy) = y D ). y On en tire les équations normales, resectivement : Hy = ( μ)x et H x = Dy La matrice D étant diagonale, on en déduit la transformation barycentrique : y = D H x Par substitution de y en combinant les équations récédentes, on aboutit à l équation aux valeurs extrémales : HD H x = ( μ)x. σ atteint son minimum our la valeur de μ à l extrémum. En substituant H x à Dy, on obtient : σ ( x ; y) = x x + y H x x Hy = x x x Hy. En remlaçant Hy ar ( μ)x, on en déduit : σ x; y = x x μ x x = μ x x =. Montrons que la fonction de erte ( x;y) La fonction de erte ( ) ( ) ( ) μ σ x;y atteint donc son minimum our la valeur de μ à l extremum. A..3 Décomosition en valeur singulières Soit la décomosition en valeur singulières de rang r, éventuellement comlétée (ar -r valeurs nulles) de la matrice Z = HD d ordre n définie ar : Z U = V Λ où V est une matrice d ordre n r, orthonormale, i.e. telle que V V = I U est une matrice orthonormale d ordre r, i.e. telle que U U = Λ est une matrice diagonale d ordre r r dont les r valeurs diagonales ositives λ, L, λρ,l, λ r sont aelées valeurs singulières. A..4 Décomosition sectrale de la matrice des roduits scalaire entre obets n (analyse dans R ) Montrons que le vecteur des scores individuels x est le vecteur rore de la matrice HD H associé à sa lus grande valeur rore λ = ( μ ). En utilisant l orthonormalité de U, on en déduit Z = V Λ U et la décomosition sectrale de HD H = ZZ : HD H = ZZ = VΛV D où une nouvelle formulation de l équation aux valeurs extrémales ( μ ) x = HD H x = VΛV x = λx Si les valeurs singulières sont rangées ar ordre de grandeur décroissant, la solution de cette équation minimisant σ ( x; y) = μ est donnée ar λ l a lus grande valeur rore de l oérateur symétrique Z Z et x = v le vecteur rore associé (les colonnes de la matrice V sont vecteurs rores de Z Z ) : HD H x = λ x I Commentaire [DD] : I il s agit de la décomosition en valeur singulières d une matrice de rang r, «comlétée» ar des valeurs singulières nulles our atteindre l ordre [décomosition en valeurs singulières «maigre» (DSV, usqu au rang r) et décomosition en valeurs singulières leine (DVS, comlétée usqu à l ordre, cf. Jean-François Durand, Eléments de calcul matriciel et différentiel our l analyse factorielle des données, Université de Montellier II, olyalgmatcom.df] Revue MODULAD, Numéro 38
36 A..5 Scores individuels otimaux Ainsi, le vecteur x des scores individuels otimaux est le vecteur rore de la matrice HD H associé à la lus grande valeur rore λ = ( μ ). σ est minimisée our le v ecteur rore x corresondant à la lus La fonction de erte ( x;y) grande valeur rore de la matrice HD H et elle atteint donc son minimum en λ μ =. A..6 Décomosition sectrale de la matrice des roduits scalaires entre critères (analyse dans R ) En utilisant les équations normales Hy = ( μ)x et H x = Dy, on en déduit l équation aux valeurs extréma les our le vecteur des quantifications : H Hy = λdy. Les vecteurs colonnes de la matrice U sont vecteurs rores de la matrice Z Z des roduits scalaires entre critères, soit our le remier vecteur rore associé à λ : Z Z u = λ u. Le vecteur y des quantifications catégorielles est donné ar : y = λ D u A..7 Relations de transition Le assage des scores individuels aux quantifications catégorielles est assu ré ar les relations de transition : y = D H x et Hy = λx A..8 L algorithme du centrage réciroque Plutôt que de calculer la décomosition en valeurs singulières, l analyse d homogénéité utilise l algorithme du centrage réciroq ue (Recirocal Averaging - RA) déà mentionné dans [Fisher, 940]. Un tel algorithme, également a elé «moindres carrés alternés» (Alternating Least Squares ALS), eut être vu comme un algorithme de la uissance itérée our calculer la décomosition aux valeurs singulières ([Nishisato 980] en donne une reuve). L utilisation d un tel algorithme était initialement ustifiée ar sa faible comlexité en taille mémoire et son efficacité dans la recherche de la valeur rore maximale. Pour minimiser la erte de ouvoir discriminant, il faut à chaque itération l calculer les quantifications caté gorielles ~ y comme moyenne des scores individuels initiaux x ( 0) ( 0) (arbitrairement choisis en remière instance sous la condition x = 0 ), uis calc nouveaux scores ~ uler les x sur la base des quantifications catégorielles obtenues, enfin normaliser ces scores individuels ce qui termine l itération. Pour l itération l, on a donc les étaes suivantes : ( l ) : ~ y : = D H x : ~ x : = H~ y ( ) 3 : x l + : = ~ x( ~ x ~ x), sous la condition ~ x = 0 La réitération de ce cycle rodui t des scores ~ x et des quantifications ~ y qui, au bout d un certain nombre d itérations, n e se modifient lus de manière détectable. Ce coule de vecteurs tionnaires ( ~, ~ sta x y ) rerésente alors l otimum recherché et la norme ~ ~ ~ x = x x du Commentaire [DD] : ( ) H x H Hy = μ = λ Commentaire [DD3] : on eut vérifier que ce vecteur y vérifie l équation aux valeurs extrêmes : Hy = H H( λ D H u λ D Z Zu = λ D Commentaire [DD4] : Cet algorithme connu également sous le terme de dual scaling est signalé ar [Saorta, 990] sous le terme de «méthode des moyennes réciroques» (cf..5) Commentaire [DD5] : L algorithme de la uissance itérée est souvent utilisé en ratique our rechercher la valeur rore dominante. Revue MODULAD, Numéro 38
37 vecteur x~ stationnarisé nous fournit la lus grande valeur rore λ et donc la valeur minimale de la fonction de erte de ouvoir discriminant. A.3 Transformations non-linéaires A.3. Extension aux transformations non -linéaires Le concet d homogénéité est étendu aux transformations non linéaires ([De Leeuw & Van Rickevorsel, 980]) de la manière suivante : le vecteur h est dit homogène au score x, vecteur unitaire (de norme ) rerésentant la variable synthétique ciblée, si et seulement si arès une transformation τ de normalisation sécifique à chaque critère (c.à.d. telle que τ [ ] = h ), on obtient l égalité [ ] h Le vecteur transformé τ [ h ] constitu e une quantification du critère qualitatif. x = τ. Si le vecteur h n est as homogène à x, on définit la erte d homogénéité comme une fonction quadratique des écarts au score, que nous ouvons écrire vectoriellement : σ ( x, t) x τ [ h ] ( x τ [ h ]) ( x τ [ h ]) = = = = en utilisant le roduit d u vecteur-colonne ( x τ [ h ]) [ ] h [4] x τ ar son transosé, le vecteur-ligne La minimisation de cette fonction obectif sur l ensemble des critères analysés revient à rechercher un score x et des transformations non linéaires τ maximisant l homogénéité de la batterie de critères roosés. A.3. Indéendance vis à vis du codage Le assage des transformations linéaires aux transformations non linéaires s effectue en fait ar la recherche d une quantification des catégories qui constitue une solution invariante, c est à dire indéendante du codage utilisé initialement. Cette indéendance vis à vis du codage est obtenue en analyse d e l homogénéité ar l intermédiaire des indicatrices de codage ([Guttman, 94]). Les indicatrices de codage sont des variables logiques indiquant our chaque catégorie d un critère qualitatif quels sont les obets lui aartenant : ème si la variable vectorielle h codant le critère à k catégories comorte n observations codées ar un ensemble de catégories variant de à k, on crée une matrice indicatrice G à n x k élément s g ik définis ar : g = ik si hi = k «l obet i aartient à la catégorie k du critère» g ik = 0 si hi k «l obet i n aartien t as à la catégorie k du critère» A.3.3 Tableau disonctif comlet Afin de ouvoir oérer sur l ensemble des critères qualitatifs, on concatène les matrices indicatrices G dans un tableau booléen, matrice globale des indicatrices, notée G : G G = L G L G Revue MODULAD, Numéro 38
38 Tableau A : tableau disonctif comlet codant les n= 4 obets observés selon les catégories de l analyse our les = 6 critères d observations retenus G G G G 3 G 4 G 5 i thread thread head head head3 head4 head5 indhead indhead indhead3 bottom bottom lenght lenght lenght3 lenght4 lenght5 brass brass tot tot G 6 Revue MODULAD, Numéro 38
39 Ce tableau utilise un codage booléen de l information qualifié de «disonctif comlet» dans la mesure où chaque individu se situe dans une catégorie unique (la marge ligne de chaque matrice indicatrice G est égale à ). La somme de chaque ligne du tableau G est égale au nombre de critères qualitatifs et la somme de chacune de ses colonnes donne le oids de chacune des catégories. Le oids total du tableau est égal au roduit du nombre d obets observés ar le nombre de critères d observation : n. A.3.4 Tableau de Burt Le tableau de contingence généralisé C = G G (ou encore tableau de Burt) croisant l ensemble des critères contient la structure des inter-relations entre les catégories des différents critères. Il est imrimé ci-contre sous une forme triangulaire car ce tableau est symétrique et ossède donc k lignes et k colonnes. = = Bien qu il soit utilisé dans les calculs de la rocédure HOMALS, le tableau de Burt C n est as fourni ar le logiciel SPSS. A.3.5 Blocs diagonaux : matrices de ondération Les blocs diagonaux du tableau de Burt sont constitués ar des matrices D = G G, issues du roduit matriciel de G ar son transosé G. Elles sont diagonales avec une diagonale constituée ar la marge-colonne de G (donnant le nombre d obets aartenant à chaque catégorie k du critère ). D est la matrice de ondération des effectifs marginaux des catégories du critère. Tableau A3 : blocs diagonaux du tableau de Burt. D thread thread thread 0 thread 0 D head head head3 head4 head5 head head head head head D 3 idh idh idh3 idh 0 0 idh 0 0 idh3 0 0 Revue MODULAD, Numéro 38
40 Tableau A4 : tableau de contingence généralisé ou tableau de Burt our n=4 observations et =6 critères. C thread thread head head head3 head4 head5 indhead indhead indhead3 bottom bottom lenghtlenght lenght3 lenght4 lenght5 brass brass thread thread head head head3 head4 head5 indhead indhead indhead3 bottom bottom lenght lenght lenght3 lenght4 lenght5 brass brass Revue MODULAD, Numéro 38
41 En ne retenant que les blocs diagonaux ondération D, ossédant également de ondération globale. D du tableau de Burt C, on obtient une matrice de k lignes et k = = colonnes, qui constitue la matrice A.3.6 Blocs non diagonaux : tableaux de contingence simles Les blocs non diagonaux du tableau de Burt sont constitués ar des matrices C = G G, issues du roduit matriciel de G ar le transosé G. Le tableau de contingence non diagonal C corresond au tri croisé des critères et. Tableau A5 : bloc non-diagonal et sommation en ligne C4 head head head3 head4 head5 D4 bottom bottom bottom La somme de la k ème ligne d une matrice non diagonale C est égale au k ème élément diagonal de la matrice D quelque soit le critère de croisement. Tableau A6 : bloc non-diagonal et sommation en colonne bottom 6 0 bottom 9 3 bottom 0 8 D thread thread thread 0 thread 0 C thread thread head 9 0 head 0 3 head3 0 3 head4 3 0 head5 0 6 De façon symétrique, la somme de la k ème colonne d une matrice non diagonale (tri croisé) C est égale au k ème élément diagonal de la matrice D quelque soit le critère de croisement. Revue MODULAD, Numéro 38
42 A.3.7 Proecteurs orthogonaux Ultérieurement dans cet exosé, nous serons amené à utiliser le roecteur orthogonal qui ermet de roeter les obets dans le sous-esace engendré ar les variables indicatrices du codage du critère que sont les k vecteurs booléens de G : G G D ( G G ) P = G = G qui est une matrice d ordre n n. Ce roecteur est un oérateur symétrique ( P = P ) et idemotent ( P = P ). On eut en dériver une notion de roecteur moye n, noté P0, en effectuant la moyenne de ces oérateurs sur l ensemble des critères qualitatifs : P = P. 0 = P Commentaire [DD6] : P 0 orthogonal suose P P = 0, ce qui n est as le cas. A.3.8 Discrétisation et scores induits L oération de discrétisation des variables revient à remlacer le vecteur transformé τ [ h ] ar le roduit matriciel G y où y est le vecteur des quantifications our les k catégories du critère qualitatif. La fonction de erte s écrit alors : σ ( x, y) = x τ [ h ] = x G y = = Le vecteur q = G y à n éléments contient les résultats numériques de la transformation du critère qualitatif our chacun des obets, ces éléments étant aelés les scores induits. Le vecteur x contient également n éléments caractérisant chacun des obets, aelés les scores individuels. La fonction de erte mesure alors le défaut d austement entre les scores induits et les scores individuels. A.3.9 Otimisation globale de la fonction de erte Le but de l analyse d homogénéité eut être formulé selon deux oints de vue distincts : d une art, remlacer les vecteurs q ar un vecteur unique x, avec une erte d homogénéité minimale. Idéalement, cela revient à choisir les vecteurs y tels que les vecteurs q soient tous identiques. Dans ce cas, le vecteur x des scores induits rerésente une échelle unidimensionnelle commune dont les critères qualitatifs constituent des rerésentations homogènes ; d autre art, en artant du vecteur x des scores individuels, l obectif de minimisation de la erte d homogénéité sera atteint si nous choisissons ces scores de façon à ce que t ous les obets d une même catégorie artagent le même score, ce qui imlique que les vecteurs q soient identiques. Ainsi, le roblème d otimisation vu sous ces deux angles différents conduit à une solution où les scores individuels contenus dans x et les quantifications des catégories contenues dans les y soient arfaitement cohérentes, au sens suivant : x = G y = L = G y = L = G y Ces deux oints de vue conduisent à deux formulations distinctes du roblème d otimisation : la remière formulation en termes de erte d homogénéité, la seconde en termes de erte de ouvoir discriminant. Revue MODULAD, Numéro 38
43 La erte d homogénéité s observe lorsqu il n existe as de système de quantifications catégorielles { y Ly Ly } tel que x = G y = L = G y = L = G y. Cette formulation suose de artir des quantifications catégorielles y et de tester leur homogénéité en construisant un vecteur x des scores individuels. La erte de ouvoir discriminant intervient lorsqu il n existe as de vecteur de scores individuels x tel que x = G y = L = G y = L = G y. Cette formulation suose de artir des scores individuels x et de tester leur ouvoir discriminant avec un système de quantifications catégorielles y. Comte-tenu des différentes échelles de mesure utilisées ar l ensemble des critères d observation, un austement arfait des scores individuels et des quantifications catégorielles n est as réalisable en général : la résolution arochée du roblème de rerésentation asse donc ar la minimisation de la fonction globale de erte d homogénéité définie our les critères. Si la norme est la somme des carrés des écarts, la fonction de erte globale s écrit alors : σ ( x, y) = x G y = ( x G y ) ( x G y ) = = A.3.0 Minimisation de la erte de ouvoir discriminant Si l on minimise la fonction de erte globale our un vecteur de scores x donné relativement à un système inconnu y de quantifications, on est conduit d arès ce qui récède à définir la erte minimale de ouvoir discriminant ar : σ x,* = min σ x, y y { } ( ) ( ) y En annulant la dérivée artielle ar raort à y et en résolvant vectoriellement le système d équations normales, on trouve la solution suivante à ce roblème d otimisation : y = G G G x que l on eut récrire sous la forme : y = D G x ce qui indique clairement que la quantification catégorielle otimale y constitue une moyenne ondérée (ar l inverse des éléments diagonaux de la matrice diagonale D = G G ) des scores individuels our les obets aartenant aux catégories corresondantes du critère (sur la base des valeurs de G x ). En substituant la valeur otimale σ ( x ) y à l inconnue y, on obtient :,* = x G = G G G G = P t rquant que ( ) e en rema Déveloons cette exression : σ ( x ) G G ( x Px) ( x P x) = G x, on aboutit à : ( x ) = σ,* = x P x.,* = x x + x P Px x Px = = Revue MODULAD, Numéro 38
44 et utilisons le fait que P est symétrique et idemotent, = 0 nous en tirons : σ ( x,* ) ( x x x P x) = x x x P x = x x Afin d écarter les solutions triviales du roblème d otimisation σ *,* = min x x x P x qui revient à maximiser ( ) P x x 0 = x { } nous imosons des contraintes de normalisation, soit : x = 0 (our éviter la solution triviale x = et y = ) 0 0 x P x x x et x x = (our éviter la solution triviale x = 0) où est le vecteur dont toutes les comosantes sont égales à et 0 le vecteur dont toutes les comosantes sont nulles. x P0x La maximisation de x P 0 x so us la contrainte x x = équivaut à maximiser le raort. x x L ensemble des catégories d un critère qualitatif induisant une artition en k groues, la décomosition des sommes de carrés conduit à distinguer la somme des carrés inter-groues de la somme des carrés intra-groues, comme suit : Somme des carrés inter-catégories : SC B = x G D G x = x P x Somme des carrés intra-catégories : SCW = x ( I G D G x) = x ( I P x) Somme des carrés totale : SC T = x x La maximisation de x P 0 x sous la contrainte de normalisation x x = eut donc s interréter comme la maximisation du raort de la variance inter-groues à la variance totale. La recherche d un vecteur de scores individuels maximisan t x P 0 x corresond ainsi à un obectif de discrimination globale des groues d obets induits ar les catégories du critère. D En utilisant des oérateurs de centrage J M = I et J D = I, on montre D ([Meulman, 98]) que la fonction de erte de ouvoir discriminant eut s écrire : σ x,* = x ZZ ( ) x avec Z = J G J D M D oérateur réalisant la roection du vecteur obet sur les sous-esaces engendrés ar les indicatrices du codage de l ensemble des critères orthogonalement aux solutions triviales, que nous aellerons roecteur-obet. Cette reformulation montre que la recherche d une solution au roblème de maximisation du x P0x ratio est équivalente au lan algébrique à un roblème de recherche de vecteurs x x rores et de valeurs rores. En effet, si V Λ V est la décomosition sectrale de la matrice réelle symétrique Z Z, la solution x maximisant x VΛV x est le vecteur rore corresondant à la lus grande valeur rore de la matrice Z Z. Commentaire [DD7] : on reconnaît l exression d un roecteur I-orthogonal sur le vecteur. Commentaire [DD8] : ( ) D ( D, roecteur D-orthogonal sur Commentaire [DD9] : Il s agit d un roblème de maximisation du quotient de deux formes quadratiques : le raort x P0x est maximal our le x I x vecteur rore v de I P0 associé à sa lus grande valeur rore λ (cf. [Saorta 90],.484) Revue MODULAD, Numéro 38
45 Le minimum d ( x,* ) matrice Z Z. e σ est donc égal à λ où λ est la valeur rore maximum de la A.3. Minimisation de la erte d homogénéité Si l on minimise maintenant la fonction de erte globale our un système y donné de quantifications catégorielles relativement à un vecteur de scores individuels x inconnu, nous exrimons alors le rogramme de minimisation de la erte d homogénéité comme suit : σ ( ; y ) = min{ σ ( x; y) x}, En dérivant désormais la fonction de erte ar raort à x et en résolvant le système d équations normales, on trouve la solution à ce roblème d otimisation, y étant donné : x = G y = Gy = Les scores obets otimaux sont constitués ar la moyenne des quantifications des catégories corresondantes. En substituant la solution otimale à l équation définissant la fonction de erte globale, nous en déduisons : ( ) = σ ; y Gy G y Gy G y = = y G Gy y G G y y G G y = en remlaçant G G ar C et G G ar D, cela nous conduit à : ( ) σ ; y = y Cy + y D y y G G y = = y Cy + y Dy y G Gy = y Dy y Cy y Cy = y Dy y Dy Nous allons maintenant minimiser σ ( ;y ) sur l ensemble des y satisfaisant la condition y Dy =, ce qui revient à maximiser y Cy. Ce roblème d otimisation eut être interrété en termes d analyse de la variance. Nous ouvons décomoser les scores induits q = G y en un comosante q inter-obets et une comosante q i q i intra-obets : Somme des carrés inter-obets : n Somme des car rés intra-obets : ( q ) = y D C SCW = qi i y i= = n SC B = q = y i Cy Somme des carrés totale : SC T q = y i Dy n i= = i = = i Revue MODULAD, Numéro 38
46 Ainsi, nous maximison s le ratio de la somme des carrés inter-obets sur la somme des carrés totale, sous la contrainte y Dy =. Cela s interrète comme la recherche des quantifications catégorielles qui maximisent la somme des covariances our les scores induits q, tout en gardant la somme des variances constante. Il s agit de minimiser la somme des carrés intra- l homogénéité du obets, artant la erte d homogénéité, et en conséquence de maximiser système de quantifications donné a riori our les catégories des critères retenus dans l analyse. En utilisant la condition de normalisation y Dy = et l oérateur de roection orthogonale à la solution triviale J D, il vient : ( y) σ ; = y J CJ Dy D Si l on exrime la erte d homogénéité en fonction de u = D y, on trouve alors : ( ; u) u σ = D J D CJ DD u En utilisant le roecteur-obet Z, on montre ([Meulman, 98]) que la fonction de erte d homogénéité eut s écrire : σ (*, u ) = u Z Zu La valeur minimale de σ (*,a) est donc : λ ( Z Z) où λ est la lus grande valeur rore de la matrice Z Z ( également valeur rore maximale de la matrice Z Z ) associé au vecteur rore, ce qui nous conduit, à un facteur d échelle rès, à une solution algébrique homologue du roblème de minimisation de la erte de ouvoir discriminant. A.3. L algorithme du centrage réciroque Plutôt que de calculer la décomosition en valeurs singulières, l analyse d homogénéité utilise l algorithme du centrage réciroque (Recirocal Averaging - RA) déà mentionné dans [Fisher, 940]. Un tel algorithme, également aelé «moindres carrés alternés» (Alternating Least Squares ALS), eut être vu comme un algorithme de la uissance itérée our calculer la décomosition aux valeurs singulières ([Nishisato 980] en donne une reuve). L utilisation d un tel algorithme était initialement ustifiée ar sa faible comlexité en taille mémoire et son efficacité dans la recherche de la valeur rore maximale. Pour minimiser la erte de ouvoir discriminant, il faut à chaque itération l calculer les quantifications catégorielles ~ y comme moyenne des scores individuels aroriés (arbitrairement choisis en remière instance), uis calculer les nouveaux scores ~ x sur la base des quantifications catégorielles obtenues, enfin normaliser ces scores individuels ce qui termine l itération. Pour l itération l, on a donc les étaes suivantes : : ~ () l y : = D Gx : ~ x : = G~ y ( + ) 3 : ~ ( ~ ~ x l : = x x x), sous la condition x = 0 La réitération de ce cycle roduit des scores ~ x et des quantifications ~ y qui, au bout d un certain nombre d itération s, ne se modifient lus de manière détectable. Ce coule de vecteurs stationnaires ( x, y ) rerésente al ors l otimum recherché et la norme ( ~ x ~ x) du vecteur ~ x Commentaire [DD0] : Cet algorithme connu également sous le terme de dual scaling est signalé ar [Saorta, 990] sous le terme de «méthode des moyennes réciroques» (cf..5) Commentaire [DD] : L algorithme de la uissance itérée est souvent utilisé en ratique our rechercher la valeur rore dominante. Revue MODULAD, Numéro 38
47 stationnarisé nous fournit la lus grande v aleur rore λ et donc la valeur minimale de la fonction de erte de ouvoir discriminant. Pour la minimisation de la erte d homogénéité, ce sont exactement les mêmes étaes qui alternent : () l : ~ x : = Gy : ~ y : = D G ~ x mais cette fois ci la normalisation orte sur y au moyen de la transformation : ( + ) 3 : : ~ ( ~ ~ y l = y y D y), sous la condition y = 0 Commentaire [DD] : cf. les relations seudo- barycentriques. Le schéma d alternance duale des transformation s oérées dans l analyse d homogénéité est issu de ces deux formulations distinctes du roblème d otimisation : la remière formulation en termes de erte d homogénéité ; la seconde en termes de erte de ouvoir discriminant. Il n est ceendant as ossible our des raisons tenant à la géométrie de la solution d obtenir une normalisation simultanée des deux vecteurs ( x, y ) otimaux. A.3.3 L algorithme des moindres carrés alternés L algorithme itératif des moindres carrés alternés ( MCA) imliqué dans la rocédure HOMALS utilise la remière version de cette méthode our converger vers une solution stationnaire ( x, y ) qui minimise la erte globale d homogénéité : σ ( x, y) = ( x G y ) ( x G y ) = sous la contrainte de normalisati on x x =. Si la recherche des solutions doit s effectuer en théorie sous la contrainte x x =, elle s effectue en ratique sous la contrainte x x = n, en utilisant la normalisation () l x~ : = ( ~ x ~ n x) ~ x. L imlantation de l algorithme MCA sous HOMALS se déroule donc selon les étaes suivantes : 0) initialisatio n : ( 0) a. tirage aléatoire du vecteur initial ~ x dans une loi uniforme de moyenne nulle et de variance n b. calcul du vecteur initial ~ ( ) ( 0) y : = D G ~ x ) calcul du vecteur des scores : ~ ~ ( l ) y G ) normalisa tion (de variance n) ~ ( l ) x : = ( n x~ x) ~ x 3) calcul du vecteur des quantification : ~ ( l ) ( l ) y : = D G ~ x 4) test de convergence : ~ ( l ) ( ) ~ l x x ε et/ou ~ ( l ) ~ ( l ) y y ε L algorithme converge vers la solution stationnaire ( x, y ) : x = v y = λ D u Revue MODULAD, Numéro 38
48 () l ( l ) En raison de la transformation ~ y : = D G ~ x aliquée à chaque itération, cette solution satisfait la «condition de stationnarité» exrimée ar l équation D y = G x. A3 Analyse multivariée de l homogénéité A3. Rerésentation en lusieurs dimensions Comte-tenu de la comlexité des inter-relations entre obets et variables catégorielles intervenant dans certains hénomènes, un austement des scores individuels et des quantifications catégorielles réalisé selon une seule dimension eut aaraître comme insuffisant our rendre comte des hénomènes observés. Une solution lus satisfaisante du roblème de rerésentation eut alors être fournie ar l utilisation d une image euclidienne à lusieurs dimensions. La recherche des différentes dimensions de la solution est réalisée en effectuant successivement l analyse de l homogénéité en dimension orthogonalement aux solutions trouvées récédemment. Ainsi, on recherchera une variable synthétique x, orthogonale à la remière direction identifiée ar la variable synthétique x, corresondant à la lus grande valeur rore λ. Il convient alors de rechercher le minimum de la fonction de erte σ ( x,y ) sous contrainte d orthogonalité x x = 0, ce que nous exrimons vectoriellement ar x x = 0. Pour rechercher une troisième variable synthétique x 3, on minimisera la fonction de erte ( x,y σ 3 3 ) sous les contraintes x x 3 = 0 et x x 3 = 0. Cette recherche eut s effectuer en utilisant les solutions fournies ar la décomosition en valeurs singulières (DVS) car la matri ce V est une matrice orthogonale ( V V = I ). Les vecteurs-colonnes de V satisfont les contraintes d orthogonalité et sont, comme vecteurs rores, solutions successives des différentes étaes du rogramme d otimisation que l on eut mener usqu au rang r de la matrice Z (DVS «stricte») ou usqu à solutions incluant les vecteurs rores corresondant aux valeurs rores nulles Z Z (DVS «étendue»). A3. Analyse de l homogénéité selon lusieurs dimensions Cet austement, que nous avons effectué usqu ici en utilisant un sous-esace de dimension (le vecteur x des scores), eut être réalisé sans erte de généralité dans un sous-esace à s dimensions, < s d, en utilisant une matrice X des scores individuels (coordonnées des n obets selon les s dimensions) à n s coefficients et une matrice Y à s coefficients aelée matrice des quantifications catégorielles (coordonnées des critères selon les s dimensions). En formant à artir des s coules solutions X; Y, on définit ( x ; y ) le coule de matrices ( ) une aroximation d ordre s de la matrice Z ar : Z = HD = V Λ U XY D. Les vecteurs-colonn es de la matrice V forment une base orthonormée de l esace vectoriel généré ar les critères étudiés, rerésentés ar les vecteurs-colonnes de H. Les s remiers vecteurs-colonnes de V constituant la matrice X forment une base orthonormée de l esace vectoriel généré ar les vecte urs-colonnes de Y issus des transformations linéaires aliquées aux critères étudiés. On réalise ainsi une analyse de l homogénéité en dimension s. Commentaire [DD3] : Z =. Cette aroximation est-elle la meilleure aroximation de rang s au sens du critère des moindres carrés (Théorème d Eckart- Young)? Revue MODULAD, Numéro 38
49 A3.3 Qualité de l austement La qualité de l austement réalisé ar l aroximation d ordre s eut être mesurée en utilisant la norme de Frobenius ( = a F i i, Z = HD à son aroximation d ordre s, resectives : A ) comme norme matricielle. On eut alors comarer Z = tr( ZZ ) = tr( HD H ) = tr( V Λ V ) = F et X Y D en formant le raort de leurs normes = ( ) ( ) s X Y D Y X = tr Y D Y = X Y D = tr λ. Les vecteurs-colonnes de : Z = = F λ. = F = Z = HD étant standardisés ( D [ H H] λ = diag ), on en conclut que A3.4 Oérateurs de transformation La matrice G, d ordre n k, regrouant les vecteurs booléens associés aux indicatrices de codage du critère qualitatif à k modalités, la transformation t du vecteur h eut se définir matri ciellement ar t ( h ) = G Y où Y est une matrice à k s coefficients aelée matrice des quantifications catégorielles (coordonnées des catégories du critère selon les s dimensions). A3.5 Formulation globale de la fonction de erte multivariée L analyse multivariée de l homogénéité consiste alors à minimiser une fonction globale de erte multivariée, s exrimant en fonction des ma trices Y et X en étendant la définition de la fonction de erte globale univariée (cf. sura artie I): σ ( x,y) = x G y = ( x G y ) ( x G y ) = = n s En utilisant la norme de Frobenius comme extension de la norme euclidiennne à R, on définit une norme quadratique our la matrice ( X G Y ) d ordre n s qui ermet de sécifier la fonction de erte globale multivariée comme une fonction quadratique ( ) ( ) σ X, Y = trace ( ) ( ) X G Y = X G F Y X G Y = = à minimiser sous les contraintes d ortho-normalisation X X = n I s de centrage X = 0, ermettant d éviter les solutions triviales dans la résolution de ce système d équations corresondant à X = 0 et Y = 0 our chacun des critères. X G Y X G Y d ordre s s, défini comme L oérateur trace utilisé our la matrice ( ) ( ) la somme des éléments diagonaux d une matrice carré symétrique, à l avantage d être Revue MODULAD, Numéro 38
50 invariant ar changement de base orthonormée, ce qui nous assure une solution indéendante du système de rerésentation choisi à un délacement rès (translation et/ou rotation). A3.6 Algorithme matriciel des moindres carrés alternés La sol ution à ce roblème d otimisation est fournie ar l algorithme des moindres carrés alternés (ALS Alternating Least Squares) qui consiste à minimiser alternativement la fonction de erte conditionnellement aux matrices Y et X : ~ ( l= ) Initialisation : tirer une matrice aléatoire X 0 : = X telle que X0 = 0 et 0 X 0 X = n I s Itération l : Etae l. : minimiser la fonction de erte conditionnellement à Y our X fixé. avec la transformation Y () l = ~ : D G X J [5] où = G G est la matrice diagonale d ordre k D 0 k contenant les effectifs marginaux des catégories du critère. Etae l. : minimiser la fonction de erte conditionnellement à X en ayant fixé les matrices Y ~ avec la transformation : P ~ Z := G Y = ~ Etae l.3 : centrer la matrice Z avec la transformation Z : = Z ( Z) n Test : Etae l.4 : orthonormaliser la matrice Z ~ avec la transformation de Gram- ( ) Schmidt X ~ l+ ~ : = n GRAM ( Z) ~ ( l+ ) ( l ) tester la stationnarité de la solution X ~ X ε? Les étaes à 4 sont réitérées usqu à ce que la matrice X satisfasse au test de stationnarité, indiquant qu un otimum est atteint. L algorithme converge ainsi vers un coule de matrices stationnaires qui est la solution fournie ar la rocédure HOMALS our le roblème d otimisation défini récédemment. A3.7 Invariance de la solution ar rotation Si l on utilise une base différente dans l esace des colonnes de la matrice X issue de la solution origi nale ar rotation R (transformation telle que R R = R R = I d ), alors les ( ( ( matrices issues de cette transformation X = X R et Y = D G X sont également otimales our la fonction de erte d homogénéité. A3.8 Normalisation Les colonnes de la matrice des scores individuels X sont centrées : soustraction de la ~ moyenne x. d à chaque valeur x, soit matricielleme nt X = X ( X). Puis la matrice X ~ id n est orthonormalisée ar la rocédure d orthogonalisation de Gram-Schmidt stabilisée (MGS - Modifi ed Gram-Schmidt) ou ar une factorisation QR. Revue MODULAD, Numéro 38
51 En raison de ces exigences modestes en ressources de calcul, la rocédure d orthogonalisation de Gram-Schmidt stabilisée est en règle générale utilisée ar les rogrammes imlantant la rocédure HOMALS. Ceendant, si l orthonormalité est requise de manière critique dans la construction de la solution otimale, il est référable de recourir à la méthode QR de factorisation, méthode «moderne» de résolution des roblèmes de moindres carrés où Q désigne une matrice orthogonale et R une matrice triangulaire inférieure. ~ En fixant X = nx, l étae de normalisation conduit à X X = n I s. A3.9 Décomosition en valeurs singulières Le roblème d otimisation de la fonction multivariée de erte d homogénéité : σ, tr ( X G )( ) Y X G Y ( X Y) = = sous les contraintes d ortho-normalisation X X = n I d de centrage X = 0, eut être assimilé à un roblème de décomosition en valeurs singulières. En effet, on eut montrer que la matrice X est constituée ar les vecteurs singuliers à gauche de la matrice I G D, où G = G L G n L G est le tableau disonctif comlet corrigé. La décomosition comlète en valeurs singulières ossède d = Arès extraction des scores individuels, on calcule les quantifications catégorielles en utilisant l équation : Y = D G X. L avantage de l algorithme des moindres carrés alternés est de ouvoir travailler seulement sur les s remières dimensions requises en suosant que s soit très etit devant d ( s << d ), minimisant les besoins en taille mémoire our améliorer ainsi l efficacité algorithmique assez médiocre des moindres carrés alternés. Logo du Data Theory Grou (Université de Leiden, Faculté des Sciences Sociales et du Comortement, Prof. Jacqueline Meulmann): = k dimensions. Source : htt:// Revue MODULAD, Numéro 38
Des familles de deux enfants
Des familles de deux enfants Claudine Schwartz, IREM de Grenoble Professeur, Université Joseh Fourier Les questions et sont osées dans le dernier numéro de «Pour la Science» (n 336, octobre 2005, article
dénombrement, loi binomiale
dénombrement, loi binomiale Table des matières I) Introduction au dénombrement 1 1. Problème ouvert....................................... 2 2. Jeux et dénombrements...................................
Module : réponse d un système linéaire
BSEL - Physique aliquée Module : réonse d un système linéaire Diaoramas () : diagrammes de Bode, réonse Résumé de cours - Caractérisation d un système hysique - Calcul de la réonse our une entrée donnée
Un modèle de composition automatique et distribuée de services web par planification
Un modèle de comosition automatique et distribuée de services web ar lanification Damien Pellier * Humbert Fiorino ** * Centre de Recherche en Informatique de Paris 5 Université Paris Descartes 45, rue
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).
CHAINE DE TRANSMISSION Nous avons une information que nous voulons transmettre (signal, images, sons ). Nous avons besoin d une chaîne de transmission comosée de trois éléments rinciaux : 1. L émetteur
Compression scalable d'images vidéo par ondelettes 2D+t
Comression scalable d'images vidéo ar ondelettes 2D+t Madji Samia, Serir Amina et Ouanane Abdelhak Université des Sciences et de la Technologie Houari Boumediene, Laboratoire de traitement d images et
S2I 1. quartz circuit de commande. Figure 1. Engrenage
TSI 4 heures Calculatrices autorisées 214 S2I 1 L essor de l électronique nomade s accomagne d un besoin accru de sources d énergies miniaturisées. Les contraintes imosées à ces objets nomades sont multiles
Accès optiques : la nouvelle montée en débit
Internet FTR&D Dossier du mois d'octobre 2005 Accès otiques : la nouvelle montée en débit Dans le domaine du haut débit, les accès en France sont our le moment très majoritairement basés sur les technologies
Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France
CMP Bois n 19-12 avril - mai 2010 P.25 Carrefour du Bois P.34 cm La revue de l activité Bois en France Bois Saturateurs P.31 Usinage fenêtres P.37 Bardages Tout our l usinage du bois massif. Tout d un
Découvrez les bâtiments* modulaires démontables
Découvrez les bâtiments* modulaires démontables w Industrie w Distribution * le terme «bâtiment» est utilisé our la bonne comréhension de l activité de Locabri. Il s agit de structures modulaires démontables
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Santé et hygiène bucco-dentaire des salariés de la RATP
Santé et hygiène bucco-dentaire des salariés de la RATP Percetion des salariés et examen clinique du raticien Période 2006-2009 14 juin 2012 Dominique MANE-VALETTE, Docteur en Chirurgie dentaire [email protected]
Sous le feu des questions
ARTICLE PRINCIPAL Assureurs Protection juridique Sous le feu des questions Comment les assureurs Protection juridique vont-ils désormais romouvoir leurs roduits? Seraient-ils artisans d une assurance Protection
NFE107 Urbanisation et architecture des systèmes d information. Juin 2009. «La virtualisation» CNAM Lille. Auditeur BAULE.L 1
Juin 2009 NFE107 Urbanisation et architecture des systèmes d information CNAM Lille «La virtualisation» Auditeur BAULE.L 1 Plan INTRODUCTION I. PRINCIPES DE LA VIRTUALISATION II. DIFFÉRENTES TECHNIQUES
prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1
3- LE MONOOLE DISCRIMINANT Le monoole eut vendre ertaines unités de roduit à des rix différents. On arle de disrimination ar les rix. Selon une terminologie due à igou (The Eonomis of Welfare, 1920), on
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
TP : Outils de simulation. March 13, 2015
TP : Outils de simulation March 13, 2015 Chater 1 Initialisation Scilab Calculatrice matricielle Exercice 1. Système Unix Créer sous Unix un réertoire de travail outil_simulation dans votre home réertoire.
DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS
Ecole Nationale des Ponts et Chaussées Laboratoire Paris-Jourdan Sciences Economiques DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS
Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014
Procès - Verbal du Conseil Municial Du lundi 15 décembre 2014 Nombre de membres comosant le Conseil Municial : 15 Nombre de membres en exercice : 15 Nombre de Conseillers résents : 14 Nombre de Conseillers
Commande prédictive des systèmes non linéaires dynamiques
Rébliqe Algérienne Démocratiqe et olaire Ministère de l Enseignement Sérier et de la Recherche Scientifiqe Université Molod Mammeri de Tizi-Ozo Faclté de Génie Electriqe et Informatiqe Déartement Atomatiqe
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Manuel de l'utilisateur
0 Manuel de l'utilisateur Mise en route... 4 Votre Rider 0... 4 Réinitialiser le Rider 0... 5 Accessoires... 5 Icônes d'état... 5 Connexion, synchro et chargement... 6 Allumer/éteindre le Rider 0... 6
Chambre Régionale de Métiers et de l Artisanat. Région Auvergne. Région Auvergne
Chambre Régionale de Métiers et de l Artisanat L Artisanat en Auvergne, l Energie du Déveloement Région Auvergne Région Auvergne Edito Edito Valoriser la formation des jeunes et des actifs : un enjeu
VOIP. Pr MOUGHIT Mohamed [email protected]. Cours VOIP Pr MOUGHIT Mohamed 1
VOIP Pr MOUGHIT Mohamed [email protected] Cours VOIP Pr MOUGHIT Mohamed 1 Connexion fixe, rédictible Connexion établie avant la numérotation user Centre de commutation La Radio est le suort imrédictible
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
Catalogue 3 Chaine sur Mesure
Catalogue 3 Chaine sur Mesure SUBAKI Les Chaines 2009 CAALGUE 3 Classification chaine sur mesure sériés de chaîne ye de chaîne subaki Caractéristiques RUNNER BS Performance suérieure Général Chaînes à
Fonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Traitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
.NET remoting. Plan. Principes de.net Remoting
Plan.NET remoting Clémentine Nebut LIRMM / Université de Montellier 2 de.net Remoting côté serveur côté client.net Remoting en ratique Les canaux de communication L'activation L'invocation Les aramètres
En vue de l'obtention du. Présentée et soutenue par Philippe NERISSON Le 5 février 2009
THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré ar l Institut National Polytechnique de Toulouse Disciline ou sécialité : Dynamique des Fluides Présentée et soutenue ar Philie
Analyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Relation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/
Guide d utilisation (Version canadienne) Téléhone sans fil DECT 6.0/ avec réondeur et afficheur/ afficheur de l ael en attente CL83101/CL83201/ CL83301/CL83351/ CL83401/CL83451 Félicitations our votre
Statistique Descriptive Multidimensionnelle. (pour les nuls)
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Quantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Introduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Analyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Filtrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
CATALOGUE 2. Chaine avec attachements
CAALGUE 2 Chaine avec attachements SUBAKI LES CAIES 2010 CAALGUE 2 CAIE AVEC AACEMES Anti-corrosion Classification Sériés de ye de SUBAKI Caractéristiques RUER BS Performance suérieure Général Chaînes
Théorèmes de Point Fixe et Applications 1
Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des
Initiation à LabView : Les exemples d applications :
Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Vous êtes un prestataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret peut vous accompagner!
Le guide 2015 e u q i t s i r u o t e r i du artena Vous êtes un restataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret eut vous accomagner! Qui sommes nous? 2 Edito Nouveau
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Statistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
L'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Analyse des correspondances avec colonne de référence
ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution
NOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Programmes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)
(19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4
L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne
L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2
éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Rappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Optimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE
TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE L'objectif de ce tutorial est de décrire les différentes étapes dans CASTOR Concept / FEM permettant d'effectuer l'analyse statique d'une
t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1
Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase
Introduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
REVUE DE STATISTIQUE APPLIQUÉE
REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),
Cours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Annexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. [email protected] Résumé Ce document
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
IBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
LES TYPES DE DONNÉES DU LANGAGE PASCAL
LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.
«INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION BRITANNIQUE»
Manuscrit auteur, ublié dans "«COMPTABILITE ET ENVIRONNEMENT», France (007)" «INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION
Séance 0 : Linux + Octave : le compromis idéal
Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est
BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Annexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Projet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
