BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

STATISTIQUE AVEC EXCEL

TD 1. Statistiques à une variable.

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Editions ENI. Project Collection Référence Bureautique. Extrait

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Dirigeant de SAS : Laisser le choix du statut social

Montage émetteur commun

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Généralités sur les fonctions 1ES

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Mesure avec une règle

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Interface OneNote 2013

Exercices d Électrocinétique

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Le Prêt Efficience Fioul

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Terminal numérique TM 13 raccordé aux installations Integral 33

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Page 5 TABLE DES MATIÈRES

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Paquets. Paquets nationaux 1. Paquets internationaux 11

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

santé Les arrêts de travail des séniors en emploi

Système solaire combiné Estimation des besoins énergétiques

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Grandeur physique, chiffres significatifs

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

INTERNET. Initiation à

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Prise en compte des politiques de transport dans le choix des fournisseurs

1. Les enjeux de la prévision du risque de défaut de paiement

hal , version 1-14 Aug 2009

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Professionnel de santé équipé de Médiclick!

Corrigé du problème de Mathématiques générales Partie I

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Pratique de la statistique avec SPSS

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

P R I S E E N M A I N R A P I D E O L I V E 4 H D

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Stéganographie Adaptative par Oracle (ASO)

Pour plus d'informations, veuillez nous contacter au ou à

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Prêt de groupe et sanction sociale Group lending and social fine

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Calcul de tableaux d amortissement

La Quantification du Risque Opérationnel des Institutions Bancaires

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Projet de fin d études

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Pro2030 GUIDE D UTILISATION. Français

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Des solutions globales fi ables et innovantes.

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Les méthodes numériques de la dynamique moléculaire

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Comparative performance for isolated points detection operators: application on surface defects extraction

Dynamique du point matériel

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Pauvreté et fécondité au Congo

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

THESE. Khalid LEKOUCH

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Transcription:

BUREAU DAPPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES BAMSI REPRINT 04/2003 Introducton à l analyse des données Samuel AMBAPOUR BAMSSI I BAMSI B.P. 13734 Brazzavlle

BAMSI REPRINT 04/2003 Introducton à l analyse des données (*) Samuel AMBAPOUR (**) Ce caher n est pas un cours. On y nsste sur le tratement pratque des données et sur les applcatons des dfférentes méthodes d analyse. Un même exemple llustratf est utlsé tout au long de l exposé et sert de base pour la comparason des méthodes utlsées. Pour des exposés théorques complets de ces méthodes, le lecteur est nvté à consulter les ouvrages de base ctés en référence. Grâce à l outl nformatque et notamment à de nombreux logcels commercalsés sur mcro-ordnateurs, l utlsateur de l analyse des données peut désormas se consacrer aux tâches essentelles à savor, le chox de la méthode et l nterprétaton des résultats. Dans ce caher, l est fat usage du logcel ADDAD dffusé par l assocaton du même nom (***) Données ). ( Assocaton pour le Développement et la Dffuson de l Analyse des (*) Ce texte a été publé dans les cahers du CASP n 3-4, décembre 1992 (**) Ensegnant au CASP (***) Ce caher s nspre, au nveau de la forme et du langage, des travaux de cette assocaton.

TABLE DES MATIERES 1. INTRODUCTION 2. UN PEU D HISTOIRE 3. TYPES DE TABLEAUX ANALYSABLES 4. ANALYSE GENERAL 5. L ANALYSE EN COMPOSANTES PRINCIPALES 5.1. Les données Les obectfs 5.2. La méthode 5.2.1. Le tableau de données 5.2.2. Analyse des ponts ndvdus de N ( I) dans R 5.2.3. Analyse des ponts ndvdus de N ( J) dans R 5.2.4. Relaton entre les ponts de N ( I) et de N ( J) 5.2.5. Analyse des ponts supplémentares 5.3. Interprétaton de l Analyse en Composantes Prncpales 5.3.1. Tableau des données de base 5.3.2. Matrce de corrélatons des varables 5.3.3. Vecteurs et valeurs propres de la matrce de corrélaton 5.3.4. Tableau des facteurs sur I 5.3.5. Tableau des facteurs sur J 5.3.6. Représentatons graphques J J I I P n

6. L ANALYSE FACTORIELLE DES CORRESPONDANCES 6.1. Les données Les obectfs 6.2. La méthode 6.2.1. Le tableau de données 6.2.2. Analyse des ponts de N J ( I) dans p R 6.2.3. Analyse des ponts de N ( J) dans R I 6.2.4. Relatons entre les ponts de N ( I) et les ponts de N ( J ) 6.2.5. Eléments supplémentares 6.3. Interprétaton d une analyse factorelle des correspondances 6.3.1. Tableau des données de base 6.3.2. Vecteurs et valeurs propres 6.3.3. Tableaux des facteurs sur I et sur J : ades à l nterprétaton 6.3.4. Représentatons graphques 6.4. Analyse des correspondances multples 6.4.1. Tableau dsonctf complet 6.4.2. Tableau de Burt 6.4.3. Equvalence entre les deux analyses précédentes 6.4.4. Calcul de contrbutons dans le tableau dsonctf complet 6.4.5. Interprétaton d une analyse des correspondances multples 6.4.5.1. Tableau des données de base 6.4.5.2. Valeurs propres 6.4.5.3. Tableaux des facteurs sur et J 6.4.5.4. Représentaton graphque J n I

7. CLASSIFICATION ASCENDANTE HIERARCHIQUE 7.1. Prncpes généraux 7.1.1. Partton et hérarche 7.1.2. Classfcaton ascendante et classfcaton descendante 7.1.3. Constructon d une classfcaton ascendante hérarchque 7.1.4. Crtères d agrégaton 7.2. L nterprétaton d une classfcaton ascendante hérarchque 7.2.1. Le tableau des données 7.2.2. Hstogramme des ndces de nveau de la hérarche 7.2.3. Le tableau du contenu des classes 7.2.4. Représentaton de la classfcaton ascendante hérarchque 7.2.5. Calcul de contrbutons 7.2.5.1. Etude des classes par rapport à des axes. Formulare 7.2.5.2. Etude des classes par rapport à des axes. Exemple 7.2.5.3. Etude des dpôles par rapport à des axes. Formulare 7.2.5.4. Etude des dpôles par rapport à des axes. Exemple 7.2.5.5. Contrbutons relatves mutuelles entre classes et facteurs 7.2.6. Introducton des nœuds de la classfcaton dans le graphque de l analyse factorelle REFERENCES BIBLIOGRAPHIQUES

Avec l Analyse des Données fondée sur l usage de l ordnateur, c est une nouvelle méthodologe que la statstque apporte à la scence et notamment aux scences de l homme. J-P. Benzécr L Analyse des Données n est certes pas smplement un ensemble de technques nouvelles et, sans être le vecteur phlosophque de la recherche du sens de toute chose, c est quand même une nouvelle manère d être, face à un tableau de données. J-P. Fenelon. Les servces rendus montrent ben que l Analyse des Données consttue auourd hu, et de lon, la parte la plus mmédatement rentable de la statstque. G. Morlat 1. Introducton Il n y a pas très longtemps, on ne pouvat pas trater un tableau de 3000 lgnes et 300 colonnes. L apparton et le développement des ordnateurs a du coup levé cet obstacle de calcul, et a perms la conservaton et l explotaton des grandes masses de données. Cette améloraton contnue de l outl nformatque a fortement contrbué au développement et à la vulgarsaton de nombreuses méthodes statstques, devenues mantenant d usage assez courant. Auourd hu, des vastes données d enquêtes sont dépoullées et, fournssent de grands tableaux qu se prêtent asément à l nterprétaton. Des données ssues d nvestgatons spécfques sont rassemblées et consttuent une masse mportante et apparemment ndéchffrable d nformatons mas, qu on peut désormas trater sans dffcultés. Cependant, comment extrare les phénomènes, les los, les connassances que recèlent ces données que nous ne pouvons appréhender drectement [ 8 ]? 6

La statstque classque nous a habtué à étuder les varables les unes après les autres, de construre autant d hstogrammes que de varables. Comment fare pour que, à ces nombreux graphques se substtue un seul graphque, une carte plane? Comment devant, la profuson des descrptons parcellares fournes par l analyse varable par varable, donner une vson globale de l ensemble des résultats? Les technques dtes d analyse des données permettent de répondre à ces questons. Pour J-P. Fénelon l analyse des données est un ensemble de technques pour découvrr la structure, éventuellement complquée, d un tableau de nombres à pluseurs dmensons et de tradure par une structure plus smple et qu la résume au meux. Cette structure peut le plus souvent, être représentée graphquement 31. [ ] Ces technques qu sont essentellement descrptves, ont pour but de décrre, de rédure, de classer et de clarfer les données en tenant compte de nombreux ponts de vue et d étuder, en dégageant les grands trats, les lasons, les ressemblances ou les dfférences entre les varables ou groupes de varables. Les documents fourns sont qualfés de synthétques et percutants et valent souvent meux qu un long dscours. Cette approche descrptve et multdmensonnelle permet de dre que l Analyse des Données, c est de la statstque descrptve perfectonnée. L analyse des données recouvre prncpalement deux ensembles de technques : les premères qu relèvent de la géométre eucldenne et condusent à l extracton de valeurs et de vecteurs propres, sont appelées analyses factorelles ; les secondes, dtes de classfcaton automatque sont caractérsées par le chox d un ndce de proxmté et d un algorthme d agrégaton ou de désagrégaton qu permettent d obtenr une partton ou arbre de classfcaton [ 53 ]. Parm ces deux technques, les premères occupent une place de chox, car elles sont utlsées sot seules, sot conontement avec les secondes, alors que ces dernères sont rarement applquées seules [ 28 ]. On s ntéressera surtout aux analyses factorelles dont on ne décrra que les deux méthodes les plus employées. Il s agt de l analyse en composantes prncpales (beaucoup utlsée dans les pays anglo-saxons) et de l analyse factorelle des correspondances (très prsée en France). La classfcaton automatque sera ntrodute comme ade à l nterprétaton d une analyse factorelle. Ce qu permet de compléter et d enrchr les résultats de cette dernère. Cependant, vu la dversté des méthodes, on 7

regardera comment se présentent les résultats pour l une d entre elles : la classfcaton ascendante hérarchque, qu est la plus élaborée des méthodes de classfcaton. 8

2. Un peu d hstore Ben que l étude de la structure de vastes ensembles de données sot récente, les prncpes dont les méthodes d analyse de données s nsprent sont ancens. En ce qu concerne l analyse factorelle, l faut remonter aux travaux de Ch. Spearman (1904) qu ntrodut pour la premère fos le concept de facteur ; l cherche, derrère les notes obtenues par de nombreux suets à de nombreux tests, une varable explcatve cachée : le facteur général d apttude (analyse factorelle au sens des psychologues). C est vers les années 30 que se pose le problème de la recherche de pluseurs facteurs (travaux de C. Burt et de L.L Thurstone) ; on cherche deux pus pluseurs facteurs : mémore, ntellgence, etc. non observables drectement mas susceptbles d explquer au sens statstque du terme les nombreuses notes obtenues par les suets. Comme on le constate l s agssat déà de résumer à l ade d un pett nombre de facteurs une nformaton multdmensonnelle. De nos ours on ne fat guère appel à l analyse factorelle au sens des psychologues parce qu elle suppose un modèle a pror. Pus, l analyse factorelle en composantes prncpales développée par H. Hotellng (1933), mas dont on peut fare remonter le prncpe à K. Pearson (1901) : les ndvdus colonnes du tableau à analyser étant consdérés comme des vecteurs d un espace à p dmensons, on proposat de rédure la dmenson de l espace en proetant le nuage des ponts ndvdus sur le sous-espace de dmenson k (k pett fxé) permettant d auster au meux le nuage [ 53 ]. D un pont de vue plus récent écrt L. Lebart, l analyse au composantes prncpales est «une technque de représentaton des données, ayant un caractère optmal selon certans crtères algébrques et géométrques spécfés et que l on utlse en général sans référence à des hypothèses de nature statstque ou à un modèle partculer [ 43 ]. Enfn, l analyse factorelle des correspondances ntrodute par J.P Benzécr (1962), est actuellement en vogue. Elle fournt, sans hypothèses a pror des représentatons smplfées dans un certan sens à l nterprétaton. Lassons sur ce pont la parole au Professeur J.P Bensécr : l analyse des correspondances telle qu on la pratque en 1977 ne se borne pas à extrare des facteurs de tout tableau de nombres postfs. Elle donne pour la préparaton des données des règles telles que le codage sous-forme dsonctve complète ; ade à crtquer la valdté des résultats, prncpalement par des calculs de 9

contrbuton ; fournt des procédés effcaces de dscrmnaton et de régresson ; se conugue harmoneusement avec la classfcaton automatque [ 6 ]. Sa logque est clare : le modèle dot suvre les données non l nverse ; le modèle probablste est ugé trop contragnant : statstque n est pas probablté. Les deux méthodes précédentes et celles qu en ont été dérvées, comme l analyse factorelle dscrmnante (ntée par Fsher en 1936, qu permet de décrre la lason entre une varable qualtatve et un ensemble de varables quanttatves) et l analyse canonque (ntrodute par Hotellng en 1936 et dont l obectf ntal état d exprmer au meux à l ade d un pett nombre de couples de varables la lason entre deux ensembles de caractères quanttatfs) dépendent d un même corps de résultats mathématques qu on exposera dans le paragraphe analyse générale. S agssant de la classfcaton automatque, compte tenu de la multplcté des technques exstantes et l effervescence qu règne autour de ce domane, car selon R.M. Cormack (cté par Lebart) plus de 1000 artcles sont publés par an sur ce thème, l est vrament dffcle de fare l hstorque de ces méthodes ; en effet nombreux sont les chercheurs qu ont contrbué à leur mse en œuvre et dont les précurseurs sont : Buffon (1749), Adanson (1757) et Lnné (1758). Je me contentera de rapprocher les obets, suvant le plus grand nombre de degrés de leurs rapports et leur de leurs ressemblances Les obets ans réuns formeront pluseurs pettes famlles que e réunra encore ensemble afn d en fare un tout dont les partes soent unes et lées ntmement écrvat Adanson [ 47 ]. Pour termner cette page d hstore, mentonnons l analyse des données non métrques ntrodute par une nouvelle école de statstcens amércans sous le nom de «multdmensonal scalng» (J.D. Carrol, J.B. Kruskal, R.N. Shepard, ) et dont les prncpales méthodes sont : - l analyse des proxmtés ; - l analyse des préférences ; - l analyse de mesure cononte (qu permet d explquer une varable qualtatve ordnale à l ade des varables nomnales). Ces méthodes ont trouvé leurs applcatons surtout dans le domane du marketng[ 9 ]. 10

3. Types de tableaux analysables Les données se présentent généralement sous la forme d un tableau rectangulare, dont les lgnes correspondent à des ndvdus ou untés statstques et les colonnes à des varables appelées caractères ou caractérstques. Les valeurs des varables peuvent être : - quanttatves ordnales (ugement human, température) ; - quanttatves mesurables (pods d un ndvdu, revenu) ; - qualtatves ordnales (classe d âge, le rang) ; - qualtatves nomnales (sexe, stuaton matrmonale). Lorsque dans un tableau, toutes les varables choses sont quanttatves, on peut établr un tableau de données quanttatves ; c est le cas par exemple où l on observe sur un ensemble de suets I, un certan nombre de mesures J : pods, talle, âge. Ce tableau est encore appelé tableau de mesures. A partr de deux varables qualtatves, on peut défnr un tableau de contngence crosant les modaltés de deux varables, l ensemble des lgnes correspond aux modaltés de la premère varable et l ensemble des colonnes aux modaltés de la deuxème varable ; par exemple le tableau qu répartt la populaton congolase recensée en 1974 selon les deux caractères régon et classe d âge. S l on dvse chaque valeur du tableau précédent par le cardnal de la populaton, on obtent le tableau de fréquences relatves que l on appellera smplement tableau de fréquence. S l on crose plus de deux varables qualtatves entre elles défnes sur une même populaton, on peut construre un tableau contenant l ensemble des tableaux de contngence entre les varables prses deux à deux. Le tableau ans obtenu est appelé tableau de Burt. C est un tableau symétrque qu comporte sur sa dagonale des résultats qu en terme de dépoullement d enquête on appellerat des trs à plats, alors qu alleurs on a tous les tableaux des trs crosés des varables deux à deux. 11

On rencontre auss des tableaux de préférence. Un ensemble I d ndvdus donne des ugements de préférence globale sur un ensemble J d obets ; on demande par exemple à chaque personne nterrogée de noter de 1 à 4 l ordre de préférence pour quatre marques de bère : prmus, kronenbourg, ngok, amstel. A l ntersecton de la ème lgne et de la èmecolonne, on trouve le rang attrbué par la personne à la bère. Le tableau de préférence est dfférent du tableau de rang. Reprenons le tableau de contngence qu répartt la populaton congolase selon les deux caractères régon et classe d âge. On obtent un tableau de rang s à l ntersecton de la régon et de la classe d âge, on y nscrt le rang de la régon sur toutes les régons, relatvement à l effectf de la classe d âge. Dans le tableau de préférence rencontré c-haut, la lgne est une permutaton de 4 obets alors que dans le tableau de rang c est la colonne qu est une permutaton de nombres de 1 à 9 (les 9 régons du Congo). Les tableaux de proxmtés évoluent la smlarté ou la dssmlarté entre chaque couple d ndvdus par un ndce de proxmté ou de dstance (tableau de dstance nter-vlles). Souvent, on observe des varables qu ne prennent que deux valeurs codées généralement 0 et 1 ; elles condusent à des tableaux bnares : par exemple un ndvdu dot répondre par ou ou par non à une queston ; le ou est codé 1, le non est codé 0 ; on peut auss cter le cas des tableaux de présence-absence où l s agt du relevé de la présence ou de l absence d un caractère. Tel ménage possède ou ne possède pas le caractère : avor un poste télévseur : la présence est codé 1, l absence est codé 0. D une manère générale, un tableau rempl unquement de 0 et de 1 est appelé tableau logque. C est le cas des tableaux précédents. Nous verrons au 6.4.1, qu on peut transformer un tableau de données quanttatves en un tableau de descrpton logque par découpage en classes des varables quanttatves. En fat, parler de tableau logque, c est désgner un certan format de codage, qu peut recouvrr des domanes très [ ] dfférents 31. On peut également mentonner les tableaux de notes. Il s agt dans le cas qu nous ntéresse des notes scolares (type de tableaux analysé dans ce caher) comprses entre deux bornes (0 et 20). Ce tableau peut être analysé comme tel (c est ce que nous ferons dans les chaptres suvants). Dans ben de cas, pour donner la même mportance à chaque observaton, on dédoublera chaque colonne du tableau, c est-à-dre qu à 12

chaque matère d orgne on lu fat correspondre une matère dte duale : avor 15/20 en statstque, c est avor 5/20 en la matère duale. L analyse factorelle d un tableau de notes dédoublé semble d un pont de vue pratque donner des résultats plus clars et plus faclement nterprétables que l analyse du tableau ntal[ 12 ]. Le tableau de descrpton logque décrt précédemment peut être consdéré comme un tableau de notes partculer dans lequel toutes les notes ne peuvent prendre que l une des valeurs 0 ou 1. Pour termner, on peut cter les tableaux de correspondance chronologque ou tableaux ternares ou encore tableaux multples. C est par exemple le cas du tableau où, I est l ensemble d ndustres (ou produts), d époques, kijt (ou à destnaton) du pays un ensemble de pays, T un ensemble désgnant les échanges pour le produt, à l nstant t en provenance obtent un tableau de la forme exportateurs, J J. Une généralsaton au cas quaternare a été étudée et on kijpt où I est par exemple l ensemble des pays l ensemble des mêmes pays consdérés comme exportateurs, P est un ensemble des classes de produts et T un ensemble d époques : k IJPT est donc la valeur des mportatons du pays en provenance du pay s (ou des exportatons du pays destnaton du pays ), rentrant dans la classe de produts p et effectuées en l année t. Pour l étude de ces types de tableaux, on utlse très largement la technque des ponts supplémentares (cf 5.2.5)[ 14 ]. à Le tableau soums à l analyse dot posséder certanes qualtés : pertnence, homogénété, exhaustvté. Il ne faut retenr dans la masse hétérogène des fats que ce qu se rapporte à un seul pont de vue (pertnence), et ne pas mélanger les quanttés exprmées en klogrammes et en mètres (homogénété). L exhaustvté mplque que les dfférentes zones du domane d nvestgaton sont ben représentées. A ces tros exgences l faut aouter une condton assez évdente, mas parfos oublée : le tableau de données dot être vaste et en statstque, l nfn est parfos de l ordre de 30 [ 42 ]. 13

4. Analyse générale On part d un tableau rectangulare relant deux ensembles fns I et J. On a Ca rdi observatons sur lesquelles sont mesurées CardJ varables : varable de J sur l ndv du de I. ( CardI n, CardJ p) obtenue par l étud ant à l épreuve. Le tableau X peut admettre deux représentatons [ 35 ] : x est la mesure de l a = =. x peut être la note - l une dans un espace vectorel R n avec un nuage de p ponts correspondant chacun à une lgne ; - l autre dans un espace vectorel R p avec un nuage de n ponts correspondant chacun à une colonne. L analyse factorelle revent à fare la recherche des axes prncpaux d nerte (ou axes factorels) des deux nuages. On cherche donc à auster le nuage des ponts par un sous-espace vectorel de R p, mun de la dstance eucldenne usuelle (c est-à-dre que le carré de la dstance entre deux ponts est égal à la somme des carrés des dfférences de leurs coordonnées). On commence par détermner une drote n passant par l orgne et austant au meux le nuage à étuder, en mnmsant la somme des carrés des dstances des ponts à la drote. Ce calcul condut à un vecteur untare porté par cette drote dt auss vecteur propre relatf à une valeur propre. De façon analogue on peut contnuer l austement et trouver dans R p un certan nombre de vecteurs propres et de valeurs propres toutes postves décrossant avec le rang. X étant la matrce du tableau, et la matrce transposée, u α les vecteurs propres et λ α les valeurs propres seront solutons de l équaton : X Xuα λαuα = dans R p Le vecteur u est norme par la relaton : uu= 1 Le premer axe factorel est donc le vecteur u 1 correspondant λ 1 la plus grande valeur propre de X X. L nerte explquée par cet axe est λ 1. En prolongeant le problème on trouve que le sous-espace qu explque la plus grande nerte content les q premers vecteurs propres u 1,..., uq de X X. L nerte explquée par ce sous-espace est égale à la somme des valeurs propres correspondant à ces vecteurs propres. On aura les formules correspondantes dans R n. En effet, l est démontré que [ 43 ] : - s v α est vecteur propre untare de u = X v est vecteur untare de 1/2 α λ α α F 1 X XX relatf à la valeur propre α 0 X X relatf à la même valeur propre. λ, 14

-récproquement, s u α est vecteur untare de vecteur untare de XX relatf à λ α. X X relatf à α 0 λ, 1/2 vα = λ α Xuα est u α est appelé α ème axe factorel dans p R. v α est appelé α ème axe factorel dans n R. 15

5. Analyse en composantes prncpales 5.1. Les données les obectfs En analyse en composantes prncpales, l ensemble I est décrt à l ade de p varables quanttatves, contnues, homogènes ou non a pror corrélées entre elles deux à deux. On cherche à répondre à des questons du type suvant : quelles sont les varables qu sont lées postvement entre elles? Quelles sont celles qu s opposent? A propos des ndvdus on cherchera à évaluer leur ressemblance et leur dssemblance, à mettre en relef des groupes homogènes d ndvdus. En résumé l analyse en composantes prncpales (ACP) consste à transformer les p varables quanttatves, ntales en p nouvelles varables non corrélées, appelées composantes prncpales (ou facteurs). 5.2. La méthode On ne décrra c, que l une des varantes de cette méthode et qu est de lon la plus employée : l analyse en composantes prncpales normées. On suppose que les données de départ sont non seulement hétérogènes quant à leur moyenne, mas le sont également quant à leur dsperson et à leur nature (dsparté des untés de mesure). Pour ramener chaque varable à un cadre commun de comparablté, on opérera sur chacune d elle une transformaton lnéare ramenant sa moyenne à zéro et sa varance à l unté (varable centrée rédute). 5.2.1. Le tableau de données On a les mêmes ensembles I et {, } X = x I J x J de l analyse générale........ x... On calcule : )- La moyenne de la varable x : m = M avec M = { m I} x x I 16

1 où m est le pods affecté à l ndvdu ; m = et CardI { m I} = M = 1 )- La varance de la varable x : 2 m var( ) ( ) 2 σ = x = x x I M ) La varable centrée et rédute qu a pour composantes sur l ensemble I : X x x = σ où σ est l écart type de x moy( X ) = { X I} = 0 et = ( ) 2 { } var( X ) X moy X I = 1 v)- Le coeffcent de corrélaton lnéare entre deux varables m r = X X I M qu prend les valeurs entre 1 et +1. x et x : 5.2.2. Analyse des ponts ndvdus de N ( I) dans On se placera au centre de gravté du nuage des ponts de base (normalsaton centréerédute). Le ème ndvdu sera représenté dans l espace des varables normées un pont ayant pour coordonnée la valeur note par : J p R X et affecté de masse (pods) m NJ( I) = ( X; ) I le nuage des ponts I ; M ) Le centre de gravté G de ce nuage a pour ème coordonnée : m M = 1 m m x I x I 0 σ = M M X GJ = X I ; c est donc l orgne du système d axes dans lequel est placé le nuage des ndvdus. ) La dstance entre deux ponts de 2 {( X X ) J } 2 d (, ) = N ( I) s écrt dans p R : m X par. S l on x x 2 = ( ) J σ (c est la dstance eucldenne usuelle ). Ans chaque varable aura une contrbuton égale à la dsperson totale du nuage NJ ( I ). ) La dstance d un pont de au centre de gravté G du nuage N ( I) vaut : 17

{ } 2 2 2 d G = ρ = X J (, ) () v) L nerte d un pont par rapport au centre de gravté est : m 2 In( I) ( ) M ρ et l nerte du nuage N ( I) sera égal à : m 2 In( NJ( I)) ( ) I M ρ = m 2 = ( X ) I M m 2 = X I, J M Var( X ) J or var( X ) = 1 = { } I = ( N ( I)) = CardJ n J J L nerte du nuage des ponts est donc égale au nombre de varables ; cette nerte est auss égale à la somme des termes dagonaux (trace) de la matrce de corrélaton entre les varables dont le terme général est dagonalser pour la recherche des vecteurs et valeurs propres. r. C est donc cette matrce qu l faudra v) Les facteurs et axes factorels-coordonnées des observatons dans l espace factorel. Soent { Fα () I} les facteurs assocés à l analyse en composantes prncpales normées. Les facteurs sont de moyenne nulle, de varance égale à λ α, et sont deux orthogonaux. En effet : m F α () I = 0 M m F 2 λ α = α () I M et m F () F () I = 0 M α β s α β On sat déà que la somme de toutes les valeurs propres est égale au nombre varables. Et donc : I ( N ( I)) = = CardJ n J λ α CardJ de 5.2.3. Analyse des ponts varables de N ( J) dans I n R 18

En ACP, l orgne des axes n est pas le centre de gravté du nuage des varables ; les axes factorels ssus du nuage des ndvdus ne sont pas les axes prncpaux d nerte du nuage des varables. On a vu que Var( X ) = 1 c est-à-dre que d 2 (0, ) = 1 ; les varables X sont donc stuées sur une sphère de rayon 1 ce ntrée en 0, orgne ntale des axes. L ntersecton de la sphère et d un plan factorel est un cercle dt cercle de corrélaton. La dstance eucldenne usuelle entre deux ponts de N ( J) dans { } (, ) ( ) d 2 = X X 2 I I n R : En tenant compte du fa t que Var( X ) = Var( X ) = 1 et X X = r, On trouve que : (, ) 2(1 ) 2 d = r où r, est le coeffc ent de corrélaton lnéare entre les varables et. Ans, les proxmtés entre ponts varables s exprment en termes de corrélatons : r = 1 les ponts et sont confondus ; r = 1 les ponts et r = 0 les ponts et 90. sont damétralement opposés sur la sphère (0,1) ; sont orthogonaux et se trouvent aux extrémtés d un arc de 5.2.4- Relaton entre les ponts de N ( I) et de N ( J ) Nous avons vu au chaptre 4 les relatons qu exstent entre les matrces J I X X et XX en ce qu concerne les vecteurs et les valeurs propres. En utlsant ces proprétés, on peut établr les relatons de transton entre les facteurs Fα () de I et Gα ( ) de J. On a : α λ 1/2 F () = XGα( ) et 1/2 Gα( ) = λ XFα( ) Il faut sgnaler que ces formules ne sont pas barycentrques comme celles du 6.2.4 de l analyse factorelle des correspondances ; les X pouvant être négatfs. 5.2.5- Analyse des ponts supplémentares On profte de ce paragraphe pour parler éléments supplémentares qu présentent un grand ntérêt en analyse de données et plus partculèrement en analyse factorelle des correspondances. On utlse les éléments supplémentares en analyse de représenter [ 14 ] : données pour - sot une observaton relevée dans des condtons douteuses (ou dfférentes des autres observatons) ou encore une varable sur laquelle la précson est mondre que sur les autres varables mesurées ; - sot un élément aberrant, ou ayant perturbé une analyse prélmnare ; 19

- sot un cas nouveau ; - sot des éléments de nature dfférente de ceux analysés. On peut auss utlser des éléments supplémentares pour représenter un groupe de varables ou un groupe d ndvdus. Exemple 1 : un questonnare a été soums à l ensemble des étudants du CASP ; après analyse, on recuelle les réponses d un étudant absent (cas nouveau) : on cherchera naturellement à le placer sur les axes factorels sans refare l analyse. Exemple 2 : on a réalsé une enquête sur l mage de marque de la S.N.E. Chaque clent enquêté répond à un questonnare comportant deux partes : une fche soco- (âge, sexe, professon, revenus, ) ; et une battere d opnons relatves à démographque la socété. S l on analyse la battere d opnons, on mettra par exemple les varables soco-démographques en supplémentares. Consdérons la fgure suvante : J J s X X s I s X s S l on effectue l analyse en composantes prncpales du tableau X (tableau prncpal), on peut proeter sur les axes factorels ans trouvés les ensembles I s (ensemble des ndvdus supplémentares) et J s (ensemble des varables supplémentares). Les coordonnées des ndvdus supplémentares s I s sont les composantes du vecteur ( ) X s u α et, celles des varables supplémentares s J s les composantes du vecteur ( X ) v α (vor 4). Technquement, mettre des éléments en supplémentares dans s l analyse consste à attrbuer une masse nulle à ces éléments et à calculer leurs coordonnées dans l espace factorel. 20

5.3. Interprétaton de l Analyse en Composantes Prncpales 5.3.1. Tableau des données de base Tratons par cette méthode le recuel d nformatons qu est donné par le tableau 1. Nous y trouvons les notes moyennes par matère obtenues par les étudants du CASP promoton 1991-1992 pendant la premère année de leur scolarté. ABDO 10 15 13 14 12 17 10 10 10 12 09 09 07 13 12 08 14 13 12 BANZ 09 12 09 13 07 13 08 07 09 08 06 10 10 10 10 08 12 13 10 BATA 09 14 12 11 11 14 08 07 11 13 10 09 09 14 12 06 15 14 11 BOUK 11 15 11 13 10 18 11 08 13 11 13 15 11 13 14 07 13 12 12 BOYE 09 13 11 11 11 15 08 02 10 09 07 05 09 15 15 07 12 12 10 GOYI 09 13 12 13 11 15 10 11 14 14 07 08 12 14 15 07 14 14 12 LIK1 10 17 12 10 05 15 09 07 08 08 13 07 08 13 13 07 15 14 11 LIK2 12 14 15 13 11 18 08 11 12 10 08 11 10 13 10 07 15 15 12 LOUZ 06 14 07 13 09 13 11 14 11 07 07 09 06 12 10 08 13 14 11 MAKI 10 16 12 13 10 13 08 06 12 14 09 09 12 12 13 07 13 14 12 MALO 07 13 14 12 16 16 11 11 12 10 08 09 10 13 13 07 12 12 12 MAMP 10 14 13 11 13 13 13 13 10 12 10 07 10 14 13 08 13 13 12 MATO 10 14 16 12 06 15 10 13 13 09 09 09 09 13 11 08 15 14 12 MBIK 08 13 07 12 10 14 10 13 12 11 04 09 09 14 12 07 13 14 11 MPOU 09 15 10 13 09 15 09 08 11 13 08 07 11 13 17 07 14 14 12 NGUI 11 13 12 13 10 18 09 07 09 07 09 07 09 13 14 07 14 14 11 NKOK 09 17 11 13 09 14 11 07 11 11 12 09 11 14 13 08 15 14 12 NSEM 09 14 10 12 07 17 07 11 13 12 12 13 09 11 14 07 15 15 12 NSON 10 17 12 13 15 15 09 11 12 12 14 08 08 12 13 07 13 14 13 NZAK 09 16 10 13 14 15 07 05 09 11 17 11 12 14 13 08 14 13 12 ONDZ 10 17 12 10 05 15 09 07 08 08 13 07 08 14 13 07 15 14 11 SAFO 11 16 08 12 09 15 11 10 11 11 12 10 08 13 13 07 14 14 12 SAM1 12 15 10 14 15 17 07 07 12 08 09 09 08 10 11 08 14 14 12 SAM2 11 14 12 11 15 16 10 08 11 09 06 08 06 12 15 07 13 12 11 TSIB 10 15 17 13 11 15 06 06 12 10 12 09 11 13 15 07 15 14 12 Tableau.1 : Notes des étudants Le chef de la scolarté du CASP peut être amené à se demander : - s les étudants ont systématquement des résultats melleurs que ceux de leurs collègues ; - s les flles et les garçons obtennent des résultats comparables ; - s un étudant bon en mathématque l est également en démographe ; - etc. Dsons tout smplement qu l veut analyser les données dont l dspose. Le tableau que nous allons étuder crose 25 étudants (en lgnes) et 19 matères (en colonnes) : le 21

nombre x se trouvant à la crosée de la lgne par l étudant à l épreuve. et de la colonne est la note obtenue Ensemble J (dans l ordre des colonnes du tableau) STAT MSTA STAS STAE MATH PROB ECON DEMO INFO GEOE COME COMN TEXP ANGL HIST SPOR STAG APPG MOYG Cours de statstque et organsaton de la statstque Méthodes statstques Statstque de la santé Statstque de l éducaton et de l emplo Mathématques Probabltés Econome Démographe Informatque Géographe économe Comptablté d entreprse Comptablté natonale Technques d expresson Anglas Hstore du Congo Actvtés sportves Stage pratque Apprécaton du Drecteur Général du Casp Moyenne générale Ensemble I (des lgnes) Les étudants sont repérés par leurs noms (sgle de 4 caractères). Dans l analyse on mettra SPOR et MOYG en éléments supplémentares, pour la smple rason que la note de sport n ntervent pas dans le système de pondératon et que la moyenne générale n est en fat qu un résumé de toutes les notes. Il n y a pas d ndvdus supplémentares dans l analyse. 22

5.3.2. Matrce de corrélatons des varables Tous les coeffcents du tableau 2 ont été multplés par 1000. C est une matrce symétrque, seul le trangle nféreur est édté. STAT MSTA STAS STAE MATH PROB ECON DEMO INFO GEOE COME COMN TEXP ANGL STAT 1000 MSTA 262 1000 STAS 341 43 1000 STAE 78-80 -64 1000 MATH 68-129 123 323 1000 PROB 544-52 271 243 185 1000 ECON -204-38 -139-172 39-180 1000 DEMO -254-210 -54 84 1-62 563 1000 INFO -12-225 154 394 242 180 44 428 1000 GEOE -49 131 64 177 212-159 60 109 472 1000 COME 228 751 153-63 -60 136-182 -264-215 109 1000 COMN 112 9-112 373-30 354-83 192 434 180 288 1000 TEXP -8-8 208 297 7-87 -164-248 251 484 195 225 1000 ANGL -173 90 187-397 -29-114 297-110 -146 246 126-331 229 1000 HIST 46 108 112-166 104 141-40 -367 76 360 141-245 305 346 STAT 325 442 336-87 -426 236-290 0 5 58 435 113 9 143 APPG 118 242-16 139-431 -18-319 278 163 116 121 61 22-164 HIST STAG APPG HIST 1000 STAG -5 1000 APPG -232 693 1000 Tableau 2 : matrce de corrélaton entre les varables 23

L examen de cette matrce fat apparaître, avant toute analyse, les assocatons entre varables. Nous remarquons que le coeffcent le plus élevé vaut 0.751, c est celu de la comptablté d entreprse (COME) avec les méthodes statstques (MSTA) ; ensute vent celu de stage pratque (STAG) avec l apprécaton générale (APPG) qu est égal à 0.693. On peut sgnaler des coeffcents de corrélaton moyens entre la démographe (DEMO) et l économe (ECON) sot 0.563 et entre statstque (STAT) et probabltés (PROB) sot 0.544. De façon générale on constate entre les varables, des coeffcents de corrélaton fables : un coeffcent de corrélaton nul entre la démographe (DEMO) et le stage pratque (STAG) et un coeffcent quas nul entre les mathématques (MATH) et la démographe (DEMO). En d autres termes connassant la valeur DEMO, on ne peut ren dre des valeurs STAG et MATH. Dans le nuage où les ponts sont des varables et les drotes des ndvdus, DEMO fat un angle drot avec STAG et avec MATH. Il faut néanmons rappeler qu un coeffcent de corrélaton est un ndce qu l faut nterpréter avec beaucoup de précautons. C est donc en défntve cette matrce de corrélaton entre varables qu l faut dagonalser pour obtenr une représentaton eucldenne des ponts varables. 5.3.3. Vecteurs et valeurs propres de la matrce de corrélaton Les vecteurs propres contennent les nformatons à affecter aux varables ntales et qu permettent le calcul des facteurs. Le tableau 3 rend donc compte de ce passage de l ancen repère (facteurs). R J des ancennes varables au nouveau repère R F des nouvelles varables Comme on l a déà noté la somme des valeurs propres est égale au nombre Card J de varables. Dans le cas d un nuage sans drecton d allongement (nuage sphérque), toutes les valeurs propres seraent égales à 1. Ce cas lmte permet de retenr comme axe à pror à étuder ceux dont les valeurs propres sont supéreures à l unté (les sx premères dans le cas présent). La valeur 1 consttue donc un pont de repère pour apprécer une valeur propre. Dans l nterprétaton d un facteur assocé à une valeur propre proche ou nféreure à 1 l est consellé d être très prudent. Ce qu vent d être dt n est valable que s on travalle sur les données centrées et rédutes (ACP normée c est-à-dre la méthode usque c développée). 24

-------------------------------------------------------------------------------------------------------------------------------------- NUMERO! VAL PROPRE 1! VAL PROPRE 2! VAL PROPRE 3! VAL PROPRE! --------------------------------------------------------------------------------------------------------------------------------------! -. 3.07452! 2.66202! 2.32011! 1.96808! -------------------------------------------------------------------------------------------------------------------------------------- OBJET 1! -.33048!.06183! -0.3186!.32050! OBJET 2! -.36071! -.19292! -.02134! -13812! OBJET 3! -22630! 01539! 17381! 08163! OBJET 4! -04945! 45327! 02122! 10787! OBJET 5! 12295! 20650! 31472! 27844! OBJET 6! -22630! 21435! -00401! 37095! OBJET 7! 29212! -04166! 05790! -26369! OBJET 8! 22630! 21435! 00401! 37095! OBJET 9! 00108! 48566! 14409! -19273! OBJET 10! -09790! 20351! 38798! -36938! OBJET 11! -41111! -12271! 05832! -05264! OBJET 12! -14995! 40369! -07915! -02468! OBJET 13! -16463! 14701! 39255! -16085! OBJET 14! -01500! -29097! 33802! -26204! OBJET 15! -10733! -13306! 46651! 01130! OBJET 16! -44550! -05062! -19581! -22215! OBJET 17! 27514! 10600! -33571! -33841! Tableau 3 : Les quatre premers vecteurs et valeurs propres. On donne c-dessous l hstogramme des valeurs propres qu permet de vsualser l mportance et la décrossance des valeurs propres. On note une décrossance lente des valeurs propres. On peut fare remarquer que : ( λ λ ) / λ = (3.07452 2.66202) / 3.07452 = 0.13417 1 2 1 ( λ λ ) / λ = (2.66202 2.32011) / 2.66202 = 0.12844 2 3 2 ( λ λ ) / λ = (2.32011 1.96808) / 2.32011 = 0.15173 3 4 3 S l écart relatf entre λ α et λ α + 1 est fable, une légère fluctuaton dans le tableau des données peut avor pour conséquence la permutaton des facteurs d ordre α et α + 1. En règle générale s des valeurs propres successves sont proches l une de l autre, on consdérera le sous-espace défn par les axes assocés à ces valeurs propres, et non les axes séparément. En effet, l s agt dans un tel cas pratquement d un sous-espace propre, et la poston des axes dans ce sous-espace n est pas sgnfcatve : elle est défne à une rotaton près [ 60 ]. 25

LES VALEURS PROPRES VAL (1) = 3.07452 -----------------------------------------------------------------------------------------------------------------------------------!NUM! VAL PROPRE! POURC.! CUMUL! VARIAT.! *!HISTOGRAMME DES VALEURS PROPRES ------------------------------------------------------------------------------------------------------------------------------------------------! 1! 3.07452! 18.085! 18.085! *******! *! ***************! ***************!! 2! 2.07452! 15.659! 33.744! 2.426! *! ***************! ***********! 3! 2.32011! 13.648! 47.392! 2.011! *! ***************! ********! 4! 1.96808! 11.577! 58.969! 2.071! *! ***************! ****! 5! 1.48126! 8.713! 67.682! 2.864! *! **************! 6! 1.31772! 7.751! 75.434!.962! *! *************! 7!.90442! 5.320! 80.754! 2.431! *! *********! 8!.80785! 4.752! 85.506!.568! *! ********! 9!.59308! 3.489! 88.994! 1.263! *! ******! 10!.56950! 3.350! 92.344!.139! *! ******! 11!.44687! 2.629! 94.973!.721! *! ****! 12!.27241! 1.602! 96.576! 1.026! *! ***! 13!.23710! 1.395! 97.970!.208! *! **! 14!.14339!.843! 98.814!.551! *! *! 15!.10191!.599! 99.413!.244! *! *! 16!.06428!.378! 99.791!.221! *! *! 17!.03548!.209! 100.000!.169! *! Tableau 4 : Hstogramme des valeurs propres Les deux premères valeurs propres représentent envron 34% de l nerte et les sx premères envron 75%. Notons que ces taux sont fables. Du fat des fables coeffcents de corrélaton entre les varables on ne pouvat pas s attendre à trouver des valeurs propres très élevées. Il faut avouer qu l est dffcle de donner une réponse générale à la queston : à partr de quel pourcentage d nerte peut-on néglger les facteurs restants? Cela dépend en général du nombre de varables : un % de 100% n a pas le même ntérêt sur un tableau de 20 varables et sur un tableau de 100 varables[ 57 ]. Cependant des taux d nerte fables peuvent auss donner des représentatons de bonne qualté. On s assurera néanmons qu un fort pourcentage d nerte est presque une garante d nterprétablté au premer sens du terme. Nous essayerons de résumer les données par les tros premers facteurs. 26

5.3.4. Tableau des facteurs sur I Le tableau 5 est en fat un tableau d ade à l nterprétaton d une analyse en composantes prncpales (comme d alleurs les tableaux 6 et 7).! I! QLT POID INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! ABDO! 279 40 20! 48 0 0! 763 67 9! -140 2 0! 2! BANZ! 799 40 63! 2563 245 86! 400 6 2! -1998 148 69! 3! BATA! 233 40 20! -450 24 3! -830 81 10! 50 0 0! 4! BOUK! 383 40 55! -856 31 10! 2158 198 70! 1630 113 46! 5! BOYE! 839 40 61! 1964 148 50! -2899 322 126! 2308 204 92! 6! GOYI! 786 40 37! 512 17 3! 1711 186 44! 2248 321 87! 7! LIK1! 955 40 48! -1693 140 37! -3696 665 205! -1726 145 51! 8! LIK2! 745 40 45! -1972 202 51! 2278 270 78! -1435 107 36! 9! LOUZ! 885 40 70! 3683 453 177! 213 2 1! -3210 344 178! 10! MAKI! 613 40 29! -708 40 7! 781 49 9! 1290 133 29! 11! MALO! 739 40 45! 2923 442 111! 883 40 12! 1899 187 62! 12! MAMP! 670 40 39! 1901 216 47! -1104 73 18! 1343 108 31! 13! MATO! 631 40 32! -375 10 2! 624 29 6! -1488 165 38! 14! MBIK! 786 40 37! 2920 542 111! 620 24 6! -533 18 5! 15! MPOU! 432 40 26! -309 9 1! -233 5 1! 1685 253 49! 16! NGUI! 507 40 30! -429 15 2! -664 35 7! -600 29 6! 17! NKOK! 599 40 24! -1275 163 21! -720 52 8! 492 24 4! 18! NSEM! 576 40 46! -1848 174 44! 2132 231 68! -1418 102 35! 19! NSON! 96 40 27! -658 38 6! 749 50 8! 288 7 1! 20! NZAK! 630 40 46! -1915 187 48! -608 19 6! 1614 133 45! 21! ONDZ! 976 40 50! -1706 136 38! -3936 724 233! -1446 98 36! 22! SAFO! 230 40 18! -458 28 3! -283 11 1! -822 89 12! 23! SAM1! 813 40 50! -913 39 11! 2075 202 65! -1825 156 57! 24! SAM2! 736 40 42! 1732 170 39! -655 24 6! 587 19 6! 25! TSIB! 575 40 37! -2683 460 94! 242 4 1! 1204 93 25!!! 1000! 1000! 1000! 1000! Tableau 5 : Facteurs sur I Pour chacun des 25 étudants on lt d abord : ) POID (masse statstque) : on constate que tous les ndvdus ont reçu le même pods. m 1 m = 1 ; M = m = 25 ; p = = = 0,04 (c 40 exprmé en mllèmes). M 25 ) INR (nerte) ; les ndvdus ayant le même pods, cette nerte vare comme la dstance au centre de gravté : 2 n() = ρ () I p 27

) QLT, sa qualté de représentaton par sa proecton dans l espace factorel consdéré comme sgnfcatf. Ensute on trouve pour chaque facteur : v) # F( F ( )), coordonnées des ndvdus ; l examen de ces coordonnées permet de α connaître comment se répartssent les ndvdus, ceux qu ntervennent sur l axe du côté postf ou du côté négatf. v) CTR, contrbuton relatve de l ndvdu et à l nerte explquée par l axe α. 2 (, α ) α ()/ CTR = p F λ ; α on remarque que CTR vare comme 2 ( ) : les ponts les plus contrbutfs sont les plus excentrés et récproquement. La contrbuton relatve de l étudant LOUZ à l nerte explquée par l axe 1 est égale à 177. En d autres termes s on appelle 1000 le facteur 1, LOUZ en explque 177. Pour l nterprétaton des axes, on classera les ndvdus en deux groupes ; les uns de contrbuton relatve forte avec une coordonnée négatve, les autres de contrbuton forte avec une coordonnée postve (l est consellé de chosr les ndvdus de contrbuton relatve supéreure à la moyenne des contrbutons au mons). v) F α COR qu mesure la qualté de la représentaton de l ndvdu par sa proecton sur l axe α. COR peut être nterprétée comme le cosnus de l angle formé par un pont avec sa proecton sur le plan. G ρ () θ Fα () co F () ρ () 2 2 α s θ = 2 En prenant touours le cas de l étudant LOUZ on vot que 2 cos (, 1) 453 s addtonnent en lgne ; sommés sur les 17 facteurs, o n trouverat 1000 ; sommés sur les 5 (on a extrat 5 facteurs, seulement tros sont mprmés) facteurs, on trouve LOUZ F = ; s on appelle 1000 la stuaton de LOUZ, on en trouve 453 sur le facteur 1. On peut vérfer faclement que : pour LOUZ.. p QLT = COR ( ) = 1000 (en mllème). Comme on le constate les COR α = 1 α QLT = 885 28

5.3.5 Tableaux de facteurs sur J.! J1! QLT POID INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! STAT! 661 1 59! -579 336 109! 101 10 4! -49 2 1! 2! MSTA! 546 1 59! -632 400 130! -315 99 37! -33 1 0! 3! STAS! 540 1 59! -397 157 51! 25 1 0! 265 70 30! 4! STAE! 665 1 59! -87 8 2! 740 547 205! 32 1 0! 5! MATH! 560 1 59! 216 46 15! 337 114 43! 479 230 99! 6! PROB! 746 1 59! -397 157 51! 350 122 46! -6 0 0! 7! ECON! 621 1 59! 512 262 85! -68 5 2! 88 8 3! 8! DEMO! 894 1 59! 356 127 41! 431 186 70! -332 110 47! 9! INFO! 784 1 59! 2 0 0! 792 628 236! 219 48 21! 10! GEOE! 765 1 59! -172 29 10! 332 110 41! 591 349 151! 11! COME! 590 1 59! -721 520 169! -200 40 15! 89 8 3! 12! COMN! 541 1 59! -263 69 22! 659 434 163! -121 15 6! 13! TEXP! 676 1 59! -289 83 27! 240 58 22! 598 358 154! 14! ANGL! 716 1 59! -26 1 0! -475 225 85! 515 265 114! 15! HIST! 589 1 59! -188 35 12! -217 47 18! 711 505 218! 16! STAG! 859 1 59! -781 610 198! -83 7 3! -298 89 38! 17! APPG! 753 1 59! -482 233 76! 173 30 11! -511 261 113!!! 1000! 1000! 1000! 1000! Tableau 6 : Facteurs sur J. On a donné à chaque pont varable une masse égale à l unté et que les coordonnées factorelles de ces ponts sont assmlables aux coeffcents de corrélaton. On a 2 COR( α, ) = G ( ). On nterprètera donc l axe en foncton des varables qu lu sont α corrélées. Comme le nuage N ( ) est stué dans une sphère de rayon 1, l usage des CTR I n est pas vrament nécessare. On retendra seulement que plus la varable se proette près du cercle dans le plan prncpal, meux cette varable est représentée par sa proecton.! JSUP! QLT POID INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 18! SPOR! 141 1 59! 179 32 0! 114 13 0! -260 68 0! 19! MOYG! 669 1 59! -454 206 0! 520 270 0! 248 62 0!! 118! 0! 0! 0! Tableau 7 : Facteurs sur J supplémentares. 29

5.3.6. Représentatons graphques Le but essentel de l analyse factorelle est de représenter les ponts de N ( I) et de N ( J ) dans un espace de fable dmenson par rapport aux dmensons d orgne. Ces représentatons se font dans la plupart des cas dans un espace à deux dmensons : J J 5.3.6.1. Représentaton graphque assocée aux ponts Les graphques 1 et 2 donnent une représentaton des ndvdus dans l espace factorel (1,2) et (1,3). S l on s est fxé comme obectf la répartton des ndvdus, on peut nterpréter rapdement les résultats de la façon suvante : l axe 1 oppose les ndvdus BANZ, MBIK et LOUZ à l ndvdu TSIB (vor leurs coordonnées, tableau 5). Cet axe oppose en fat les étudants reçus et non reçus. Une excepton : l étudant MALO qu est reçu mas qu se retrouve avec les non reçus. On retrouve la même répartton sur l axe 2 : opposton entre BOYE, LIK1, ONDZ (groupe des non reçus) et GOYI, BOUK, LIK2 et SAM1 (groupes des reçus). On peut donc consdérer ces axes comme des axes de réusste. Ensute, non lon de l orgne des axes, on constate des groupements d ndvdus selon touours le crtère réusste : NZAK avec NKOK (reçus), NGUI avec BATA (non reçus), MAKI, ABDO et MATO (reçus). On peut le vérfer auss pour les ponts superposés ndqués en bas du graphque. Cependant compte tenu des remarques fates au 5.3.3 on est tenté d analyser le plan (1,3). A quelques exceptons près on retrouve la même nterprétaton. Notons que dans cette analyse des ndvdus, l orgne des axes représente l ndvdu moyen, dont les notes sont les moyennes calculées sur l ensemble des étudants. Le cas que nous venons d examner est celu où les ndvdus présentent de l ntérêt en euxmêmes. L nformaton essentelle est contenue dans les coordonnées. Dans d autres cas, en partculer lorsque les ndvdus consttuent un échantllon (stuaton typque des enquêtes) on est en présence des êtres anonymes n ayant d ntérêt que par leur ensemble et non par leur ndvdualté [ 10 ]. L attenton sera alors attrée par l allure générale de la répartton de l ensemble des ndvdus. 5.3.6.2. Représentaton graphque assocée aux ponts Les graphques 3 et 4 donnent une représentaton des ponts varables dans les plans factorel (1,2) et (1,3). On peut se fxer comme l obectf la structuraton des varables : quelles sont celles qu sont assocées? Quelles sont celles qu s opposent? 30

Un smple regard de leurs coordonnées sur le premer axe nous ndque que la plupart des varables sont d un même côté (côté négatf). Deux varables sont ben corrélées avec le premer facteur : l s agt de STAG et COME. Des varables moyennement corrélées avec le premer facteur : STAT, MSTA et APG. Du côté postf de l axe on peut retenr la varable ECON moyennement corrélée avec le premer facteur. De façon générale, l axe 1 peut donc être consdéré comme axe de la pratque. Le deuxème facteur est corrélé postvement avec l nformatque (INFO), les statstques de l éducaton (STAE) et la Comptablté natonale (COMN). Du côté négatf de l axe, se trouve la varable anglas (ANGL). Le trosème facteur peut être consdéré comme facteur de culture générale. Sont effectvement corrélées avec ce facteur les varables hstore (HIST), anglas (ANGL), technques d expresson (TEXP) et la géographe (GEOE). 5.3.6.3. Représentaton smultanée des ponts et des ponts. Ben que des ndvdus et varables soent des éléments d espaces dfférents, on peut par un certan artfce superposer la représentaton des ndvdus (plan prncpal) et celles des varables (cercle de corrélaton). Une telle superposton avec des précautons d nterprétaton, rend plus vvante la vsualsaton. Le graphque 5 est donc ssu des graphques 1 et 3. Ans, s l on regarde smultanément les deux graphques, un ndvdu sera du côté des varables pour lesquelles l a de fortes valeurs et à l opposé des varables pour lesquelles l a de fables valeurs. 31

AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de ponts : 25 Echelle : 4 caractères =.354 1 lgne =.147 Nombre de ponts superposés : 3 NSEM(LIK2) NSON(MAKI) SAFO(MPOU) Graphque 1 : Représentaton des ponts ndvdus dans l espace factorel (1,2). 32

AXE HORIZONTAL (1) AXE VERTICAL (3). Nombre de ponts : 25 Echelle : 4 caractères =.354 1 lgne =.147 Nombre de ponts superposés : 2 NSEM(LIK2) ONDZ(LIK2) Graphque 2 : Représentaton des ponts ndvdus dans l espace factorel (1,3). 33

AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de ponts : 31 Echelle : 4 caractères =.111 1 lgne =.046 Graphque 3 : Représentaton des ponts varables dans l espace factorel (1,2) 34

AXE HORIZONTAL (1) AXE VERTICAL (3). Nombre de ponts : 31 Echelle : 4 caractères =.111 1 lgne =.046 Nombre de ponts superposes: 1 MSTA (STAT) Graphque 4:. Représentaton des ponts varables dans l espace factorel (1,3) 35

AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de ponts : 44 Echelle : 4 caractères =.422 1 lgne =.176 Nombre de ponts superposés : 2 SAM1 (BOUK) NSON(MAKI) Graphque 5: Représentaton smultanée des ndvdus et des varables dans l espace factorel (1,2). 36

6. L analyse factorelle des correspondances 6.1. Les données Les obectfs L analyse factorelle des correspondances a d abord été conçue pour trater les tableaux de contngence ; depus, son domane s est très vte étendu à d autres tableaux de données : les tableaux de notes, les tableaux de rang etc. Et récemment elle s applque à des tableaux de descrpton logque rempls exclusvement de 1 et de 0 ; c est par exemple le cas des tableaux ms sous forme dsonctve complète. En effet, s l on consdère un ensemble Q, de questons (ou de varables qualtatves), pour toute queston q de Q, on note J l unon dsonte des J q : J = { J q Q} (avec CardJ = p ). q Sot I ( CardI = n) un ensemble d ndvdus ayant répondu à toutes les questons de Q. Pour tout et de I, et pour toute queston q de Q, on suppose que l ndvdu a adopté une seule modalté de réponse à q, et l on code par 1 s l ndvdu a chos la modalté de répons e J de J q, et par 0 snon. Le tableau ans obtenu est appelé dsonctf complet : Dsonctf, car deux modaltés et d une même queston s excluent mutuellement : s l ndvdu a chos la modalté de J q, l n a pas adopté une modalté Complet, car à tout ndvdu queston q. ( ) d e J q. correspond effectvement une modalté de réponse à toute Contrarement à l analyse en composantes prncpales, en analyse factorelle des correspondances (AFC) le tableau à analyser est symétrque par rapport aux ndces. Deux lgnes sont consdérées comme proches s elles s assocent de la même façon à l ensemble des colonnes. Symétrquement, deux colonnes sont proches s elles s assocent de la même façon à l ensemble des lgnes. L AFC permet donc de trater smultanément les ensembles I et J et de les confronter en vue de découvrr l ordre général. Enfn, comme l ACP, l analyse factorelle des correspondances permet de réalser un (ou pluseurs) graphques, à partr du tableau de données, en rédusant les dmensons de l espace de représentaton des données, tout en essayant de ne pas perdre trop d nformaton au moment de cette réducton. et 6.2. La méthode Nous ne drons ren sur la méthode ; nous bornant seulement à cter J.P Benzécr : ans une méthode unque dont le formulare reste smple est parvenue à ncorporer des dées et des problèmes nombreux apparus d abord séparément, depus pluseurs décennes [ 6 ]. 37

6.2.1. Le tableau des données Soent deux ensembles fns I et J en correspondance : on a : k IJ = { k I, J}, un tableau homogène de nombres sur le produt de ces deux ensembles I et J (CardI k effectf de la case (, ) ; k 0 ; = n,cardj = p ). On pose : k = { k J} l effectf de la lgne ; la colonne des éléments k est la colonne margnale ; k = { k I} est l effectf de la colonne ; la lgne des éléments k est la lgne margnale ; est la somme du tableau. On a k = { k I} = { k J} = { k I, J} le schéma suvant : Colonne de marge k k total de la lgne lgne de marge k K total général total de la colonne Dvsons mantenant chaque valeur du tableau précédent par populaton). f = k / k : fréquence d un couple (, ). f = { f J } = k / k k (cardnal de la est la fréquence d une lgne ; la colonne des f est la colonne des fréquences margnales. f = { f I} = k / k est la fréquence de la colonne ; la lgne des f est la lgne des fréquences margnales. Par constructon on a évdemment : { f I } = { f J } = 1. 38

D éfnssons mantenant le profl d un élément une dmenson, noté respectvement suvante : f et f de I et d un élément de J le tableau à et dont le contenu est détermné de la façon fj = { f = 1,..., CardJ }, avec f = f / f = k / ket f 0 ; k 0 ; condtonnelle du couple (, ) connassant. I { 1,..., } f = f = CardI avec f = f / f = k / k et f 0 ; k 0 ; condtonnelle du couple (, ) connassant Le tableau lgne ; le tableau f est la fréquence f est la fréquence f J correspond au tableau des pourcentages en lgnes. C est donc le profl de la de profl de la colonne. O n a : I : f = 1 ; J : f 1 = f I correspond au tableau des pourcentages en colonnes ; on parle alors 6.2.2. Analyse des ponts de N ( I) dans J p R Dans l espace des colonnes, le pont sera mun de la masse f et représenté par son profl f (sa composante sur la N () I = {( f, f ) I}, le nuage des ponts I J ) Le centre de gravté, de ce nuage est ème varable est f = f / f ) ; on notera par : f = { f ; J} Comme le centre de gr avté (ou barycentre) G d un système, de ponts {( m, x ) I} est le pont moyen du système, de la èmecomposante X tel que pour tout : { m( x x ) I} = 0 G On a donc pour tout : f f ( f f ) f ( f ) = f f f f d où { f ( f f ) I} = { f I} f { f I} = 0 étant donné que { f I } = f, et { f I} = 1 )- La dstance entre ponts de NJ ( ) 2 1 2 d (, ) = { ( f f ) J} f Cette dstance mesure les proxmtés de forme entre lgnes (ou entre colonnes) compte tenu 2 de leurs pods dfférents. Elle est appelée dstance du χ (ch-2) et vérfe ce qu on appelle le prncpe d équvalence dstrbutonnelle : S deux lgnes (ou deux colonnes) du tableau k IJ sont proportonnelles et qu on les remplace par une seule lgne (ou par une seule colonne) qu en sot la somm e colonne par colonne J G 39

(ou la somme lgne par lgne), les dstances entre colonnes (ou entre lgnes) ne sont pas changées au sen du nuage (N(J) (ou N(I)). En effet, s l on consdère deux éléments 1 et 2 de tels que leurs profls sur soent 1 2 dentques ( fi = fi ) ; s on substtue aux colonnes 1 et une colonne 2 s telle que : f = f + f, s 1 2 f = f + f, alors la dstance entre éléments de I n est pas modfée. En s 1 2 d autres termes on ne modfe pratquement pas les résultats d une analyse des correspondances s on regroupe deux rubrques très vosnes en aoutant leurs pods. )- La dstance d un pont au centre de gravté du nuage N ( I) est : 1 () { ( f f ) J} 2 2 ρ = f v) De même on peut calculer l nerte de ce pont f et par son pods f. On a : 2 n() = ρ () I f v) L nerte du nuage N ( I) sera égale à I ( N ( I) = { I ( ) I} n d où = n 1 f f f I = 2 { ( ) } f f f f f f f f f 2 { ( ), } I J 1 I N I = f f f I J 2 n( J( )) { ( ), } ff compte tenu de la symétre entre les ndces nuage On a donc : de s ponts. I ( N ( I)) = I ( N ( J)) n J n I et J caractérsé par son profl cette formule donc auss l nerte du Remarque : Les profls peuvent être consdérés comme de coordonnées eucldennes. S l on consdère la transformaton suvante : 1/2 J, I, on assoce à f la quantté f f alors la dstance eucldenne usuelle entre deux ponts et vaut :, 2 1/2 1/2 2 1 2 (, ) = ( ) = ( f ) f d f f f f f et on vot qu elle coïncde ben avec la dstance du ch-2. Avec cette transformaton le centre de gravté du no uveau nuage que l on note N ( I) = {( f f, f ) I} est : 1/2 40

f f J 1/2 = { ; } De tout ce qu précède, on est condut à dagonalser la matrce T des covarances, dont le terme général s é crt : t = f ( f f f )( f. f f ) ; 1/2 1/2 1/2 1/2 ce qu condut à la recherche des vecteurs propres et valeurs propres de la matrce des varances-covarances T qu oue le rôle de X X dans l analyse générale. 6.2.3. Analyse des ponts de N ( J) dans n R Les ensembles I et J ouant un rôle parfatement symétrque, l analyse des ponts de NI ( J) se dédut de l analyse des ponts de NJ ( I ) par permutaton des ndces et des ensembles I et J. et 6.2.4. Relatons entre les ponts de NJ ( I ) et les ponts de NI ( J ) Comme en ACP, les facteurs sont de moyenne nulle et les axes factorels sont deux à deux orthogonaux (au sens de la métrque du ch-2). On rappelle que l nerte du nuage proeté sur l axe α est égale à celle du nuage N ( J ) proeté sur l axe α (c est la valeur propre de rang α ). On a entre les éléments de I et de J les relatons suvantes : 1/2 Fα() = (1/ λα ) { f Gα( ) J} : proecton de la lgne sur l axe de rang α de NJ ( I ) ; 1/2 Gα( ) = (1/ λα ) { f Fα( ) I} : proecton de la colonne sur l axe de rang α de NI ( J ) ; λ α : valeur commune de l nerte assocée à chacun de ces axes. I NJ ( I ) Ces formules sont appelées formules de transton et permettent la représentaton smultanée des deux ensembles I et J et l adoncton à l un ou l autre des deux ensembles supplémentares de masse nulle. Cette expresson d une formule de transton est appelée proprété barycentrque : les éléments «lourds» attrant le barycentre, une colonne attre d autant plus une lgne que la valeur f est élevée. Sur les plans factorels, les ponts élognés de l orgne, retennent partculèrement l attenton, car ce sont les profls les plus dfférents du profl moyen. Enfn, on peut recalculer les valeurs du tableau ntal en foncton des marges et des facteurs. En effet, connassant les los margnales f I et f J, la sute des facteurs F α et G α usqu à l ordre p, et les valeurs propres λ 1,..., λ p, on trouve que : 1/2 f = ff (1 + {(1/ λα ) Fα( G ) α( ) α [1, p]} ; c est la formule de reconsttuton du tableau des données de départ. 41

6.2.5- Eléments supplémentares Sot s une lgne supplémentare. Pour vsualser s sur le α ème axe factorel on proette le profl de s sur cet axe. L abscsse Fα ( s ) de cette proposton s écrt : 1/2 s F ( ) = (1/ λ ) { f G ( ) J} α s α α De même pour une colonne supplémentare s, l abscsse Gα ( s ) de la proecton du profl s sur l axe α s écrt : G λ f F I 1/2 ( ) (1/ ) { s α s = α α( ) } 6.3- Interprétaton d une analyse factorelle des correspondances. 6.3.1. Tableau des données de base Reprenons no tre exemple de le tab leau1. Le chef de la scolarté du CASP décde alors de mettre en place un système pour repérer les étudants en foncton du profl de leurs notes dans les dfférentes matères concernées. Le fcher à analy ser est donc un tableau où chaque étudant représente une lgne et chaque matère une colonne. 6.3.2. Vecteurs et valeurs propres. NUMERO! VAL PROPRE 1! VAL PROPRE 2! VAL PROPRE 3! VAL PROPRE 4!! 1.00000!.00750!.00515!.00327! OBJET 1! -.22264!.12390! -.02777!.07969! OBJET 2! -.27437!.15444!.14066!.00110! OBJET 3! -.24338!.12723! -.11714!.35144! OBJET 4! -.25169! -.05533! -.05474! -.06180! OBJET 5! -.23169! -.12409! -.77690! -.42761! OBJET 6! -.27993!.03318! -.03768!.02703! OBJET 7! -.21750! -.25530!.08272!.13412! OBJET 8! -.21272! -.70959!.33829! -.10346! OBJET 9! -.23826! -.18690! -.05908! -.03532! OBJET 10! -.23125! -.03079! -.09632! -.03212! OBJET 11! -.22402!.52647!.33496! -.46833! OBJET 12! -.21464! -.05100!.21780! -.49950! OBJET 13! -.21844!.12983! -.05285!.07794! OBJET 14! -.25735!.03713! -.01092!.26574! OBJET 15! -.25815!.13427! -.14161!.26705! OBJET 16! -.26638!.06293!.15184!.14257! OBJET 17! -.26444! -. 02175!.13425!.12087! Tableau 8 : Vecteurs et valeurs propres de l AFC. 42

En analyse factorelle des correspondances, toutes les valeurs propres sont comprses entre 0 et 1. En effet, on extrat p valeurs propres, avec p nf( cardi, cardj ) 1] ; on a : 1 λ1 λ2... λp. Le vecteur propre assocé à la valeur propre 1, est dénommé «vecteur propre trval» car l n apporte ren pour l analyse factorelle de NJ ( I) et NI ( J ). La premère valeur propre à consdérer dans notre exemple est en l occurrence λ 1 = 0.00750. On a ensute λ 2 = 0.00515 et λ 3 = 0.00327 ; chacune des 3 colonnes correspond à un vecteur propre (.e les coordonnées des axes factorels dans l espace des 17 varables). Comme en ACP, l hstogramme (tableau 9) représente les valeurs propres par des longueurs qu leurs sont proportonnelles, ce qu perm et d apprécer d un regard la décrossance des valeurs propres quand leur rang augmente. Sur notre exemple, on vot que chacune des deux premères valeurs propres est nettement séparée de celle qu la sut : λ 1 vaut près de 1.5 fos λ 2 ; λ2 = 1.6λ3. En règle générale, une valeur propre ben séparée de celle qu la précède et de celle qu la sut est le sgne que l axe qu lu correspond est ben ndvdualsé, et l on cherchera à l nterpréter cet axe ; deux valeurs propres vosnes l une de l autre, mas ben séparées des autres, sont le sgne que le plan des axes qu leur correspond est ben ndvdualsé. On rappelle enfn que des valeurs propres élevées ndquent des oppostons tranchées dont l nterprétaton est souvent à la fos évdente et attendue. Des valeurs propres fables peuvent correspondre à des corrélatons plus dscrètes que l analyse aura révélées. LES VALEURS PROPRES VAL (1) = 1.00000 -----------------------------------------------------------------------------------------------------------------------------------------------!NUM! VAL PROPRE! POURC.! CUMUL! VARIAT.! *! HISTOGRAMME DES VALEURS PROPRES ----------------------------------------------------------------------------------------------------------------------------------------------!!!! 2! 3! 4! 5!.00750.00515.00327.00289! 27.273!! 18.744!! 11.889!! 10.499! 27.273! 46.016! 57.906! 68.405! *******! *! ***************! ***************! 8.529! *! ***************! ****** 6.854! *! ************* 1.390! *! ************!!! 6! 7! 8!.00254.00202.00105!!! 9.236! 7.340! 3.831! 77.641! 84.981! 88.812! 1.263! *! ***********.1.836! *! ******** 3.510! *! ****! 9!.00086! 3.146! 91.958!.685! *! ***! 10!.00069! 2.503! 94.461!.643! *! ***! 11!.00048! 1.752! 96.212!.751! *! **! 12!.00039! 1.419! 97.632!.332! *! **! 13!.00027!.979! 98.610!.441! *! *! 14!.00017!.624! 99.234!.355! *! *! 15!.00010!.375! 99.609!.249! *!! 16!.00007!.266! 99.875!.109! *!! 17!.00003!.125! 100.000!.140! *! Tableau 9 : Hstogramme des valeurs propres 43

6.3.3 Les tableaux des facteurs sur I et sur J : ades à l nterprétaton. Dans les tableaux c-dessous (tableaux 10 et 11) et pour chaque colonne (comme en ACP) on rappelle les notons suvantes : ) Le pods (POID) qu donne pour chaque étudant (ou pour chaque matère ) la part qu l a dans le total du tableau. Le total de la colonne pods pour chacun des tableaux vaut 1000. f = k / k ; f = k / k ) L nerte (INR) qu donne en mllèmes la valeur de l nerte de chaque pont NJ ( I ) (profl de la lgne afférente à l étudant ) ou I f J de f de N ( J )(profl de la colonne afférente à la note ) par rapport au centre de gravté du nuage, rapporté à l nerte totale du nuage. INR() = f d (, G) = f ρ () 2 2! I! QLT POI D INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! ABDO! 398 41 15! -38 151 8! -24 59 5! -7 5 1! 2! BANZ! 614 34 27! -20 19 2! 33 51 7! 8 3 1! 3! BATA! 208 39 15! 32 100 5! -22 46 4! -3 1 0! 4! BOUK! 562 44 40! 37 53 8! 41 66 14! -87 300 101! 5! BOYE! 870 36 64! 108 241 56! -136 378 128! 107 236 126! 6! GOYI! 869 42 31! -78 298 34! -39 75 12! 50 123 32! 7! LIK1! 983 38 53! 118 363 70! 123 391 110! 61 98 43! 8! LIK2! 787 42 29! -46 114 12! 3 0 0! 3 0 0! 9! LOUZ! 839 36 77! -191 631 177! 90 138 56! -35 21 14! 10! MAKI! 720 40 29! 51 134 14! -34 57 9! 13 9 2! 11! MALO! 703 41 45! -91 272 45! -105 366 88! -26 23 9! 12! MAMP! 693 42 40! -85 268 40! -20 15 3! 13 7 2! 13! MATO! 772 41 49! -73 159 29! 103 321 84! 68 140 58! 14! MBIK! 891 38 61! -184 773 172! 8 1 0! 20 9 5! 15! MPOU! 789 40 26! 9 4 0! -19 19 3! 68 260 58! 16! NGUI! 609 39 25! 42 98 9! -24 34 5! 59 197 41! 17! NKOK! 699 41 17! 58 299 19! 39 131 12! 6 3 0! 18! NSEM! 748 41 44! -7 1 0! 108 405 94! -62 134 49! 19! NSON! 731 43 32! 1 0 0! -31 47 8! -84 341 93! 20! NZAK! 918 42 76! 161 520 145! -26 13 5! -130 337 215! 21! ONDZ! 984 38 54! 118 357 71! 122 378 109! 67 113 52! 22! SAFO! 654 41 21! -7 3 0! 73 371 42! -43 128 23! 23! SAM1! 719 39 45! 12 5 1! -91 266 64! -73 170 64! 24! SAM2! 755 39 46! -48 73 12! -129 516 125! 17 9 3! 25! TSIB! 668 42 40! 112 476 70! -37 52 11! 25 23 8!!! 1000! 1000! 1000! 1000! Tableau 10 : Facteurs sur I I 44

) La qualté de représentaton (QLT) qu s nterprète comme le carré du cosnus de l angle que fat un pont avec sa proecton sur l espace factorel engendré par les axes factorels : plus le cosnus est élevé, plus le pont est corrélé avec l axe et donc ben représenté sur cet axe. On a ensute, pour chaque facteur un groupe de tros colonnes. v) Le facteur lu-même ; on sat que chaque pont du plan est défn par ses deux coordonnées ou facteurs. Seuls sont mprmés c les tros premers facteurs (1#F, 2#F et 3#F) sur les cnq extrats. v) COR qu mesure la qualté de la représentaton d un pont par sa proecton sur l axe. La somme des COR est égale à QLT. 2 2 2 cos = F ( ) / ρ ( ) v) La contrbuton relatve d un pont à un axe ( CTR ) permet de repérer les éléments qu font l axe, c est-à-dre les éléments qu ont le plus de part à l nerte du nuage proeté sur l axe. CT R = f 2 F ( )/ λ α! J1! QLT POI D INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! STAT! 465 50 32! 48 129 15! -9 4 1! 20 23 6! 2! MSTA! 598 75 25! 49 260 24! 37 148 20! 0 0 0! 3! STAS! 537 59 77! 45 57 16! -35 33 14! 83 190 124! 4! STAE! 290 63 19! -19 44 3! -16 30 3! -14 24 4! 5! MATH! 994 54 148! -46 28 15! -241 763 604! -106 147 183! 6! PROB! 481 78 25! 10 12 1! -10 11 1! 6 4 1! 7! ECON! 664 47 55! -102 325 65! 27 23 7! 35 39 18! 8! DEMO! 957 45 173! -289 793 504! 114 124 114! -28 7 11! 9! INFO! 623 57 30! -68 319 35! -18 22 3! -8 5 1! 10! GEOE! 652 53 56! -12 5 1! -30 31 9! -8 2 1! 11! COME! 964 50 143! 203 528 277! 107 147 112! -120 182 219! 12! COMN! 880 46 70! -21 10 3! 73 126 47! -133 422 249! 13! TEXP! 621 48 50! 51 93 17! -17 11 3! 20 15 6! 14! ANGL! 560 66 25! 12 15 1! -3 1 0! 59 331 71! 15! HIST! 576 67 41! 45 120 18! -39 92 20! 59 207 71! 16! STAG! 601 71 15! 20 73 4! 41 292 23! 31 163 20! 17! APPG! 368 70 16! -7 8 0! 36 216 18! 26 111 15!!! 1000! 1000! 1000! 1000! Tableau 11 : Facteurs sur J 45

En examnant ces tableaux on peut repérer : - les ponts excentrés pour lesquels INR est nettement supéreur à POID comme LOUZ, NZAK (pour les ndvdus) et DEMO, COME et MATH (pour les varables) ; cela ne peut être dû qu à leur dstance élevée à l orgne ; - les ponts centraux, pour lesquels POID est nettement supéreur à INR comme ABDO, BANZ (pour les ndvdus), ST AG et APPG (pour les varables) ; - les ponts correspondant aux CTR les plus forts. L nterprétaton des axes reposera sur l examen de ces ponts qu font l axe. Dans notre exemple on sélectonnera pour le premer axe LOUZ, MBIK et NZAK (pour les ndvdus), DEMO et COME (pour les varables) ; - les axes qu explquent l écart des ponts au centre de gravté : ce sont ceux pour - lesquels COR a une forte valeur ; Les ponts ben représentés comme ONDZ, LIK1 et BOYE pour les ndvdus et MATH, COME et DEMO pour les varables. 6.3.4. Représentatons graphques En AFC, on utlse la représentaton smultanée de NJ ( I) et NI ( J) sur les plans de coordonnées, rapportés chacun à deux axes factorels. On sat, d après les formules de transton (cf 6.4.2) que, au coeffcent 1/2 λ près, les ponts représentatfs d un nuage sont sur un axe, les barycentres des ponts représentatfs de l autre. On constate que ce coeffcent est supéreur à 1, et le nuage est d autant plus dlaté dans la drecton d un axe que la valeur propre correspondante est fable. Deux ponts de N ( I) proches révèlent un comportement semblable des caractères lgnes correspondant les ponts de NI ( J ). J pour ces deux axes de proecton (l est de même pour les proxmtés entre L nterprétaton des proxmtés entre les proectons des ponts de NJ ( I) et de NI ( J) est plus délcate ; le seul cas dans lequel on puss e tenr comp te de la proxmté entre les proectons de deux ponts appartenant l un à NJ ( I ), l autre à NI ( J ), est celu où ces deux ponts sont stués à la pérphére du nuage Lorsqu l s agt par contre des ponts stués à l ntéreur du nuage, les proxmtés sont un vértable pège pour l ntuton [ 60 ]. Dans notre exemple, par rapport aux facteurs mprmés (c 3) les représentatons possbles sont les plans (1,2), (1,3) et (2,3). Nous n examnerons que les plans (1,2) et (1,3) (graphques 6 et 7). 46

AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de ponts : 44 ECHELLE : 4 caractères = 0.27 1 lgne =.011 Nombre de ponts superposés : 7 ONDZ(LIK1) MSTA(NKOK) STAG(BOUK) STAE(ABDO) TEXP(NGUI) STAS(MAKI) GEOE(NSON) Graphque 6 : Représentaton smultanée des ndvdus et des varables dans l espace factorel (1,2). En prenant en compte tous les éléments c-dessus énumérés on peut rapdement nterpréter les résultats de la façon suvante : l axe 1 oppose les ndvdus LOUZ et MBIK aux ndvdus NZAK, TSIB, et LIK1, la varable DEMO à la varable COME. En combnant l analyse des deux ensembles, on peut constater que LOUZ et MBIK qu ont une bonne note en démographe, et ont une mauvase note en comptablté d entreprse. Par contre, les ndvdus NZAK, TSIB et LIK1 qu sont bons en comptablté d entreprse, sont médocres en démographe. 47

L axe 2 peut être consdéré comme l axe des mathématques. En bas et à gauche de cet axe, on trouve effectvement les melleurs étudants dans cette dscplne : ce sont SAM2, MALO et SAM1. Sur l axe 3 les oppostons ne sont pas très tranchées. Cet axe est néanmons domné par COME. On trouve ce pont à la pérphére du nuage à côté de NZAK ; cette proxmté peut être explquée par le fat que la melleure note en comptablté d entreprse a été obtenue par cet étudant. AXE HORIZONTAL (1) AXE VERTICAL (3). Nombre de ponts : 44 ECHELLE : 4 caractères = 0.27 1 lgne =.011 Nombre de ponts superposes:5hist(ngui) TEXP(STAT) NKOK(MAKI) SPOR(BANZ) STAE(ABDO) Graphque 7 : Représentaton des ndvdus et des varables dans l espace factorel (1,3). Note : Le lecteur pet être tenté de comparer les résultats graphques ssus d une ACP de ceux d une AFC. En effet, la tentaton est grande, car on peut consdérer l analyse factorelle des correspondances comme une ACP classque sur des données transformées (profls) utlsant une dstance partculère, la dstance du ch-2. S l on tente cette comparason écrt PH Cbos on s aperçot que les résultats sont comparables à cette dfférence qu en analyse en composantes prncpales, seules les lgnes et colonnes les plus fortes en effectf sont prses en compte ce qu n est pas le cas en analyse des correspondances où une pondératon est ntrodute [ 17 ]. En tenant compte du fat que, le premer facteur extrat en analyse factorelle des correspondances est un facteur trval (cf. 48

6.3.2), λ = 1 et que l on ne numérote pas, l poursut : s l on veut donc comparer les facteurs équvalents et en prenant la numérotaton usuelle des facteurs l faut donc comparer le facteur 2 de l analyse en composantes prncpales avec le facteur 1 de l analyse des correspondances et ans de sute Il est d alleurs un cas où les deux méthodes donnent les mêmes résultats graphques, c est dans la stuaton où les marges du tableau sont dentques et où de ce fat, la pondératon de l AFC ne modfe ren. 6.4 L analyse des correspondances multples L analyse des correspondances multples (ACM), est consdérée comme l applcaton la plus féconde de l analyse des correspondances et dont les fchers d enquêtes soco-économques consttuent le champ d applcaton prvlégé ; elle est l applcaton de l analyse factorelle des correspondances à l étude des tableaux logques (cf 6.1). 6.4.1- Tableau dsonctf complet Reprenons la descrpton du tableau sous forme dsonctve complète commencée au paragraphe 6.1. en conservant les mêmes notatons. Les marges du tableau sont notées : = nombre de questons k q = k = { k J} = { { k } q Q} = CardQ q avec { } 1 k = { k J } = nombre d ndvdus ayant fourn la réponse à la queston q. donc { k J } = CardI = n q = k { k I, J} = { k I} = ncardq J 1 = 2 J 2 = 4 J 3 = 5 J 4 = 3 1 0 0 0 1 0 0 0 0 0 1 0 1 0 k = CardQ k k = ncardq 49

On note les fréquences margnales comme sut : f = k / k = CardQ / ncardq = 1/ CardI Sot p la proporton des ndvdus ayant fourn la réponse à la queston q : P = k / CardI. ( { p J q} = 1). On a alors : f = p / CardQ Le nombre d ndvdus ayant fourn la réponse est se trouve I p ; cela veut dre que le chffre 1 I p fos dans la colonne ; et le chffre 0 se trouve I (1 p ) fos. Le tableau précédent peut être nterprété de la manère suvante : dans une enquête comprenant quatre questons, l ndvdu a chos la modalté 1 de la premère queston (queston à deux modaltés de réponses), la modalté 3 de la deuxème queston (queston à quatre modaltés de réponses), la modalté 5 de la trosème queston (queston à cnq modaltés de réponses) et la modalté 2 de la quatrème queston (queston à tros modaltés de réponses). On vérfe ben que la lgne de marge k est égale au nombre de questons c est-à-dre 4. Le tableau ans construt est formé par la uxtaposton de 4 tableaux logques et content autant de fos la valeur 1 qu l y a de ces tableaux (c 4 ben sûr). Les tableaux dsonctfs complets ont le défaut d être grands et leur analyse coûteuse : une varante consste à effectuer l analyse factorelle des correspondances sur le tableau de Burt. 6.4.2- Tableau de Burt S l on crose l ensemble des modaltés du tableau dsonctf complet avec elles-mêmes, on obtent le tableau de Burt. J, { q } B J = k { } J : B = B J = k CardQ {, } ( B = { kk I } = et nombre d ndvdus ayant adopté à la fos les modaltés. B = B J J = n CardQ) 2 50

J 1 0 0 J 1 J J J 2 3 4 J 2 0 0 J 3 0 J 4 0 0 0 B = k CardQ ncardq ( ) 2 Il faut fare remarquer que : s et appartennent au même sous-ensemble modaltés, on a : : B = 0s, Jq = k s = (nombre d ndvdus ayant adopté la modalté ). Le tableau de Burt ans construt, est donc formé d une uxtaposton des tableaux de contngence entre les varables prses deux à deux. Les tableaux contenant la dagonale crosent chaque varable avec elle même et sont rempls de 0 à l excepton de leurs dagonales, remples des effectfs de chaque modalté. q de 6.4.3- Equvalence entre les deux analyses précédentes On consdère les deux tableaux k et IJ k = { k I, J} et IJ JJ B = B J J avec {, } B = { kk / k I} On a alors : B JJ défns par : = = / ( / ) = = = k = = = =, B B k k k k k k k B B B k k Pour procéder à l analyse factorelle du tab leau de Burt, l faut dagonalser les matrces UU et UU étant la matrce de terme général défn par : = ( B B B / B)/( B B 1/2 u ) u 51

En tenant compte du fat que B = k ; B = k ; B= k: u = { k k / k} k k / k /( k k ) 1/2 On a donc u = t = terme général de la matrce de varances-covarances T du 6.2.2. Ans l analyse factorelle de B JJ revent à dagonalser la matrce L analyse des correspondances de k IJ fournt les mêmes facteurs que celle du tableau mas, les valeurs propres correspondantes sont dfférentes : à la valeur propre λ de k IJ l analyse de correspond la valeur propre 2 λ de l analyse de 2 T. B JJ. B JJ 6.4.4- Calculs de contrbutons dans l analyse du tableau dsonctf complet. ) Le carré de la dstance au centre de gravté d un pont s écrt dans R n : 2 2 2 ρ ( ) = d G = / f f f f I (, ) {1 (( / ) ) } Comme : f = 1/ CardI et f = p / CardI on a en défntve : ρ CardQ 1 ( ) = { CardI( f ) I} 2 2 p CardI On peut décomposer cette somme selon les valeurs prses par f ; on trouve que : 1 f = ( CardI p ) CardQ CardI 1 p 2 2 ρ ( ) = p ( ) + (1 p ) p ρ 2 ( ) = (1 p ) p fos et 0 CardI (1 p ) fos ; ce qu donne : ) La contrbuton de la modalté vaut donc : CTR f d G p CardQ d G 2 2 ( ) = (, ) = ( / ) (, ) CTR( ) = (1 p )/ CardQ L nerte due à une modalté est d autant plus grande que l effectf dans cette modalté est fable. On évtera de défnr les modaltés que l on peut supposer a pror trop rares. )- La contrbuton d une queston q est : CTR( q) = {(1 p )/ CardQ } Comme { p q} = 1 on a : CTR( q) = ( Card / CardQ) 1 q q Elle est proportonnelle au nombre de modaltés de la queston. Du pont de vue du codage des données cela suppose que, le nombre de modaltés de chaque queston dot être vosn pour avor des pods équvalents pour chaque queston. v)- L nerte totale est égale à : I n I ( N ( J)) = ( CardJ / CardQ) 1 52

On remarque que cette nerte ne dépend pas des lasons exstant entre les varables. Elle vaut 1 s boutes les questons ont deux modaltés de réponse. 6.4.5- Interprétaton d une analyse des correspondances multples. 6.4.5.1- Tableau des données de base. A partr du tableau des varables quanttatves (tableau1), on peut construre un tableau de descrpton logque. La procédure est la suvante : - on rend toutes les délmter les bornes des classes. varables qualtatves par découpage en classes. Le découpage peut se fare sot en classes d effectfs égaux, sot en classes d ampltudes égales ; - la connassance du domane à étuder peut auss condure l utlsateur à fxer lu-même les bornes de classes ; - dans tous les cas, l est consellé avant tout découpage, de construre les hstogrammes des varables pour l ensemble des ndvdus. Ces derners sont une ade préceuse pour De tout ce qu précède, on retendra tout smplement qu en analyse de vos propres données auss l faudrat «parfos» consdérer la statstque comme une scence expérmentale [ 31 ]. Dans l exemple chos, on a découpé chaque varable-matère en tros classes d ampltudes égales. On a 19 3 = 57 varables nouvelles ssues des 19 varables d orgne. Ans par exemple, pour la varable STAT, on aura les tros modaltés STA1, STA2, et STA3. Le tableau dsonctf complet k IJ assocé au découpage précédent est donc un tableau 25 57. Cependant, on sat que l ACM est très sensble aux modaltés rares qu peuvent perturber l analyse (.e rendre nstable les axes) et reléguer sur des axes ultéreurs des phénomènes plus ntéressants. On peut donc provsorement abandonner ces modaltés et par la sute les postonner en éléments supplémentares[ 49 ]. Fort de ce qu précède, sx varables seront postonnées en éléments supplémen tares. Ce sont : PROB, ANGL, HIST, SPOR, A PPG et MOYG. Le tableau des varables actves est donc de dmenson 25 39 et celu des varables supplémentares de dmenson 25 18. 6.4.5.2. Valeurs propres En AC M chaque valeur propre est nféreure ou égale à 1 et leur somme est égale à l nerte totale du nuage, sot : ( CardJ CardQ) / CardQ = (39 13) /13 = 2 dans notre exemple. Dans ces condtons, aucune valeur propre ne peut représenter plus que 100/nerte totale, sot : 100 CardQ /( CardJ CardQ) 53

LES VALEURS PROPRES VAL (1) = 1.00000 NUM! VAL PROPRE! POURC! CUMUL! VARIAT.!! HISTOGRAMME DES VALEURS PROPRES! 2!.26448! 13.224! 13.224! *******! *! ***************! **************! 3!.23987! 11.994! 25.218! 1.230! *! ***************! *********** 4!.21365! 10.683! 35.900! 1.311! *! ***************! ********* 5!.17759! 8.880! 44.780! 1.803! *! ***************! ***** 6!.16227! 8.113! 52.893!.766! *! ***************! *** 7!.14655! 7.327! 60.220!.786! *! ***************! ** 8!.13548! 6.774! 66.994!.553! *! ***************! 9!.12249! 6.124! 73.119!.650! *! ************** 10!.08959! 4.479! 77.598! 1.645! *! ********** 11!.07595! 3.797! 81.395!.682! *! ********* 12!.06882! 3.441! 84.836!.356! *! ******** 13!.06724! 3.362! 88.198!.079! *! ******** 14!.05017! 2.509! 90.707!.854! *! ****** 15!.04701! 2.351! 93.057!.158! *! ***** 16!.03601! 1.801! 94.858!.550! *! **** 17!.03142! 1.571! 96.429!.229! *! **** 18!.01971!.985! 97.414!.586! *! ** 19!.01881!.940! 98.355!.045! *! ** 20!.01462!.731! 99.086!.209! *! ** 21!.00950!.475! 99.560!.256! *! * 22!.00530!.265! 99.825!.210! *! * 23!.00309!.155! 99.980!.110! *! 24!.00040!.020! 100.000!.135! *! 25!.00000!.000! 100.000!.020! *! 26!.00000!.000! 100.000!.000! *! 27!.00000!.000! 100.000!.000! *! 28!.00000!.000! 100.000!.000! *! 29!.00000!.000! 100.000!.000! *! 30!.00000!.000! 100.000!.000! *! 31!.00000!.000! 100.000!.000! *! 32!.00000!.000! 100.000!.000! *! 33!.00000!.000! 100.000!.000! *! 34!.00000!.000! 100.000!.000! *! 35!.00000!.000! 100.000!.000! *! 36!.00000!.000! 100.000!.000! *! 37!.00000!.000! 100.000!.000! *! 38!.00000!.000! 100.000!.000! *! 39!.00000!.000! 100.000!.000! *! 2 Tableau 12 : Hstogramme des valeurs propres de l ACM 54

On peut dre que les valeurs propres ssues d une ACM sont donc un peu partculères et dffclement nterprétables (taux d nerte fables). Elles donnent une dée très pessmste de l nformaton extrate[ 43 ]. 6.4.5.3 Tableaux des facteurs sur I et sur J Les coordonnées factorelles des ponts de N( I) et de N( J) sont données par les mêmes formules que celles de l AFC ans que les résultats numérques et les paramètres assocés. Cependant on peut fare constater les résultats suvants dans le tableau des facteurs sur J : - toutes les questons ont le même pods sot 1/13=0.077 (77 en mllème) ; la somme des pods des modaltés d une même varable vaut donc (en mllème) 77 ; - les questons ayant le même nombre de modaltés CardJ q = 3, les contrbutons à l nerte de toutes les questons sont égales : CT R( q) = ( CardJ 1) / CardQ = 2 /13 = 0.154! I1! QLT POID INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! ABDO! 734 40 56! -602 130 55! 649 151 70! -1127 454 238! 2! BANZ! 393 40 31! 512 169 40! -318 65 17! 496 159 46! 3! BATA! 42 40 31! -172 19 4! -164 18 5! -88 5 1! 4! BOUK! 425 40 53! 543 111 45! 757 215 96! 511 98 49! 5! BOYE! 344 40 29! 324 72 16! -587 236 57! 231 36 10! 6! GOYI! 39 40 40! 13 0 0! 15 0 0! 282 39 15! 7! LIK1! 813 40 38! -1097 628 182! -412 88 28! 429 96 34! 8! LIK2! 310 40 41! 771 287 90! 195 18 6! -99 5 2! 9! LOUZ! 233 40 37! 355 69 19! -543 160 49! 83 4 1! 10! MAKI! 118 40 37! -214 24 7! 414 92 29! -64 2 1! 11! MALO! 433 40 39! 699 253 74! -239 30 10! -540 151 55! 12! MAMP! 406 40 43! 59 2 1! -615 177 63! -696 227 91! 13! MATO! 376 40 46! 80 3 1! -713 222 85! -588 151 65! 14! MBIK! 445 40 38! 705 263 75! -515 140 44! -280 42 15! 15! MPOU! 113 40 37! -47 1 0! 316 54 17! 326 58 20! 16! NGUI! 77 40 34! -289 50 13! -175 18 5! 119 8 3! 17! NKOK! 224 40 35! 186 20 5! 355 72 21! 482 132 43! 18! NSEM! 165 40 39! 505 130 39! -177 16 5! 195 19 7! 19! NSON! 348 40 42! -852 346 110! 63 2 1! -1 0 0! 20! NZAK! 503 40 42! 48 1 0! 710 242 84! 735 260 101! 21! ONDZ! 813 40 38! -1097 628 182! -412 88 28! 429 96 34! 22! SAFO! 135 40 41! 57 2 0! 336 56 19! 396 77 29! 23! SAM1! 473 40 57! -271 26 11! 849 253 120! -744 194 104! 24! SAM2! 269 40 35! -415 100 26! -539 168 48! -50 1 0! 25! TSIB! 375 40 42! 199 19 6! 747 265 93! -437 91 36! q 1000! 1000! 1000! 1000! Tableau 13 : Facteurs sur I L nerte d une queston INR( q ) la queston q ramenée à l nerte totale vaut donc : INR( q) = CTR( q )/nerte totale = 0,154/2=0,077 (77 en mllème). La somme des nertes des modaltés d une même varable vaut (en mllème) 77. 55

! J1! QLT POID INR! 1#F COR CTR! 2#F COR CTR! 3#F COR CTR! 1! STA1! 388 34 22! 553 240 39! -213 36 6! 378 112 23! 2! STA2! 493 25 26! -856 345 68! -71 2 1! -556 145 36! 3! STA3! 80 18 29! 129 5 1! 485 74 18! 48 1 0! 4! MST1! 777 40 18! 470 240 33! -687 511 79! -156 26 5! 5! MST2! 561 15 31! -69 1 0! 1355 459 118! -636 101 29! 6! MST3! 516 22 28! -824 264 55! 308 37 9! 744 215 56! 7! STS1! 426 34 22! 516 209 34! 220 38 7! 478 180 36! 8! STS2! 555 25 26! -1002 472 93! -309 45 10! 285 38 9! 9! STS3! 547 18 29! 391 48 11! 9 0 0! -1257 499 137! 10! STE1! 453 34 22! -62 3 0! -749 441 79! -111 10 2! 11! STE2! 386 37 20! 199 36 6! 432 172 29! 439 178 33! 12! STE3! 622 6 35! -849 63 17! 1530 204 60! -2023 356 118! 13! MAT1! 243 28 25! -118 8 1! -355 71 15! 540 164 38! 14! MAT2! 107 28 25! 406 93 17! 156 14 3! 42 1 0! 15! MAT3! 297 22 28! -371 53 11! 256 26 6! -749 218 57! 16! ECO1! 158 28 25! 368 76 14! 379 81 17! 54 2 0! 17! ECO2! 416 31 23! -700 327 57! -351 82 16! -100 7 1! 18! ECO3! 122 18 29! 615 120 26! 18 0 0! 85 2 1! 19! DEM1! 190 34 22! -331 86 14! 187 27 5! 312 77 15! 20! DEM2! 65 31 23! 131 11 2! 281 53 10! -23 0 0! 21! DEM3! 469 12 32! 582 65 16! -1218 282 76! -801 122 37! 22! INF1! 264 43 17! -303 116 15! -204 53 7! 273 95 15! 23! INF2! 282 22 28! 288 32 7! 442 76 18! -669 174 45! 24! INF3! 68 12 32! 555 59 14! -60 1 0! 216 9 3! 25! GEO1! 335 28 25! -410 95 18! -646 235 48! 97 5 1! 26! GEO2! 475 25 26! 780 286 57! 599 169 37! 208 20 5! 27! GEO3! 103 25 26! -318 48 9! 128 8 2! -317 47 12! 28! COE1! 372 28 25! 630 223 42! -502 142 29! 108 7 2! 29! COE2! 265 34 22! -82 5 1! 280 62 11! -502 198 40! 30! COE3! 455 15 31! -954 228 53! 288 21 5! 910 207 60! 31! CON1! 500 28 25! -735 304 57! -532 159 33! 257 37 9! 32! CON2! 384 31 23! 187 23 4! 172 20 4! -715 341 74! 33! CON3! 485 18 29! 790 197 44! 512 83 20! 806 205 56! 34! TEX1! 455 28 25! -884 440 82! -39 1 0! -162 15 3! 35! TEX2! 627 28 25! 727 297 55! -713 286 59! -279 44 10! 36! TEX3! 504 22 28! 202 16 3! 967 363 84! 567 125 32! 37! STG1! 202 31 23! 334 74 13! -433 125 24! -67 3 1! 38! STG2! 277 22 28! -303 36 7! 788 241 56! -4 0 0! 39! STG3! 25 25 26! -152 11 2! -148 10 2! 87 4 1! 1000! 1000! 1000! 1000! Tableau 14 : Facteurs sur J 56

6.4.5.4- Représentaton graphque Essayons d nterpréter le plan (1,3). Essayer parce que l ntérêt d une telle étude est relatvement lmtée. Parce que auss ces méthodes ont été conçues pour l analyse de très grands tableaux. En soumettant ce tableau (vu son format) à une analyse de correspondances multples, nous avons voulu avant tout, favorser le côté pédagogque. La spécfcté c, contrarement aux méthodes précédentes, résde dans le fat que l étude ne porte plus sur les varables elles-mêmes, mas sur les modaltés de ces varables. On réalse une analyse par nveaux de varable, plus poussée que celles des varables ntales. L axe 1 (graphque 8) : les varables les plus contrbutves à la formaton de cet axe sont GEO2, TEX2, STS2, TEX1, STA2, ECON2 et CON1. Cet axe est donc essentellement domné par les modaltés 2 et 1 de ces varables. Du côté postf de l axe on trouve des varables GEO2 et TEX2 ; du côté négatf, les varables STS2, TEX1, STA2, ECO2 et CON1. On peut dre que l axe 1 oppose entre elles les varables dont les modaltés ont des valeurs moyennes (modaltés 2). En ce qu concerne les ndvdus, l axe 1 oppose les ndvdus MBIK, LIK2, BOUK et NSEM aux ndvdus LIK1, ONDZ, NSON et ABDO. S on rasonne en termes de groupe d ndvdus, on trouve du côté postf de l axe, les étudants ayant un nveau moyen en culture générale (GEO2, TEX2) et du côté négatf, les étudants moyens dans certanes dscplnes comme la statstque et l économe et ayant obtenu des mauvas résultats dans d autres matères telles que la comptablté ou les technques d expresson. L axe 3 est domné par les valeurs élevées des modaltés de certanes varables. Ce sont, du côté postf de l axe MST3, CON3 et COE3 et du côté négatf STS3, STE3 et MAT3. L opposton de ces varables sur cet axe consttue le trat domnant. On peut, comme pour l axe 1, trer les conclusons smlares en ce qu concerne les ndvdus ou groupe d ndvdus. Ben que ne partcpant pas à la formaton des axes, on peut utlement nterpréter les dfférentes postons des varables supplémentares sur les axes (comme les postons respectves de MOY3 et APG3 sur l axe 1). Enfn, sgnalons que pour rendre l nterprétaton plus facle, l est consellé de ondre par un trat les modaltés successves d une même varable. Cela est très mportant surtout lorsque les modaltés des varables sont assez nombreuses (cas des enquêtes). 57

AXE HORIZONTAL (1) AXE VERTICAL (3). Nombre de ponts : 82 Echelle : 4 caractères =.161 1 lgne =.067 Graphque 8 : Représentaton des ndvdus et des varables dans l espace factorel (1,3) 58

7. La classfcaton ascendante hérarchque 7.1. Prncpes généraux Dsons d emblée qu une classfcaton n est amas unque. Elle dépend des obets à classer, et de la méthode pratque de classfcaton utlsée. On ne présente dans ce caher qu une méthode de classfcaton, parce que la plus connue et la plus éprouvée : la classfcaton ascendante hérarchque (CAH). Défnssons au préalable quelques notons. 7.1.1. Partton et hérarche Le terme de classfcaton sert à désgner sot une partton sot une hérarche. On obtent une partton s l on partage un ensemble I en un système de classes non vdes, de telle sorte que tout ndvdu appartenne à une classe et une seule. S l ensemble I est dvsé en un nombre fn de classes, dont chacune est dvsée en un nombre fn de classes, etc., on parle alors d une hérarche de classes emboîtées. L exemple de classfcaton hérarchque le plus connu et sans doute le plus cté est celu fourn par les scences naturelles : les êtres vvants sont partagés en deux règnes : le règne anmal et le règne végétal ; chacun de ces deux règnes est lu-même subdvsé. Par exemple, parm les anmaux, on dstngue : vertébrés, nvertébrés ; pus parm les vertébrés : mammfères, oseaux, reptles, batracens et possons [ 5 ]. 7.1.2. Classfcaton ascendante et classfcaton descendante La constructon d une hérarche de classes peut se fare de deux façons : pour la premère, à partr de la base en formant des pares d obets qu se ressemblent beaucoup ; pus on adont à une pare un trosème obet ou une autre pare ; ans, se construsent progressvement des classes de plus en plus grandes mas de mons en mons homogènes. Ce mode de constructon s appelle la classfcaton ascendante hérarchque. Pour la seconde, on part du tout qu on scnde en deux classes ; à nouveau on scnde chacune de celles-c en deux et ans de sute usqu aux éléments composant cet ensemble. Ce procédé est appelé classfcaton descendante hérarchque. 7.1.3- Constructon d une classfcaton ascendante hérarchque. Supposons que les ndvdus à classer soent au nombre de 5. C est-à-dre que I ={1,2,3,4,5}. On construt la classfcaton ascendante hérarchque (CAH), à partr d un ensemble J, selon le processus suvant : - on calcule les dstances entre les ndvdus prs deux à deux. - on chost un crtère qu permet d agréger les dfférents éléments pour former des classes. 59

Après avor défn la dstance et le crtère d agrégaton, le processus se poursut selon les étapes suvantes (vor schéma c-dessous) : - on cherche les deux éléments de I les plus proches. Sur la fgure, ce sont par exemple les éléments (4) et (2) que l on agrège en un seul élément noté (6). Cet nouvel élément est appelé nœud. Il est défn par ses deux successeurs : l aîné et le benamn (éléments (4) et (2)), son pods (nombre d éléments) et son ndce de nveau (c le nombre ) qu n est autre que la dstance entre les éléments ((4) et (2)). - selon le même crtère d agrégaton chos, on calcule les dstances entre le nouvel élément (c (6)) et les éléments restants. On se retrouve dans les condtons de l étape précédente, mas cette fos-c, avec 4 éléments seulement à classer. - on renouvelle le processus usqu à ce qu l n y at plus qu un seul élément (élément (9)). nveau v 6 V 9 (9) V 8 (8) V 7 (7) (6) V 6 0 (4) (2) (1) (5) (3) Par rapport à l exemple c-dessus mentonné on peut fare le récaptulatf suvant : I = {1,2,3,4,5} est l ensemble des éléments sur lesquels est édfé la classfcaton ; N = {6, 7,8,9} est l ensemble des nœuds, ou des classes construtes ; ce sont : 6 = {4,2} ; 7 = {5,3} ; 9 = {1,2,3,4,5} S l on note respectvement par A( n ) et B( n) l aîné et le benamn on a : A (9) = 8 ; A (8) = 6 ; A (7) = 5 ; A (6) = 4 B (9) = 7 ; B (8) = 1 ; B (7) = 3 ; B (6) = 2 L ensemble des classes termnales de la classfcaton est l ensemble de ses éléments mnmaux (composés de classes rédutes à un élément) : T = {(1),(2),(3),(4),(5)}. Les éléments termnaux sont numérotés de 1 à CardI 1. Les nœuds de la classfcaton sont numérotés de CardI + 1 à 2CardI 1. 60

7.1.3. Crtères d agrégaton La constructon de la CAH dépend de la formule chose pour le crtère d agrégaton, ce qu revent à défnr une dstance entre classes. On expose c quatre crtères classques, en nsstant sur l un d entre eux : le crtère de l nerte que l on adoptera dans la sute. )- Le crtère du saut mnmum (d saut) ) : entre les ensembles de ponts q et q d saut ( qq, ) est la dstance mnma entre un pont de q et un pont de q. Le crtère du saut mnmum consste donc à chosr la plus pette des dstances qu permet de passer d une classe à une autre. )- Le crtère du damètre (d dam ) : d dam ( qq, ) est la dstance maxma entre un pont de q et un pont de q. On prend pour dstance entre les classes, la plus grande de toutes les dstances. )- Le crtère de la dstance moyenne (d moy ) : d moy ( qq, ) est la moyenne des dstances entre un pont de q et un pont de q. Ce crtère apparaît comme un comproms des deux crtères précédents. v)- Le crtère selon la varance (ou crtère de l nerte) : pour le calcul de ce crtère, on suppose que l ensemble I est consdéré comme un nuage de ponts muns de masse dans un espace euclden. C est ustement le cas de l exemple traté dans ce caher où les étudants sont repérés en foncton du profl de leurs notes. Ce tableau peut donc être consdéré comme un tableau de contngence ou comme un tableau de mesures). Sot I un ensemble fn ; N ( I) le nuage des éléments de I et affectés de masse. On J rappelle qu une nerte est le produt d une masse par le carré d une dstance. L nerte du nuage N ( I) s écrt : J n( J( )) = { n ( ) } I N I I I I = mρ I I} 2 { ( ) 2 2 où ρ () = d (, G) mesure le carré de la dstance au centre de gravté G du pont. Sot q une parte de I, on notera par m sa masse totale, et G ou smplement q son centre de gravté. - L nerte d une classe q s écrt : 2 In( q) = { md (, q) q } ; et l nerte d une partton Q de I sera égale à : In( Q) = { In( q) q Q} 2 = { md q ( qg, ) q Q } ; mq = { m q} A toute partton de I en un ensemble Q de classes q correspondant une décomposton de l nerte du nuage NJ (relaton de Huygens) : ( I) en nerte nterclasses et nertes ntra-classes suvant la formule m 61

In( NJ( I)) = In( Q) + { In ( q) q Q} L nerte ntra-classe est d autant plus fable que les classes obtenues sont plus compactes ; et l nerte nterclasse est d autant plus élevée que les classes de la partton sont ben séparées. En d autres termes, l nerte ntra-classe est une bonne mesure de l homogénété d une classe, de même l nerte nterclasse est une bonne mesure de la dfférence entre les classes. Soent mantenant deux classes a et b de Q 1 respectvement de masse que l on agrège en une seule classe n de de masse Qn ma mb n ma et m b +. Le crtère qu condut aux chox de a et b est celu qu rend mnmum la perte d nerte réalsée en passant de Qn 1 à Q : n ν ( n) = [ I ( Q ) I ( Q )] mnmum. n n 1 n n Ce qu équvaut à maxmser l nerte de la partton centré d ordre 2 de la partton). A chaque (ou encore à maxmser le moment l nerte ntra-classe de la partton construte. La quantté ν ( n) est également appelée ndce de nveau (cf. 7.1.3). m. m ν n = m + m a b 2 ( ) (, ) a b d a b L nerte totale de la classe n Q n pas, on mnmse peut selon la relaton de Huygens être décomposée en nerte des deux classes a et b dont la réunon est n et ν ( n), terme proportonnel au carré de la dstance entre aîné et benamn du nœud n : I = I + I + ν ( n) n a b Les ν ( n) fournssent la décomposton totale du nuage. On a : { ν ( n) n N} = In( NJ( I)). 7.2. Interprétaton d une classfcaton ascendante hérarchque. 7.2.1. Le tableau des données Comme au 6.3.1, on consdère le tableau 1 comme un tableau de correspondance et on désre édfer une CAH sur l ensemble 6.2.1 : - la masse de l élément de I : m = f = k / k ; - la dstance de ch-2 entre profls : 2 2 = d (, ) {1/ f ( f f ) J} - l nerte de l élément : I f f f f J 2 n() = {1/ ( ) } - la masse de la classe q : f = { f q} q - le profl de la classe q : I des étudants. On rappelle quelques formules du 62

f f f q q q = = fq f q - l nerte du centre de gravté de la classe q par rapport au centre de gravté du nuage : 2 I ( q) = f ρ ( q) ; avec ρ ( q) = {1/ f ( f f ) J} n q - l ndce de nveau du nœud n : 2 q 2 f f ν n = d a b = f f f + a b 2 a b 2 ( ) (, ) {1/ ( ) } fa fb J 7.2.2- Hstogramme des ndces de nveau de la hérarche Chaque lgne donne successvement : le n uméro du nœud, l ndce de nveau I( J ), exprmé en mllème, les numéros de l Aîné A( J ) et du Benamn B( J ), le taux d nerte T( J ) afférent au nœud qu est le rapport de l nerte du nœud I( J ), à l nerte totale du nuage (exprmé en mllème) et le taux d nerte cumulé SOMME DES INDICES DE NIVEAU.29124 E-01 TQ. ( )! J! I(J)! A(J)! B(J)! T(J)! T(Q)! HISTOGRAMME DES INDICES DE NIVEAU! 49! 4! 46! 48! 150! 150! ******************************************! 48! 3! 32! 47! 118! 268! *********************************! 47! 3! 42! 45! 86! 354! ************************! 46! 2! 26! 43! 79! 433! **********************! 45! 2! 40! 44! 72! 505! ********************! 44! 2! 31! 39! 56! 560! ****************! 43! 2! 20! 41! 52! 612! ***************! 42! 1! 37! 34! 43! 655! ************! 41! 1! 38! 33! 42! 697! ************! 40! 1! 36! 27! 39! 736! ***********! 39! 1! 13! 35! 31! 767! *********! 38! 1! 29! 19! 28! 795! ********! 37! 1! 5! 16! 24! 819! *******! 36! 1! 28! 25! 24! 843! *******! 35! 1! 2! 30! 23! 866! *******! 34! 1! 24! 23! 23! 889! *******! 33! 1! 18! 4! 20! 909! *****! 32! 1! 9! 14! 19! 928! *****! 31! 1! 11! 12! 19! 947! *****! 30! 0! 8! 1! 16! 963! ****! 29! 0! 22! 17! 13! 976! ****! 28! 0! 10! 3! 12! 988! ***! 27! 0! 15! 6! 12! 1000! ***! 26! 0! 21! 7! 0! 1000! * Tableau 15 : Hstogramme des ndces de nveau 63

Av ec le crtè re de l nert e adoptée, la somme des ndces de nveau est égale à l nerte totale d u nuag e des ndvdus.! J! I(J)! A(J)! B(J)! P(J)! DESCRIPTION DES CLASSES DE LA HIERARCHIE! 49! 4! 46! 48! 25!! 48! 3! 32! 47! 17! LOUZ MBIK BOYE NGUI SAM2 SAM1 MAKI BATA TSIB MPOU GOYI MALO MAMP MATO BANZ LIK2 ABDO! 47! 3! 42! 45! 15! BOYE NGUI SAM2 SAM1 MAKI BATA TSIB MPOU GOYI MALO MAMP MATO BANZ LIK2 ABDO! 46! 2! 26! 43! 8! ONDZ LIK1 NZAK SAFO NKOK NSON NSEM BOUK! 45! 2! 40! 44! 11! MAKI BATA TSIB MPOU GOYI MALO MAMP MATO BANZ LIK2 ABDO! 44! 2! 31! 39! 6! MALO MAMP MATO BANZ LIK2 ABDO! 43! 2! 20! 41! 6! NZAK SAFO NKOK NSON NSEM BOUK! 42! 1! 37! 34! 4! BOYE NGUI SAM2 SAM1! 41! 1! 38! 33! 5! SAFO NKOK NSON NSEM BOUK! 40! 1! 36! 27! 5! MAKI BATA TSIB MPOU GOYI! 39! 1! 13! 35! 4! MATO BANZ LIK2 ABDO! 38! 1! 29! 19! 3! SAFO NKOK NSON! 37! 1! 5! 16! 2! BOYE NGUI! 36! 1! 28! 25! 3! MAKI BATA TSIB! 35! 1! 2! 30! 3! BANZ LIK2 ABDO! 34! 1! 24! 23! 2! SAM2 SAM1! 33! 1! 18! 4! 2! NSEM BOUK! 32! 1! 9! 14! 2! LOUZ MBIK! 31! 1! 11! 12! 2! MALO MAMP! 30! 0! 8! 1! 2! LIK2 ABDO! 29! 0! 22! 17! 2! SAFO NKOK! 28! 0! 10! 3! 2! MAKI BATA! 27! 0! 15! 6 2! MPOU GOYI! 26! 0! 21! 7 2! ONDZ LIK1 Tableau 16 : Descrpton des classes de la hérarche 64

L hstogramme des ndces de nveau est édté pour permettre à l utlsateur de vor comment varent les ndces de nveau, et d ndquer à quel nveau on peut couper l arbre de classfcaton pour avor une partton convenable (classes stables). S la décrossance est très forte, cec symbolse le fat qu l n exste que quelques séparatons prncpales. Les nveaux les plus bas de la hérarche peuvent être consdérés comme des ntermédares de calcul comme cela se présente pour les axes de l analyse des correspondances. On prendra cependant son d examner des séparatons à des nveaux fables. 7.2.3- Le tableau du contenu des classes On a construt CardI 1 classes, c est-à-dre 25-1=24 classes. Les classes de la hérarche sont numérotées de 26 à 49. Chaque classe est décrte par : son numéro nveau I( J ), ses successeurs A( J ) et B( J ), le nombre de ses éléments J, son ndce de et la lste des éléments de chaque classe. Ces éléments sont rangés dans l ordre où ls sont mprmés en marge de l arbre. Prenons par exemple la classe classe 36 c est-à-dre B (40) = 27 A (40) = 36 (MPOU et GOYI). PJ ( ) 40 ; on a d abord les tros ndvdus de la (MAKI, BATA et TSIB), pus les deux éléments de 7.2.4. L arbre de classfcaton hérarchque Du tableau du contenu des classes, on dédut l arbre de classfcaton (Graphque 9) qu, comme on l a déà dt, défnt un système emboîté de classes. La lecture descendante de l arbre, dans le sens nverse de sa constructon, permet d examner les parttons comprenant peu de classes. S on coupe l arbre au nveau le plus élevé, on obtent deux classes. En effet, en partant du sommet, le nœud 49 se scnde en ses deux successeurs mmédats A (49) = 46 et B (49) = 48. S on coupe mantenant l arbre légèrement au dessus du nveau du nœud 48, on obtent une partton en tros classes. En coupant ensute l arbre entre les nœuds 46 et 47, on obtent une partton en quatre classes. De toute évdence, ces classes, seront d autant plus nombreuses que la coupure de l arbre sera proche des éléments termnaux. L examen de l arbre amène en fat le pratcen à prvléger certanes parttons, ugées «bonnes», et à en reeter d autres, ugées «mauvases» [60]. On retrouve c, à quelques exceptons près, la typologe suggérée par l analyse factorelle des correspondances (cf. 6.3.4). Les deux approches sont donc complémentares et nous allons mantenant examner leur nterprétaton cononte. 65

Graphque 9 : Représentaton de classfcaton hérarchque 66

7.2.5- Calcul de contrbutons L arbre de classfcaton établ au 7.2.4 permet de dstnguer les classes les unes des autres, mas ne permet pas de connaître comment ces classes se sont formées et comment elles se séparent. Les calculs des contrbutons sont effectués pour le savor. L obectf de ces calculs est de précser : - en quo une classe q s écarte du centre de gravté du nuage : c est l étude de l excentrcté des classes par rapport à des axes. Cette étude des classes se fat sot par rapport à des varables (axes ntaux des varables assocés à un tableau de données), sot par rapport à des axes factorels ; - en quo dffèrent les deux successeurs an ( ) et bn) ( en lesquels se scnde la classe n. Comme précédemment, cette étude sera réalsée d abord dans l espace rapporté au système d axes factorels, ensute dans l espace rapporté au système des axes défns par les varables ; - les contrbutons mutuelles entre classes et facteurs. 7.2.5.1 Etude des classes par rapport à des axes. Formulare Sot k IJ, un tableau de correspondance. On a effectué sur ce tableau une analyse factorelle des correspondances et une classfcaton ascendante hérarchque sur un ensemble de facteurs et un système de classes. Sot q une parte de I. On a donc sur I, I et on note par f q sa masse. Sur les axes de l analyse factorelle des correspondances, on peut placer la classe q ; q étant un barycentre de ponts, on a : F ( q) = { f F ( )/ f q}, avec f = { f q} q Pour une classe q, on calcule : - le cosnus carré de l angle formé entre le rayon vecteur de la classe q et l axe α : 2 2 2 COR ( q) = Cos ( q) = F ( q)/ ( q). C est la contrbuton relatve de l axe α à l excentrcté α α α ρ 2 de la classe q, ( rho( q) = ρ ( q) ) étant l excentrcté de la classe q par rapport au centre du nuage). CORα ( q) #0 α ntervent peu dans l écart de q au centre du nuage. CORα ( q) #1 α explque l écart de q au centre du nuage. La somme des COR donne la qualté de la représentaton de la classe q dans l espace des facteurs retenus : COR = QLT 2 - la contrbuton relatve de la classe q au facteur α : CTR ( q) = f F ( α)/ λ. α α α q α α CTR est la contrbuton relatve de la classe q à l nerte nterclasse par rapport à l nerte totale de l axe α. CTRα ( q) #0 q n explque pas l nerte de l axe α ; q 67

CTRα ( q) #1 α n explque pas l nerte de l axe α. 7.2.5.2. Etude des classes par rapport à des axes. Exemple a) Etude des classes par rapport à des axes factorels Les deux tableaux relatfs aux classes, concernent pour l un, les cnq classes les plus hautes de la hérarche (tableau 17) et pour l autre, les classes termnales de cette hérarche restrente (tableau 18). Cette étude des classes est fate par rapport à des axes factorels. On a extrat cnq facteurs ; seuls les deux premers facteurs sont ndqués. Pour le premer tableau la premère lgne n est pas utlsable (sauf la colonne pods) pusque le ρ 2 ( q) égal à zéro. Le pods total du nuage étant normalsé à 1, le centre du nuage 49 à pour pods 1000/1000=1. est AXES FACTORIEL S 1 A 2 (TOUTES LES VALEURS SONT MULTIPLIEES PA R 1000) CLASSE AINE BNJMN! POIDS INR QLT! F 1 COR CTR! F 2 COR CTR 49 46 48! 1000 0 0! 0 0 0! 0 0 0 48 32 47! 673 49 984! -29 401 71! -29 396 104 47 42 45! 599 47 945! -8 31 5! -38 630 160 46 26 43! 327 101 984! 60 401 146! 60 396 214 45 40 44! 446 42 548! -21 166 25! -17 101 23!! 248! 501 Tableau 17 : Facteurs pour les 5 classes les plus hautes de la hérarche Dans cette étude de la poston des classes par rapport aux axes factorels, on note que le premer facteur est moyennement corrélé avec la classe 48 et 46 (0.401) ; le deuxème facteur est corrélé avec la classe 47 (0.630). Pour le reste des lgn es, l nterprétaton se base sur la défnt on des formules c-dessus ndquées comme en ACP o u en AFC. AXES FA CTORIELS 1 A 2 (TOUTES LES VALEURS SONT MULTIPLIEES PA R 1000) CLASSE AIN E BNJM N! POI DS INR Q LT! F 1 CO R CTR! F 2 COR CTR 32 LOUZ MBIK! 74 120 892! -197 820 357! 44 41 26 42 37 34! 153 91 783! 29 49 16! -100 580 284 26 ONDZ LIK1! 75 105 982! 119 346 132! 124 376 212 43 NZAK 41! 252 74 974! 42 210 56! 41 191 76 40 36 27! 204 55 791! 26 88 18! -32 127 38 44 31 39! 241 59 728! -62 537 114! -4 2 1! 1000 504! 693! 637 Tableau 18 : Facteurs pour les sx classes de la partton. 68

En ce qu concerne le tableau 18, l faudra relever les spécfctés suvantes : - pour les sx classes de la partton, un ndvdu appartent à une classe et une seule ; dans ce cas, la somme des pods des dverses classes est égale au pods total du nuage : 1000/1000 ; - par contre, l nerte relatvement à l orgne 0 du centre d une classe q n est pas la somme des nertes des ponts consttuant la classe ; mas elle est égale à cette somme dmnué de l nerte nterne de la classe q. Volà pourqu o le total de la colonne INR est nféreur à 1 ; ce total représente l nerte nterclasse de la partton retenue (c ex prmé en mllème) et l nerte ntra-classes, le complémentare à 1 de ce total. De façon analogue la somme des CTR sur un facteur donne la part d nerte nterclasse à l nerte du facteur. b) Etude des classes par rapport à des varables Dans cette deuxème analyse, on recherche quelles sont les varables responsables de la dstance d une classe des profls sur l ensemble des q au centre de gravté du nuage. On se place donc c dans l espace CardJ varables : à chaque varable correspond un axe, la c oordonnée sur cet axe étant la composante du profl relatve à la varable. Ben que le nombre de varables ne soent pas élevées, les résultats mprmés sur le lstage, occupe une mportante surface de paper mprmé. On a donc lassé au programme de ne retenr que les varables ayant les plus fortes contrbutons aux nœuds supéreurs (tableau 19). Les coordonnées du centre de gravté du nuage sont celles de la lgne 49, aux colonnes STAS, MATH, GEOE, etc. (profl sur J de la lgne de marge du tableau k ). On peut donc comparer les lgnes suvantes : classes 48, 47, 46, et 45 (aux colonnes ndquées) avec la lgne 49 pour savor en quo ces classes dffèrent de la classe 49 (centre du nuage). On dra par exemple que la classe 46 s écarte du centre pour un taux moyen en comptablté d entreprse et un taux fable en technques d expresson. On confrme ces résultats en lsant la colonne COR. On fn par établr une lste des varables responsables de l écartement d une classe au centre du nuage. IJ Notons que s, toutes les varables avaent été retenues, nous aurons obtenu pour toutes les lgnes, QLT = 1000. Le fat de n avor retenu que quelques varables, cette valeur de la qualté de représentaton est descendue au dessous de 1000 et ce, pour toutes les classes. On vérfe que les valeurs des colonnes POIDS et INR sont les mêmes que dans le tableau 17. On peut fare édter les résultats smlares pour les centres de gravté des sx classes de la partton, déf nes à partr des c nq nœuds les p lus hauts. 69

(TOUTES LES VALEURS S ONT MULTIPL IEES PAR 1000, A L EXCEPTION DE RHO2 QUI EST MULTIPLIE PAR 10** ( 5)) CLASSE AINE BNJM! POIDS INR QLT RHO2! S TAS COR CTR! MATH COR CTR 49 46 48! 1000 0 0 0! 64 0 0! 58 0 0 48 32 47! 673 49 817 212! 66 54 34! 62 115 38 47 42 45! 599 47 788 230! 70 227 135! 62 143 46 46 26 43! 327 101 817 897! 58-54 69! 50-115 79 45 40 44! 446 42 783 274! 71 304 160! 58 1 0!!!!! 398! 163 CLASSE AINE BNJM! POIDS INR QLT RHO2! GEOE COR CTR! COME COR CTR 49 46 48! 1000 0 0 0! 58 0 0! 54 0 0 48 32 47! 673 49 817 212! 58 1 1! 45-647 216 47 42 45! 599 47 788 230! 58 6 5! 47-401 129 46 26 43! 327 101 817 897! 57-1 2! 72 647 445 45 40 44! 446 42 783 274! 62 131 99! 48-271 77!!!!! 106! 86 CLASSE AINE BNJMN! POIDS INR QLT RHO2! TEXP COR CTR! 49 46 48! 1000 0 0 0! 51 0 0! 48 32 47! 673 49 817 212! 52 1 1! 47 42 45! 599 47 788 230! 53 11 11! 46 26 43! 327 101 817 897! 51-1 2! 45 40 44! 446 42 783 274! 55 77 65!!!!!! 78! Tableau 19 : Etude des classes par rapport aux varables ntales (varables ayant les plus fortes contrbutons aux nœuds supéreurs) 7.2.5.3 Etude des dpôles par rapport à des axes. Formulare. A chaque nœud n d une classfcaton, est assocé un dpôle ( an ( ), bn ( )) formé par les centres de ses deux successeurs mmédats. Dans l espace rapporté au système d axes factorels, on cherche à précser la stuaton des segments ognant dpôles. On calcule : dans les - la dfférence D ( n) = F ( a( n) b( n)) ; elle rensegne sur la poston relatve de an ( ) par rapport à bn ( ). - α α 2 2 α( ) = ( α( ( ) α( ( ))) / ( ) ( ) COD n F an F bn an bn = D 2 α ( n)/ a( n) b( n) 2 an ( ), bn ( ) 70

avec : COD ( n) α = QD 2 ( n)/ ν ( n) Q f f f n n / n = a( n) b( n) n est le cosnus carré de l angle formé par l axe α et la drote ognant les centres des classes an ( ) et bn ( ) : s CODα ( n) #1 α explque en quas totalté la séparaton entre an ( ) et bn ( ); s CODα ( n) #0 α n explque pas la séparaton entre an ( ) et bn ( ) - l nerte du dpôle an ( ) bn ( ) sur l axe α rapporté à l nerte totale sur cet axe (ou contrbuton relatve du nœud à l axe) : CTD = Q D 2 ( n)/ λ n α α s CTD ( n) #1 α la dsperson du nuage sur l axe α est due exclusvement aux éléments α des classes an ( ) et bn ( ). 7.2.5.4. Etude des dpôles par rapport à des axes. Exemple a) Etude des dpôles par rapport à des axes factorels On donne dans le tableau 20 les résultats de cette étude. On rappelle que cnq facteurs ont été extrats, deux seulement sont présentés. On constate que, seul le nœud 48 a un COD assez fort (0.679) sur l axe 1. Sur l axe 1, la séparaton entre A (48) = 32 et B (48) = 47 est donc assez nette. De plus, on a sur le plan (1,2) COD1 + COD2 = 0.679 + 0.129 = 0.808 (qualté de représentaton) : le dpôle est assez proche du plan (1,2). L nerte totale du nuage sur l axe 1 est explqué à 29% ( CTD (48)=291) par la dchotome entre les deux classes A (48) = 32 et B (48) = 47 formant la classe 48. En proecton sur l axe 1, la partton de I en deux classes : 32 et 47 a une n erte nterclasse de : 291 λ1 (et une nerte ntra -classe de 709 λ 1). On v érfe que le total d e la colonne CTD du tableau 20 est égal à celu de la colon ne CTR du t ableau 18 ( cl asses de la partton). Il en est de mê me pou r le total de la colon ne IND (total IND =tota l INR =504). AXES FACTORIELS 1 A 2 (TOUTES LES VALEURS SONT PULTIPLIES PA R 1000) NŒUD AINE BNJMN! POIDS IND QLD! D 1 COD CTD! D 2 COD CTD 49 46 48! 1000 150 984! 89 401 217! 89 396 318 48 32 47! 673 118 875! -188 679 291! 82 129 82 47 42 45! 599 86 580! 51 116 36! -84 319 147 46 26 43! 327 79 972! 76 148 42! 83 176 74 46 40 44! 446 72 880! 88 409 106! -28 40 16!!!!! 693! 637 Tableau 20 : Etude des dpôles par rapport aux axes factorels. 71

b) Etude des dpôles par rapport à des varables ; Cette étude complète la précédente. Elle permet de détermner les varables responsables de la séparaton des classes. Comme précédemment, on a retenu que les varables ayant les plus fortes contrbutons aux nœuds supéreurs de la hérarche (tableau 21). On sgnale la présence de la colonne D2AB : c est le carré de la dstance entre les centres de classe an ( ) et bn ( ). Pour l nterprétaton, on cherche à repérer les valeurs élevées de la colonne dpôle (46,48) est explqué par la var able COME (comptablt é d entreprse) ; le dpôle (32,47) est exp lqué par ST AS ( Stats tque de la sa nté) ; le dpôle (26,43) par MATH (mathématques) ; le reste des dpôles n a pas d explcatons partcul ères. TOUTES LES VALEURS SONT MULTIPL IEES PAR 1000, A L EXCEPTION DE D2AB QUI EST MULTIPLIE PA R 10**(4) COD. Le NŒUD AINE BNJMN! POIDS IND QLD D2AB! STAS COD CTD! MATH COD CTD 49 46 48! 1000 150 817 198! -8 54 102! -11 115 117 48 32 47! 673 118 341 522! -28 231 344! -5 10 8 47 42 45! 599 86 449 220! -6 25 27! 16 193 113 46 26 43! 327 79 517 395! 16 106 105! -27 312 167 46 40 44! 446 72 264 189! -5 22 20! -3 10 5!!!!! 598! 410 NŒUD AINE BNJMN! POIDS IND QLD D2AB! GEOE COD CTD! COME COD CTD 49 46 48! 1000 150 817 198! -1 1 3! 26 647 661 48 32 47! 673 118 341 522! -5 7 16! -14 71 57 47 42 45! 599 86 449 220! -14 162 252! -3 7 4 46 26 43! 327 79 517 395! -13 69 97! 6 20 10 46 40 44! 446 72 264 189! 13 164 213! 4 15 8!!!!! 581! 740 NŒUD AINE BNJMN! POIDS IND QLD D2AB! TEXP COD CT D 49 46 48! 1000 150 817 198! -1 1 2 48 32 47! 673 118 341 522! -8 22 53 47 42 45! 599 86 449 220! -8 61 106 46 26 43! 327 79 517 395! -5 10 16 46 40 44! 446 72 264 189! 7 52 76!!!! 254 Tableau 21 : Etude des dpôles par rapport aux varables ntales. 72

(7.2.5.5 Contrbutons relatves mutuelles entre classes et facteurs Notons par I ( N ( I )) ou par 2 n J M NJ ( I) l nerte totale du nuage. On sat déà que : 2 n( J( )) = ( J( )) = { ν ( ) } I N I M N I n n N = { λ α A} ( N ensemble des nœuds et A ensemble des facteurs) M 2 ( N ( I)) = { ν( n; α) α A; n N} avec J 2 ( n; ) QnDα ( n) ν α = ν ( n; α ) est la contrbuton absolue mutuelle de n et α. α On peut auss noter que : λ = {(; ν n α) n N} α ν ( n ) = { ν( n ; α) α A} On peut e nfn calculer les contrbutons relatves mutuelles entre classes et facteurs. C est le rap port : ν ( n ; α )/ M 2 (NJ ( I)) TABLEAU DES CONTRIBUTIONS RELATIVES MUTUELLES SUR LES FACTEURS 1 A 5 NŒUD AINE BNJMN! Q(N) IND INCUM! F 1 F 2 F 3 F 4 F 5 49 46 48! 220 150 150! 60 59 20 0 8 48 32 47! 66 118 268! 80 15 2 0 6 47 42 45! 114 86 354! 10 27 0 11 2 46 26 43! 58 79 433! 12 14 34 17 0 46 40 44! 111 72 505! 29 3 3 22 6 Tableau 22 : Contrbutons mutuelles : étude des facteurs. Dans le tableau 21, on a lmté le nombre des varables dans l étude des dpôles. Cette étude est c complétée (tableau 23) par le tableau des contrbutons mutuelles relatves entre dpôles et varables. La dernère lgne donne pour chaque varable l nerte relatve de M 2 J ( I ) par rapport à l axe α. Les tableaux 22 et 23 n appellent aucun commentare partculer. 73

TABLEAU DES CONTRIBUTIONS MUTUELLES (TOUTES LES VALEURS SONT MULTIPLIEES PAR 10 **(4)) LA DERNIERE COLONNE DONNE LA PART DE L INERTIE D UNE VARIABLE A L INERTIE TOTALE. NŒUD AINE BNJMN! IN(N) STAT MSTA STAS! STAE MATH PROB ECON DEMO 49 46 48! 1498 0 81 81! 26 172 0 2 56 48 32 47! 1182 71 2 273! 10 11 5 72 526 47 42 45! 860 74 3 21! 3 166 91 1 217 46 26 43! 785 19 70 83! 17 245 8 6 8 46 40 44! 719 4 7 16! 0 7 18 84 266!!! 336 270 794! 192 1469 257 549 1754 NŒUD AINE BNJMN! IN(N) INFO GEOE COME! CON TEXP ANGL HIST STAG 49 46 48! 1498 35 2 969! 69 1 2 0 2 48 32 47! 1182 16 9 84! 23 26 14 15 24 47 42 45! 860 2 140 6! 30 53 2 50 0 46 26 43! 785 58 54 15! 111 8 40 12 30 46 40 44! 719 12 118 11! 19 38 2 115 3!!! 297 554 1465! 708 498 265 415 176 Tableau 23 : Contrbutons mutuelles : étude des varables. 7.2.6. Introducton des nœuds de la classfcaton dans le graphque de l analyse factorelle. Une synthèse pratque des procédures factorelles et celles de classfcaton, consste à stuer les classes obtenues par la CAH sur l espace factorel. Les coordonnées de ces classes sont les barycentres des éléments qu la composent. Dans l espace factorel on peut représenter, sot les fourches (le trplet ssues des classes supéreures, sot encore les classes de la partton retenue (successeurs des classes supéreures). On a chos c de ne représenter que les classes supéreures, pour évter une trop grande densté de ponts dans l espace factorel. n, an ( ), bn ( ) On donne dans le tableau 3.12 les coordonnées des classes dans l espace factorel de dmenson 5. L examen de la poston de ces classes par rapport aux facteurs permet d affner l nterprétaton des axes factorels. 74

AXES FACTORIELS 1 2 3 4 5 N 26 119 124 67-75 -16 N 27-35 -30 67 78-41 N 28 44-27 8 62-15 N 29 26 60-13 7-50 N 30-43 -13-7 -25 64 N 31-85 -59-3 -47-47 N 32-196 44-7 12-34 N 33 16 82-69 63 35 N 34-16 -115-42 -49 47 N 35-37 0-2 5 67 N 36 69-31 13 42 11 N 37 77-83 79-22 16 N 38 18 31-38 -17-51 N 39-48 26 16-5 69 N 40 26-31 35 56-10 N 41 17 52-50 15-16 N 42 29-99 16-36 32 N 43 42 41-63 16-22 N 44-61 -3 9-19 29 N 45-20 -16 21 15 11 N 46 60 60-33 -4-21 N 47-7 -37 20 2 16 N 48-28 -28 17 3 11 N 49 0 0 0 0 0 Tableau 24 : Coordonnées des classes dans l espace factorel x 1000 Le graphque 10 donne la représentaton de l ensemble des 25 étudants, des cnq fourches prncpales extrates de la classfcaton, dans l espace factorel (1,2). On a relé par un segment de drote les nœuds que la classfcaton a agrégés ensemble. Ben que tous les nœuds ne soent pas représentés, on retrouve les mêmes oppostons rencontrées lors de l analyse factorelle des correspondances. 75

AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de ponts : 35 Echelle : 4 caractère(s)=.021 1 lgne =.009 Nombre de ponts superposés : 3 LIK1(26) ONDZ(26) NGUI(BATA) Graphque 10 : Représentaton dans l espace factorel (1,2) des fourches ssues des classes supéreures. 76

Bblographe [1] Benzécr, J.-P., & Coll., (1980). L analyse des données, Tome 1 : la taxnome, Dunod [2] Benzécr, J.-P., & Coll., (1980). L analyse des données, Tome 2 : l analyse des correspondances, Dunod [3] Benzécr, J.-P., Benzécr F., (1980). Pratque de l analyse des données, Tome 1 : Analyse des correspondances. Exposé élémentare, Dunod [4] Benzécr, J.P., Bastn, CH., Bougart, CH., Cazes, P., (1980). Pratque de l analyse des données, Tome 2 : Abrégé théorque. Etudes de cas modèles, Dunod [5] Benzécr, J.-P., & Coll., (1981). Pratque de l analyse des données, Tome 3 : Lngustque et lexcologe, Dunod [6] Benzécr, J.-P., (1982). Hstore et préhstore de l analyse des données, Dunod [7] Benzécr, J.-P., & Coll., (1986). Pratque de l analyse des données, Tome 5 : Econome, Dunod [8] Berter, P., Bouroche, J.M., (1975)- Analyse des données multdmensonnelle, PUF [9] Bouroche, J.M., (1977). Analyse des données en marketng, Masson [10] Bouroche, J.M., Saporta, G., (1980). l analyse des données, Collecton Que sas-e? PUF. [11] Callez, F. Pages J.P., (1976). Introducton à l analyse des données, Smash. [12] Cazes, P., Lecoutre, J.P., (1977). Etude de quelques problèmes de codage en analyse des correspondances, Cahers du Bureau unverstare de recherche opératonnelle, n 27 pp.49-66. [13] Cazes, P., (1980). L analyse de certans tableaux rectangulares décomposés en blocs : généralsaton des proprétés rencontrées dans l étude des correspondances multples. II Questonnare : varantes de codages et nouveaux calculs de contrbutons, Cahers de l Analyse des données, Vol 5 n 4 pp. 387-403. [14] Cazes, P., (1982). Note sur les éléments supplémentares en analyse des correspondances : I Pratque et utlsaton, Cahers de l Analyse des données, Vol 7 n 1 pp. 9-23. II Tableaux multples, Cahers de l Analyse des données, Vol 7 n 2, pp.133-154. [15] Cazes, P., (1983). L analyse des correspondances multples. Applcaton à l étude des questonnares, Bulletn de l ADDAD n 12. [16] Cehessat, R., (1976). Exercces commentés de statstque et nformatque applquée, Dunod 77

[17] Cbos, PH., (1987). L analyse factorelle, Collecton Que sas-e? Puf [18] Celeux, G., Dday, E ; et Al., (1989). Classfcaton automatque des données. Envronnement statstque et nformatque, Dunod. [19] Chandon, J.L., Pnson, S., (1981). Analyse typologque. Théores et applcatons. Masson [20] CNRS., (1955). L analyse factorelle et ses applcatons. [21] Corroyer, D., (1991). DS3. Un logcel pour le tratement nformatque et statstque des données et son ensegnement. Apetsd (68, av. de la Fasandre. 91800 Brunoy). [22] Corroyer, D., Perre-Puyesegur, M.A., (1992). L analyse statstque et nformatque des tableaux de contngence, Apetsd [23] Dervn, C., (1990). Comment nterpréter les résultats d une analyse factorelle des correspondances. ITCF. [24] Dday, E., Lemare, J., Pouget, J., Testu, F., (1982). Eléments d analyse de données, Dunod [25] Droesbeke, J-J., Tass, PH., (1990). Hstore de la Statstque. Collecton Que sas-e? Puf [26] Ducmetere, P., (1970). Les méthodes de la classfcaton numérque. Revue de Statstque applquée. Vol XVIII n 4, pp.5-25. [27] Escofer-Corder, B., (1965). L analyse factorelle des correspondances. Cahers du Bureau unverstare de recherche opératonnelle, n 13. [28] Escofer, B., Pages, J., (1988) Analyses factorelles smples et multples. Obectfs, méthodes et nterprétaton, Dunod. [29] Escoufer, Y., (1978). Cours d analyse des données, Montpeller. [30] Evrard, Y., Lemare, P., (1976) Informaton et décson en marketng, Dalloz [31] Fenelon, J.P., (1981). Qu est-ce que l analyse des données?, Lefonen. [32] Foucart, T., (1981). Analyse factorelle, programmaton sur mcro-ordnateurs, Masson [33] Foucart, T., (1984). Analyse factorelle de tableaux multples, Masson [34] Gendre, F., (1976). L analyse statstque multvarée, Lbrare Droz. [35] Gbrat, R., (1978). L analyse des données : Premère parte : Journal de la Socété de Statstque de Pars n 3, pp.201-228. Deuxème parte : les scences humanes : mpasse, échecs et succès. Journal de la Socété de statstque de Pars n 4 pp.312-331. [36] Grelet, Y., Lebeaux, M.O., (1980). Lecture commentée de sortes de programmes en analyse des données, Bulletn de l ADDAD n 11. [37] Jambu, M., (1978). Classfcaton automatque pour l analyse des données, Tome 1 : Méthodes et algorthmes, Dunod. 78

[38] Jambu, M., Lebeaux, M.O., (1978). Classfcaton automatque pour l analyse des données, Tome 2 : Logcels [39] Jambu, M., (1989). Exploraton nformatque et statstque des données, Dunod. [40] LADDAD., Logcel de l Assocaton pour le Développement et la Dffuson de l Analyse des données. (ADDAD, 22 rue Charcot, Pars 75013) [41] Lebart, L., Fenelon, J.P., (1971). Statstque et nformatque applquée, Dunod [42] Lebart, L., (1975). Valdté des résultats en analyse des données, Rapport CREDOC-DGRST. [43] Lebart, L., Morneau, A., Tabard, N., (1977). Technques de la descrpton statstque. Méthodes et logcels pour l analyse de grands tableaux, Dunod [44] Lebart, L., Morneau, A., Fenelon, J.P., (1979). Tratement des données statstques. Dunod [45] Lebart, L., Salem, A., (1988). Analyse statstque des données textuelles, Dunod. [46] Lefebvre, J., (1980). Introducton aux analyses statstques multdmensonnelles, Masson [47] Lerman, I.C., (1981). Classfcaton et analyse ordnale des données, Dunod. [48] Masson, M., (1980). Méthodologes générales de tratement statstque de l nformaton de masse, Cedc/Nathan. [49] Morneau, A., (1983). Lecture commentée d une analyse de correspondances multples suve d une classfcaton (Programme SPAD), Csa. [50] Morlat, G., (1976) Préface de l ntroducton à l analyse des données. Smash [51] Moscarola, J., (1990) Enquêtes et analyse de données. Vubert [52] Nakache, J.P., Chevaler, A., Morce, V., (1981). Exercces commentés de mathématques pour l analyse statstque des données, Dunod. [53] Pages, J.P., Callez, F., Escoufer, Y., (1979). Analyse factorelle : un peu d hstore et de géométre. Revue de Statstque Applquée, Vol XXVII, n 1 pp. 5-28. [54] Phlppeau, G., (1986). Comment nterpréter les résultats d une analyse en composantes prncpales. ITCF. [55] Ponter, J., Dufour, A.B., Normand, M., (1990). Le modèle euclden en analyse des données, Ellpses. [56] Robert, C., (1989). Analyse descrptve multvarée. Applcaton à l ntellgence artfcelle, Flammaron. 79

[57] Saporta, G., (1990). Probabltés Analyse des Données et Statstques. Edtons Technp. [58] STATPC., (1989). Logcel de tratement statstque : méthodes graphques et numérques (Bleuse-Trllon B. 10, rue Crox de Malte 45000 Orléans). [59] Torrens Ibern, J., (1972). Modèles et méthodes de l analyse factorelle, Dunod [60] Volle, M., (1981). Analyse des données. Economca. 80