BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

STATISTIQUE AVEC EXCEL

TD 1. Statistiques à une variable.

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Editions ENI. Project Collection Référence Bureautique. Extrait

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Dirigeant de SAS : Laisser le choix du statut social

Montage émetteur commun

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Généralités sur les fonctions 1ES

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Mesure avec une règle

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Interface OneNote 2013

Exercices d Électrocinétique

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Le Prêt Efficience Fioul

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Terminal numérique TM 13 raccordé aux installations Integral 33

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Page 5 TABLE DES MATIÈRES

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Paquets. Paquets nationaux 1. Paquets internationaux 11

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

santé Les arrêts de travail des séniors en emploi

Système solaire combiné Estimation des besoins énergétiques

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Grandeur physique, chiffres significatifs

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

INTERNET. Initiation à

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Prise en compte des politiques de transport dans le choix des fournisseurs

1. Les enjeux de la prévision du risque de défaut de paiement

hal , version 1-14 Aug 2009

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Professionnel de santé équipé de Médiclick!

Corrigé du problème de Mathématiques générales Partie I

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Pratique de la statistique avec SPSS

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

P R I S E E N M A I N R A P I D E O L I V E 4 H D

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Stéganographie Adaptative par Oracle (ASO)

Pour plus d'informations, veuillez nous contacter au ou à

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Prêt de groupe et sanction sociale Group lending and social fine

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Calcul de tableaux d amortissement

La Quantification du Risque Opérationnel des Institutions Bancaires

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Projet de fin d études

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Pro2030 GUIDE D UTILISATION. Français

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Des solutions globales fi ables et innovantes.

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Les méthodes numériques de la dynamique moléculaire

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Comparative performance for isolated points detection operators: application on surface defects extraction

Dynamique du point matériel

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Pauvreté et fécondité au Congo

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

THESE. Khalid LEKOUCH

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Transcription:

BUREAU DAPPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES BAMSI REPRINT 04/2003 Introducton à l analyse des données Samuel AMBAPOUR BAMSSI I BAMSI B.P. 13734 Brazzavlle

BAMSI REPRINT 04/2003 Introducton à l analyse des données (*) Samuel AMBAPOUR (**) Ce caher n est pas un cours. On y nsste sur le tratement pratque des données et sur les applcatons des dfférentes méthodes d analyse. Un même exemple llustratf est utlsé tout au long de l exposé et sert de base pour la comparason des méthodes utlsées. Pour des exposés théorques complets de ces méthodes, le lecteur est nvté à consulter les ouvrages de base ctés en référence. Grâce à l outl nformatque et notamment à de nombreux logcels commercalsés sur mcro-ordnateurs, l utlsateur de l analyse des données peut désormas se consacrer aux tâches essentelles à savor, le chox de la méthode et l nterprétaton des résultats. Dans ce caher, l est fat usage du logcel ADDAD dffusé par l assocaton du même nom (***) Données ). ( Assocaton pour le Développement et la Dffuson de l Analyse des (*) Ce texte a été publé dans les cahers du CASP n 3-4, décembre 1992 (**) Ensegnant au CASP (***) Ce caher s nspre, au nveau de la forme et du langage, des travaux de cette assocaton.

TABLE DES MATIERES 1. INTRODUCTION 2. UN PEU D HISTOIRE 3. TYPES DE TABLEAUX ANALYSABLES 4. ANALYSE GENERAL 5. L ANALYSE EN COMPOSANTES PRINCIPALES 5.1. Les données Les obectfs 5.2. La méthode 5.2.1. Le tableau de données 5.2.2. Analyse des ponts ndvdus de N ( I) dans R 5.2.3. Analyse des ponts ndvdus de N ( J) dans R 5.2.4. Relaton entre les ponts de N ( I) et de N ( J) 5.2.5. Analyse des ponts supplémentares 5.3. Interprétaton de l Analyse en Composantes Prncpales 5.3.1. Tableau des données de base 5.3.2. Matrce de corrélatons des varables 5.3.3. Vecteurs et valeurs propres de la matrce de corrélaton 5.3.4. Tableau des facteurs sur I 5.3.5. Tableau des facteurs sur J 5.3.6. Représentatons graphques J J I I P n

6. L ANALYSE FACTORIELLE DES CORRESPONDANCES 6.1. Les données Les obectfs 6.2. La méthode 6.2.1. Le tableau de données 6.2.2. Analyse des ponts de N J ( I) dans p R 6.2.3. Analyse des ponts de N ( J) dans R I 6.2.4. Relatons entre les ponts de N ( I) et les ponts de N ( J ) 6.2.5. Eléments supplémentares 6.3. Interprétaton d une analyse factorelle des correspondances 6.3.1. Tableau des données de base 6.3.2. Vecteurs et valeurs propres 6.3.3. Tableaux des facteurs sur I et sur J : ades à l nterprétaton 6.3.4. Représentatons graphques 6.4. Analyse des correspondances multples 6.4.1. Tableau dsonctf complet 6.4.2. Tableau de Burt 6.4.3. Equvalence entre les deux analyses précédentes 6.4.4. Calcul de contrbutons dans le tableau dsonctf complet 6.4.5. Interprétaton d une analyse des correspondances multples 6.4.5.1. Tableau des données de base 6.4.5.2. Valeurs propres 6.4.5.3. Tableaux des facteurs sur et J 6.4.5.4. Représentaton graphque J n I

7. CLASSIFICATION ASCENDANTE HIERARCHIQUE 7.1. Prncpes généraux 7.1.1. Partton et hérarche 7.1.2. Classfcaton ascendante et classfcaton descendante 7.1.3. Constructon d une classfcaton ascendante hérarchque 7.1.4. Crtères d agrégaton 7.2. L nterprétaton d une classfcaton ascendante hérarchque 7.2.1. Le tableau des données 7.2.2. Hstogramme des ndces de nveau de la hérarche 7.2.3. Le tableau du contenu des classes 7.2.4. Représentaton de la classfcaton ascendante hérarchque 7.2.5. Calcul de contrbutons 7.2.5.1. Etude des classes par rapport à des axes. Formulare 7.2.5.2. Etude des classes par rapport à des axes. Exemple 7.2.5.3. Etude des dpôles par rapport à des axes. Formulare 7.2.5.4. Etude des dpôles par rapport à des axes. Exemple 7.2.5.5. Contrbutons relatves mutuelles entre classes et facteurs 7.2.6. Introducton des nœuds de la classfcaton dans le graphque de l analyse factorelle REFERENCES BIBLIOGRAPHIQUES

Avec l Analyse des Données fondée sur l usage de l ordnateur, c est une nouvelle méthodologe que la statstque apporte à la scence et notamment aux scences de l homme. J-P. Benzécr L Analyse des Données n est certes pas smplement un ensemble de technques nouvelles et, sans être le vecteur phlosophque de la recherche du sens de toute chose, c est quand même une nouvelle manère d être, face à un tableau de données. J-P. Fenelon. Les servces rendus montrent ben que l Analyse des Données consttue auourd hu, et de lon, la parte la plus mmédatement rentable de la statstque. G. Morlat 1. Introducton Il n y a pas très longtemps, on ne pouvat pas trater un tableau de 3000 lgnes et 300 colonnes. L apparton et le développement des ordnateurs a du coup levé cet obstacle de calcul, et a perms la conservaton et l explotaton des grandes masses de données. Cette améloraton contnue de l outl nformatque a fortement contrbué au développement et à la vulgarsaton de nombreuses méthodes statstques, devenues mantenant d usage assez courant. Auourd hu, des vastes données d enquêtes sont dépoullées et, fournssent de grands tableaux qu se prêtent asément à l nterprétaton. Des données ssues d nvestgatons spécfques sont rassemblées et consttuent une masse mportante et apparemment ndéchffrable d nformatons mas, qu on peut désormas trater sans dffcultés. Cependant, comment extrare les phénomènes, les los, les connassances que recèlent ces données que nous ne pouvons appréhender drectement [ 8 ]? 6

La statstque classque nous a habtué à étuder les varables les unes après les autres, de construre autant d hstogrammes que de varables. Comment fare pour que, à ces nombreux graphques se substtue un seul graphque, une carte plane? Comment devant, la profuson des descrptons parcellares fournes par l analyse varable par varable, donner une vson globale de l ensemble des résultats? Les technques dtes d analyse des données permettent de répondre à ces questons. Pour J-P. Fénelon l analyse des données est un ensemble de technques pour découvrr la structure, éventuellement complquée, d un tableau de nombres à pluseurs dmensons et de tradure par une structure plus smple et qu la résume au meux. Cette structure peut le plus souvent, être représentée graphquement 31. [ ] Ces technques qu sont essentellement descrptves, ont pour but de décrre, de rédure, de classer et de clarfer les données en tenant compte de nombreux ponts de vue et d étuder, en dégageant les grands trats, les lasons, les ressemblances ou les dfférences entre les varables ou groupes de varables. Les documents fourns sont qualfés de synthétques et percutants et valent souvent meux qu un long dscours. Cette approche descrptve et multdmensonnelle permet de dre que l Analyse des Données, c est de la statstque descrptve perfectonnée. L analyse des données recouvre prncpalement deux ensembles de technques : les premères qu relèvent de la géométre eucldenne et condusent à l extracton de valeurs et de vecteurs propres, sont appelées analyses factorelles ; les secondes, dtes de classfcaton automatque sont caractérsées par le chox d un ndce de proxmté et d un algorthme d agrégaton ou de désagrégaton qu permettent d obtenr une partton ou arbre de classfcaton [ 53 ]. Parm ces deux technques, les premères occupent une place de chox, car elles sont utlsées sot seules, sot conontement avec les secondes, alors que ces dernères sont rarement applquées seules [ 28 ]. On s ntéressera surtout aux analyses factorelles dont on ne décrra que les deux méthodes les plus employées. Il s agt de l analyse en composantes prncpales (beaucoup utlsée dans les pays anglo-saxons) et de l analyse factorelle des correspondances (très prsée en France). La classfcaton automatque sera ntrodute comme ade à l nterprétaton d une analyse factorelle. Ce qu permet de compléter et d enrchr les résultats de cette dernère. Cependant, vu la dversté des méthodes, on 7

regardera comment se présentent les résultats pour l une d entre elles : la classfcaton ascendante hérarchque, qu est la plus élaborée des méthodes de classfcaton. 8

2. Un peu d hstore Ben que l étude de la structure de vastes ensembles de données sot récente, les prncpes dont les méthodes d analyse de données s nsprent sont ancens. En ce qu concerne l analyse factorelle, l faut remonter aux travaux de Ch. Spearman (1904) qu ntrodut pour la premère fos le concept de facteur ; l cherche, derrère les notes obtenues par de nombreux suets à de nombreux tests, une varable explcatve cachée : le facteur général d apttude (analyse factorelle au sens des psychologues). C est vers les années 30 que se pose le problème de la recherche de pluseurs facteurs (travaux de C. Burt et de L.L Thurstone) ; on cherche deux pus pluseurs facteurs : mémore, ntellgence, etc. non observables drectement mas susceptbles d explquer au sens statstque du terme les nombreuses notes obtenues par les suets. Comme on le constate l s agssat déà de résumer à l ade d un pett nombre de facteurs une nformaton multdmensonnelle. De nos ours on ne fat guère appel à l analyse factorelle au sens des psychologues parce qu elle suppose un modèle a pror. Pus, l analyse factorelle en composantes prncpales développée par H. Hotellng (1933), mas dont on peut fare remonter le prncpe à K. Pearson (1901) : les ndvdus colonnes du tableau à analyser étant consdérés comme des vecteurs d un espace à p dmensons, on proposat de rédure la dmenson de l espace en proetant le nuage des ponts ndvdus sur le sous-espace de dmenson k (k pett fxé) permettant d auster au meux le nuage [ 53 ]. D un pont de vue plus récent écrt L. Lebart, l analyse au composantes prncpales est «une technque de représentaton des données, ayant un caractère optmal selon certans crtères algébrques et géométrques spécfés et que l on utlse en général sans référence à des hypothèses de nature statstque ou à un modèle partculer [ 43 ]. Enfn, l analyse factorelle des correspondances ntrodute par J.P Benzécr (1962), est actuellement en vogue. Elle fournt, sans hypothèses a pror des représentatons smplfées dans un certan sens à l nterprétaton. Lassons sur ce pont la parole au Professeur J.P Bensécr : l analyse des correspondances telle qu on la pratque en 1977 ne se borne pas à extrare des facteurs de tout tableau de nombres postfs. Elle donne pour la préparaton des données des règles telles que le codage sous-forme dsonctve complète ; ade à crtquer la valdté des résultats, prncpalement par des calculs de 9

contrbuton ; fournt des procédés effcaces de dscrmnaton et de régresson ; se conugue harmoneusement avec la classfcaton automatque [ 6 ]. Sa logque est clare : le modèle dot suvre les données non l nverse ; le modèle probablste est ugé trop contragnant : statstque n est pas probablté. Les deux méthodes précédentes et celles qu en ont été dérvées, comme l analyse factorelle dscrmnante (ntée par Fsher en 1936, qu permet de décrre la lason entre une varable qualtatve et un ensemble de varables quanttatves) et l analyse canonque (ntrodute par Hotellng en 1936 et dont l obectf ntal état d exprmer au meux à l ade d un pett nombre de couples de varables la lason entre deux ensembles de caractères quanttatfs) dépendent d un même corps de résultats mathématques qu on exposera dans le paragraphe analyse générale. S agssant de la classfcaton automatque, compte tenu de la multplcté des technques exstantes et l effervescence qu règne autour de ce domane, car selon R.M. Cormack (cté par Lebart) plus de 1000 artcles sont publés par an sur ce thème, l est vrament dffcle de fare l hstorque de ces méthodes ; en effet nombreux sont les chercheurs qu ont contrbué à leur mse en œuvre et dont les précurseurs sont : Buffon (1749), Adanson (1757) et Lnné (1758). Je me contentera de rapprocher les obets, suvant le plus grand nombre de degrés de leurs rapports et leur de leurs ressemblances Les obets ans réuns formeront pluseurs pettes famlles que e réunra encore ensemble afn d en fare un tout dont les partes soent unes et lées ntmement écrvat Adanson [ 47 ]. Pour termner cette page d hstore, mentonnons l analyse des données non métrques ntrodute par une nouvelle école de statstcens amércans sous le nom de «multdmensonal scalng» (J.D. Carrol, J.B. Kruskal, R.N. Shepard, ) et dont les prncpales méthodes sont : - l analyse des proxmtés ; - l analyse des préférences ; - l analyse de mesure cononte (qu permet d explquer une varable qualtatve ordnale à l ade des varables nomnales). Ces méthodes ont trouvé leurs applcatons surtout dans le domane du marketng[ 9 ]. 10

3. Types de tableaux analysables Les données se présentent généralement sous la forme d un tableau rectangulare, dont les lgnes correspondent à des ndvdus ou untés statstques et les colonnes à des varables appelées caractères ou caractérstques. Les valeurs des varables peuvent être : - quanttatves ordnales (ugement human, température) ; - quanttatves mesurables (pods d un ndvdu, revenu) ; - qualtatves ordnales (classe d âge, le rang) ; - qualtatves nomnales (sexe, stuaton matrmonale). Lorsque dans un tableau, toutes les varables choses sont quanttatves, on peut établr un tableau de données quanttatves ; c est le cas par exemple où l on observe sur un ensemble de suets I, un certan nombre de mesures J : pods, talle, âge. Ce tableau est encore appelé tableau de mesures. A partr de deux varables qualtatves, on peut défnr un tableau de contngence crosant les modaltés de deux varables, l ensemble des lgnes correspond aux modaltés de la premère varable et l ensemble des colonnes aux modaltés de la deuxème varable ; par exemple le tableau qu répartt la populaton congolase recensée en 1974 selon les deux caractères régon et classe d âge. S l on dvse chaque valeur du tableau précédent par le cardnal de la populaton, on obtent le tableau de fréquences relatves que l on appellera smplement tableau de fréquence. S l on crose plus de deux varables qualtatves entre elles défnes sur une même populaton, on peut construre un tableau contenant l ensemble des tableaux de contngence entre les varables prses deux à deux. Le tableau ans obtenu est appelé tableau de Burt. C est un tableau symétrque qu comporte sur sa dagonale des résultats qu en terme de dépoullement d enquête on appellerat des trs à plats, alors qu alleurs on a tous les tableaux des trs crosés des varables deux à deux. 11

On rencontre auss des tableaux de préférence. Un ensemble I d ndvdus donne des ugements de préférence globale sur un ensemble J d obets ; on demande par exemple à chaque personne nterrogée de noter de 1 à 4 l ordre de préférence pour quatre marques de bère : prmus, kronenbourg, ngok, amstel. A l ntersecton de la ème lgne et de la èmecolonne, on trouve le rang attrbué par la personne à la bère. Le tableau de préférence est dfférent du tableau de rang. Reprenons le tableau de contngence qu répartt la populaton congolase selon les deux caractères régon et classe d âge. On obtent un tableau de rang s à l ntersecton de la régon et de la classe d âge, on y nscrt le rang de la régon sur toutes les régons, relatvement à l effectf de la classe d âge. Dans le tableau de préférence rencontré c-haut, la lgne est une permutaton de 4 obets alors que dans le tableau de rang c est la colonne qu est une permutaton de nombres de 1 à 9 (les 9 régons du Congo). Les tableaux de proxmtés évoluent la smlarté ou la dssmlarté entre chaque couple d ndvdus par un ndce de proxmté ou de dstance (tableau de dstance nter-vlles). Souvent, on observe des varables qu ne prennent que deux valeurs codées généralement 0 et 1 ; elles condusent à des tableaux bnares : par exemple un ndvdu dot répondre par ou ou par non à une queston ; le ou est codé 1, le non est codé 0 ; on peut auss cter le cas des tableaux de présence-absence où l s agt du relevé de la présence ou de l absence d un caractère. Tel ménage possède ou ne possède pas le caractère : avor un poste télévseur : la présence est codé 1, l absence est codé 0. D une manère générale, un tableau rempl unquement de 0 et de 1 est appelé tableau logque. C est le cas des tableaux précédents. Nous verrons au 6.4.1, qu on peut transformer un tableau de données quanttatves en un tableau de descrpton logque par découpage en classes des varables quanttatves. En fat, parler de tableau logque, c est désgner un certan format de codage, qu peut recouvrr des domanes très [ ] dfférents 31. On peut également mentonner les tableaux de notes. Il s agt dans le cas qu nous ntéresse des notes scolares (type de tableaux analysé dans ce caher) comprses entre deux bornes (0 et 20). Ce tableau peut être analysé comme tel (c est ce que nous ferons dans les chaptres suvants). Dans ben de cas, pour donner la même mportance à chaque observaton, on dédoublera chaque colonne du tableau, c est-à-dre qu à 12

chaque matère d orgne on lu fat correspondre une matère dte duale : avor 15/20 en statstque, c est avor 5/20 en la matère duale. L analyse factorelle d un tableau de notes dédoublé semble d un pont de vue pratque donner des résultats plus clars et plus faclement nterprétables que l analyse du tableau ntal[ 12 ]. Le tableau de descrpton logque décrt précédemment peut être consdéré comme un tableau de notes partculer dans lequel toutes les notes ne peuvent prendre que l une des valeurs 0 ou 1. Pour termner, on peut cter les tableaux de correspondance chronologque ou tableaux ternares ou encore tableaux multples. C est par exemple le cas du tableau où, I est l ensemble d ndustres (ou produts), d époques, kijt (ou à destnaton) du pays un ensemble de pays, T un ensemble désgnant les échanges pour le produt, à l nstant t en provenance obtent un tableau de la forme exportateurs, J J. Une généralsaton au cas quaternare a été étudée et on kijpt où I est par exemple l ensemble des pays l ensemble des mêmes pays consdérés comme exportateurs, P est un ensemble des classes de produts et T un ensemble d époques : k IJPT est donc la valeur des mportatons du pays en provenance du pay s (ou des exportatons du pays destnaton du pays ), rentrant dans la classe de produts p et effectuées en l année t. Pour l étude de ces types de tableaux, on utlse très largement la technque des ponts supplémentares (cf 5.2.5)[ 14 ]. à Le tableau soums à l analyse dot posséder certanes qualtés : pertnence, homogénété, exhaustvté. Il ne faut retenr dans la masse hétérogène des fats que ce qu se rapporte à un seul pont de vue (pertnence), et ne pas mélanger les quanttés exprmées en klogrammes et en mètres (homogénété). L exhaustvté mplque que les dfférentes zones du domane d nvestgaton sont ben représentées. A ces tros exgences l faut aouter une condton assez évdente, mas parfos oublée : le tableau de données dot être vaste et en statstque, l nfn est parfos de l ordre de 30 [ 42 ]. 13

4. Analyse générale On part d un tableau rectangulare relant deux ensembles fns I et J. On a Ca rdi observatons sur lesquelles sont mesurées CardJ varables : varable de J sur l ndv du de I. ( CardI n, CardJ p) obtenue par l étud ant à l épreuve. Le tableau X peut admettre deux représentatons [ 35 ] : x est la mesure de l a = =. x peut être la note - l une dans un espace vectorel R n avec un nuage de p ponts correspondant chacun à une lgne ; - l autre dans un espace vectorel R p avec un nuage de n ponts correspondant chacun à une colonne. L analyse factorelle revent à fare la recherche des axes prncpaux d nerte (ou axes factorels) des deux nuages. On cherche donc à auster le nuage des ponts par un sous-espace vectorel de R p, mun de la dstance eucldenne usuelle (c est-à-dre que le carré de la dstance entre deux ponts est égal à la somme des carrés des dfférences de leurs coordonnées). On commence par détermner une drote n passant par l orgne et austant au meux le nuage à étuder, en mnmsant la somme des carrés des dstances des ponts à la drote. Ce calcul condut à un vecteur untare porté par cette drote dt auss vecteur propre relatf à une valeur propre. De façon analogue on peut contnuer l austement et trouver dans R p un certan nombre de vecteurs propres et de valeurs propres toutes postves décrossant avec le rang. X étant la matrce du tableau, et la matrce transposée, u α les vecteurs propres et λ α les valeurs propres seront solutons de l équaton : X Xuα λαuα = dans R p Le vecteur u est norme par la relaton : uu= 1 Le premer axe factorel est donc le vecteur u 1 correspondant λ 1 la plus grande valeur propre de X X. L nerte explquée par cet axe est λ 1. En prolongeant le problème on trouve que le sous-espace qu explque la plus grande nerte content les q premers vecteurs propres u 1,..., uq de X X. L nerte explquée par ce sous-espace est égale à la somme des valeurs propres correspondant à ces vecteurs propres. On aura les formules correspondantes dans R n. En effet, l est démontré que [ 43 ] : - s v α est vecteur propre untare de u = X v est vecteur untare de 1/2 α λ α α F 1 X XX relatf à la valeur propre α 0 X X relatf à la même valeur propre. λ, 14

-récproquement, s u α est vecteur untare de vecteur untare de XX relatf à λ α. X X relatf à α 0 λ, 1/2 vα = λ α Xuα est u α est appelé α ème axe factorel dans p R. v α est appelé α ème axe factorel dans n R. 15

5. Analyse en composantes prncpales 5.1. Les données les obectfs En analyse en composantes prncpales, l ensemble I est décrt à l ade de p varables quanttatves, contnues, homogènes ou non a pror corrélées entre elles deux à deux. On cherche à répondre à des questons du type suvant : quelles sont les varables qu sont lées postvement entre elles? Quelles sont celles qu s opposent? A propos des ndvdus on cherchera à évaluer leur ressemblance et leur dssemblance, à mettre en relef des groupes homogènes d ndvdus. En résumé l analyse en composantes prncpales (ACP) consste à transformer les p varables quanttatves, ntales en p nouvelles varables non corrélées, appelées composantes prncpales (ou facteurs). 5.2. La méthode On ne décrra c, que l une des varantes de cette méthode et qu est de lon la plus employée : l analyse en composantes prncpales normées. On suppose que les données de départ sont non seulement hétérogènes quant à leur moyenne, mas le sont également quant à leur dsperson et à leur nature (dsparté des untés de mesure). Pour ramener chaque varable à un cadre commun de comparablté, on opérera sur chacune d elle une transformaton lnéare ramenant sa moyenne à zéro et sa varance à l unté (varable centrée rédute). 5.2.1. Le tableau de données On a les mêmes ensembles I et {, } X = x I J x J de l analyse générale........ x... On calcule : )- La moyenne de la varable x : m = M avec M = { m I} x x I 16

1 où m est le pods affecté à l ndvdu ; m = et CardI { m I} = M = 1 )- La varance de la varable x : 2 m var( ) ( ) 2 σ = x = x x I M ) La varable centrée et rédute qu a pour composantes sur l ensemble I : X x x = σ où σ est l écart type de x moy( X ) = { X I} = 0 et = ( ) 2 { } var( X ) X moy X I = 1 v)- Le coeffcent de corrélaton lnéare entre deux varables m r = X X I M qu prend les valeurs entre 1 et +1. x et x : 5.2.2. Analyse des ponts ndvdus de N ( I) dans On se placera au centre de gravté du nuage des ponts de base (normalsaton centréerédute). Le ème ndvdu sera représenté dans l espace des varables normées un pont ayant pour coordonnée la valeur note par : J p R X et affecté de masse (pods) m NJ( I) = ( X; ) I le nuage des ponts I ; M ) Le centre de gravté G de ce nuage a pour ème coordonnée : m M = 1 m m x I x I 0 σ = M M X GJ = X I ; c est donc l orgne du système d axes dans lequel est placé le nuage des ndvdus. ) La dstance entre deux ponts de 2 {( X X ) J } 2 d (, ) = N ( I) s écrt dans p R : m X par. S l on x x 2 = ( ) J σ (c est la dstance eucldenne usuelle ). Ans chaque varable aura une contrbuton égale à la dsperson totale du nuage NJ ( I ). ) La dstance d un pont de au centre de gravté G du nuage N ( I) vaut : 17

{ } 2 2 2 d G = ρ = X J (, ) () v) L nerte d un pont par rapport au centre de gravté est : m 2 In( I) ( ) M ρ et l nerte du nuage N ( I) sera égal à : m 2 In( NJ( I)) ( ) I M ρ = m 2 = ( X ) I M m 2 = X I, J M Var( X ) J or var( X ) = 1 = { } I = ( N ( I)) = CardJ n J J L nerte du nuage des ponts est donc égale au nombre de varables ; cette nerte est auss égale à la somme des termes dagonaux (trace) de la matrce de corrélaton entre les varables dont le terme général est dagonalser pour la recherche des vecteurs et valeurs propres. r. C est donc cette matrce qu l faudra v) Les facteurs et axes factorels-coordonnées des observatons dans l espace factorel. Soent { Fα () I} les facteurs assocés à l analyse en composantes prncpales normées. Les facteurs sont de moyenne nulle, de varance égale à λ α, et sont deux orthogonaux. En effet : m F α () I = 0 M m F 2 λ α = α () I M et m F () F () I = 0 M α β s α β On sat déà que la somme de toutes les valeurs propres est égale au nombre varables. Et donc : I ( N ( I)) = = CardJ n J λ α CardJ de 5.2.3. Analyse des ponts varables de N ( J) dans I n R 18

En ACP, l orgne des axes n est pas le centre de gravté du nuage des varables ; les axes factorels ssus du nuage des ndvdus ne sont pas les axes prncpaux d nerte du nuage des varables. On a vu que Var( X ) = 1 c est-à-dre que d 2 (0, ) = 1 ; les varables X sont donc stuées sur une sphère de rayon 1 ce ntrée en 0, orgne ntale des axes. L ntersecton de la sphère et d un plan factorel est un cercle dt cercle de corrélaton. La dstance eucldenne usuelle entre deux ponts de N ( J) dans { } (, ) ( ) d 2 = X X 2 I I n R : En tenant compte du fa t que Var( X ) = Var( X ) = 1 et X X = r, On trouve que : (, ) 2(1 ) 2 d = r où r, est le coeffc ent de corrélaton lnéare entre les varables et. Ans, les proxmtés entre ponts varables s exprment en termes de corrélatons : r = 1 les ponts et sont confondus ; r = 1 les ponts et r = 0 les ponts et 90. sont damétralement opposés sur la sphère (0,1) ; sont orthogonaux et se trouvent aux extrémtés d un arc de 5.2.4- Relaton entre les ponts de N ( I) et de N ( J ) Nous avons vu au chaptre 4 les relatons qu exstent entre les matrces J I X X et XX en ce qu concerne les vecteurs et les valeurs propres. En utlsant ces proprétés, on peut établr les relatons de transton entre les facteurs Fα () de I et Gα ( ) de J. On a : α λ 1/2 F () = XGα( ) et 1/2 Gα( ) = λ XFα( ) Il faut sgnaler que ces formules ne sont pas barycentrques comme celles du 6.2.4 de l analyse factorelle des correspondances ; les X pouvant être négatfs. 5.2.5- Analyse des ponts supplémentares On profte de ce paragraphe pour parler éléments supplémentares qu présentent un grand ntérêt en analyse de données et plus partculèrement en analyse factorelle des correspondances. On utlse les éléments supplémentares en analyse de représenter [ 14 ] : données pour - sot une observaton relevée dans des condtons douteuses (ou dfférentes des autres observatons) ou encore une varable sur laquelle la précson est mondre que sur les autres varables mesurées ; - sot un élément aberrant, ou ayant perturbé une analyse prélmnare ; 19

- sot un cas nouveau ; - sot des éléments de nature dfférente de ceux analysés. On peut auss utlser des éléments supplémentares pour représenter un groupe de varables ou un groupe d ndvdus. Exemple 1 : un questonnare a été soums à l ensemble des étudants du CASP ; après analyse, on recuelle les réponses d un étudant absent (cas nouveau) : on cherchera naturellement à le placer sur les axes factorels sans refare l analyse. Exemple 2 : on a réalsé une enquête sur l mage de marque de la S.N.E. Chaque clent enquêté répond à un questonnare comportant deux partes : une fche soco- (âge, sexe, professon, revenus, ) ; et une battere d opnons relatves à démographque la socété. S l on analyse la battere d opnons, on mettra par exemple les varables soco-démographques en supplémentares. Consdérons la fgure suvante : J J s X X s I s X s S l on effectue l analyse en composantes prncpales du tableau X (tableau prncpal), on peut proeter sur les axes factorels ans trouvés les ensembles I s (ensemble des ndvdus supplémentares) et J s (ensemble des varables supplémentares). Les coordonnées des ndvdus supplémentares s I s sont les composantes du vecteur ( ) X s u α et, celles des varables supplémentares s J s les composantes du vecteur ( X ) v α (vor 4). Technquement, mettre des éléments en supplémentares dans s l analyse consste à attrbuer une masse nulle à ces éléments et à calculer leurs coordonnées dans l espace factorel. 20

5.3. Interprétaton de l Analyse en Composantes Prncpales 5.3.1. Tableau des données de base Tratons par cette méthode le recuel d nformatons qu est donné par le tableau 1. Nous y trouvons les notes moyennes par matère obtenues par les étudants du CASP promoton 1991-1992 pendant la premère année de leur scolarté. ABDO 10 15 13 14 12 17 10 10 10 12 09 09 07 13 12 08 14 13 12 BANZ 09 12 09 13 07 13 08 07 09 08 06 10 10 10 10 08 12 13 10 BATA 09 14 12 11 11 14 08 07 11 13 10 09 09 14 12 06 15 14 11 BOUK 11 15 11 13 10 18 11 08 13 11 13 15 11 13 14 07 13 12 12 BOYE 09 13 11 11 11 15 08 02 10 09 07 05 09 15 15 07 12 12 10 GOYI 09 13 12 13 11 15 10 11 14 14 07 08 12 14 15 07 14 14 12 LIK1 10 17 12 10 05 15 09 07 08 08 13 07 08 13 13 07 15 14 11 LIK2 12 14 15 13 11 18 08 11 12 10 08 11 10 13 10 07 15 15 12 LOUZ 06 14 07 13 09 13 11 14 11 07 07 09 06 12 10 08 13 14 11 MAKI 10 16 12 13 10 13 08 06 12 14 09 09 12 12 13 07 13 14 12 MALO 07 13 14 12 16 16 11 11 12 10 08 09 10 13 13 07 12 12 12 MAMP 10 14 13 11 13 13 13 13 10 12 10 07 10 14 13 08 13 13 12 MATO 10 14 16 12 06 15 10 13 13 09 09 09 09 13 11 08 15 14 12 MBIK 08 13 07 12 10 14 10 13 12 11 04 09 09 14 12 07 13 14 11 MPOU 09 15 10 13 09 15 09 08 11 13 08 07 11 13 17 07 14 14 12 NGUI 11 13 12 13 10 18 09 07 09 07 09 07 09 13 14 07 14 14 11 NKOK 09 17 11 13 09 14 11 07 11 11 12 09 11 14 13 08 15 14 12 NSEM 09 14 10 12 07 17 07 11 13 12 12 13 09 11 14 07 15 15 12 NSON 10 17 12 13 15 15 09 11 12 12 14 08 08 12 13 07 13 14 13 NZAK 09 16 10 13 14 15 07 05 09 11 17 11 12 14 13 08 14 13 12 ONDZ 10 17 12 10 05 15 09 07 08 08 13 07 08 14 13 07 15 14 11 SAFO 11 16 08 12 09 15 11 10 11 11 12 10 08 13 13 07 14 14 12 SAM1 12 15 10 14 15 17 07 07 12 08 09 09 08 10 11 08 14 14 12 SAM2 11 14 12 11 15 16 10 08 11 09 06 08 06 12 15 07 13 12 11 TSIB 10 15 17 13 11 15 06 06 12 10 12 09 11 13 15 07 15 14 12 Tableau.1 : Notes des étudants Le chef de la scolarté du CASP peut être amené à se demander : - s les étudants ont systématquement des résultats melleurs que ceux de leurs collègues ; - s les flles et les garçons obtennent des résultats comparables ; - s un étudant bon en mathématque l est également en démographe ; - etc. Dsons tout smplement qu l veut analyser les données dont l dspose. Le tableau que nous allons étuder crose 25 étudants (en lgnes) et 19 matères (en colonnes) : le 21