UNIVERSITÉ LUMIÈRE LYON 2 FACULTÉ DE SCIENCES ÉCONOMIQUES ET DE GESTION



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Introduction. Préambule. Le contexte

La classification automatique de données quantitatives

L'analyse des données à l usage des non mathématiciens

Extraction d informations stratégiques par Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Logiciel XLSTAT version rue Damrémont PARIS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Statistique Descriptive Multidimensionnelle. (pour les nuls)

ESIEA PARIS

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

QUELLE DOIT ÊTRE L AMPLEUR DE LA CONSOLIDATION BUDGÉTAIRE POUR RAMENER LA DETTE À UN NIVEAU PRUDENT?

SIG ET ANALYSE EXPLORATOIRE

1. Vocabulaire : Introduction au tableau élémentaire

La révision des indices du cours du franc suisse, nominaux et réels, pondérés par les exportations

ASSURANCE-LITIGE EN MATIÈRE DE BREVETS

Quelle part de leur richesse nationale les pays consacrent-ils à l éducation?

Chapitre 3. Les distributions à deux variables

Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

OBSERVATOIRE DE L EPARGNE EUROPEENNE

Les comptes nationaux et le SEC 2010

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Qu est-ce que la croissance économique? Quels sont ses moteurs?

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

12. Le système monétaire

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Aide-mémoire de statistique appliquée à la biologie

Principe d un test statistique

Quelques éléments de statistique multidimensionnelle

Qui sont les enseignants?

IBM SPSS Direct Marketing

Les perspectives économiques

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

RAPPORT TECHNIQUE CCE

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

LES RETRAITES. Dossier d information. Avril 2010

OBJET : Utilisation des données contenues dans les annuaires téléphoniques.

3 Les premiers résultats des plans d'actions

INTRODUCTION A LA MACROECONOMIE Séance de travaux dirigés n 4 Construction des comptes de secteur

INTRODUCTION AU DATA MINING

L Europe des consommateurs : Contexte international Rapport Eurobaromètre 47.0

Statistique Descriptive Élémentaire

Analyse des correspondances avec colonne de référence

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Relation entre deux variables : estimation de la corrélation linéaire

Le travail est-il le meilleur antidote contre la pauvreté?

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Compétitivité française : Quelques constats

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

La situation financière des SNF françaises Quelques éléments de diagnostic élaborés à partir des comptes nationaux

données en connaissance et en actions?

Actifs des fonds de pension et des fonds de réserve publics

Filière «Économie et Entreprise» 2015/2016

Le taux d'actualisation en assurance

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

LES DÉTERMINANTS DE MATRICES

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Thème 1: l environnement pédagogique et scolaire dans le primaire et le secondaire

Principaux partenaires commerciaux de l UE, (Part dans le total des échanges de biens extra-ue, sur la base de la valeur commerciale)

Systèmes de transport public guidés urbains de personnes

PROFITEZ DE DONNÉES DE CLASSE MONDIALE. Creditsafe lance une suite de solutions conçues pour accompagner votre développement à l international

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

CHAPITRE VIII : Les circuits avec résistances ohmiques

Le point sur les marchés des pensions. des pays de l OCDE OCDE

ELEMENTS DE COMPTABILITE NATIONALE

ACP Voitures 1- Méthode

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Régimes publics de retraite État de la situation. Perspectives des différents régimes publics de retraite. Plan

TARIFICATION DES INSTRUMENTS FINANCIERS AU 01 JANVIER 2015

CAPTEURS - CHAINES DE MESURES

La place de SAS dans l'informatique décisionnelle

Séries Statistiques Simples

LA RÉDUCTION DU TEMPS DE TRAVAIL : UNE COMPARAISON DE LA POLITIQUE DES «35 HEURES» AVEC LES POLITIQUES D AUTRES PAYS MEMBRES DE L OCDE

Les questions relatives aux finances publiques, longtemps réservées aux spécialistes, sont

Âge effectif de sortie du marché du travail

Le creusement des inégalités touche plus particulièrement les jeunes et les pauvres

Master Marketing et Pratiques Commerciales Formation continue

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Travaux pratiques avec RapidMiner

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

CMC MARKETS UK PLC. Conditions Tarifaires CFDs. Plateforme Next Generation. Janvier RCS Paris:

modélisation solide et dessin technique

Premières estimations pour 2014 Le revenu agricole réel par actif en baisse de 1,7% dans l UE28

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Communiqué de Lancement

Le marché de l assurance de protection juridique en Europe. Octobre 2013

Transcription:

UNIVERSITÉ LUMIÈRE LYON 2 FACULTÉ DE SCIENCES ÉCONOMIQUES ET DE GESTION Economie quantitative Master 2-ECOSMA Etudes et COnseil en Stratégie et MArketing Analyse des données Polycopié 1 : Méthodes factorielles Année Universitaire 2015-2016 Courriel ; rafik.abdesselam@univ-lyon2.fr Web : http://eric.univ-lyon2.fr/~rabdesselam/fr/ Polycopiés : http://eric.univ-lyon2.fr/~rabdesselam/documents/

PRESENTATION Description détaillée du cours 1. Analyse statistique des données uni-bidimensionnelles - Introduction aux méthodes de sondage - Les types de questions (fermée, ouverte-textuelle) - codage - Méthodes descriptives ( tris à plat - tris croisés - Tamis analyse bivariée) - Méthodologie et Techniques de dépouillement d enquête - traitements statistiques 2. Analyse statistique des données multidimensionnelle 2.1 Méthodes d'analyse factorielle - Analyse en Composantes Principales - Analyse Factorielle des Correspondances Simples - Multiples - Analyse Factorielle Discriminante - Analyse Discriminante Linéaire 2.2 Méthodes de classification automatique des données - Classification non hiérarchique : nuées dynamiques - Analyse et interprétation d une partition - Classification hiérarchique ascendante - descendante - Analyse Discriminante Barycentrique - Segmentation 2.3 Modélisation - Méthodes explicatives - Modèles de régression ( simple et multiple ) - Analyse de la variance ANOVA ( facteurs contrôlés avec ou sans interaction ) - Analyse de la covariance ANCOVA - Régression logistique 3. Analyse des données évolutives - Analyse factorielle multiple - Analyse conjointe de tableaux Objectifs Le but de ce cours est de donner aux étudiant(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l interprétation correcte et l utilisation pratique de celles-ci. Par conséquent, l emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu à facilité la compréhension des méthodes étudiées. Les méthodes les plus importantes sont présentées d une manière aussi concrète que possible, sans que soient trop développés ni les fondements mathématiques, ni les questions de calcul numérique. Le logiciel SPAD sera utilisé mais aucune connaissance préalable de celui-ci n est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d hypothèse) de base est requise. Chaque méthode est illustrée par des applications à des données réelles. L utilisateur doit évidemment avoir une idée suffisamment précise des principes généraux et des conditions d application de ces méthodes, mais il doit consacrer essentiellement son attention à la méthodologie d enchaînement de ces méthodes et à l interprétation des résultats obtenus. L analyse des données permet l étude d un problème dans sa globalité : multiplicité et interaction des critères, diversité de l environnement. Elle permet la description, l exploration, l analyse d importants tableaux de données. Bien adaptée aux études de terrain, c est en particulier l outil idéal des traitements d enquêtes. Les entreprises croulent littéralement sous le poids des données qu elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d informations pouvant être bénéfiques à l entreprise si utilisées correctement. Enfin, sous le vocable «Data mining» fouille de données, on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, faire de la segmentation ou bien de découvrir des associations pertinentes. L analyse multidimensionnelle des données est à la base de plusieurs techniques de data maning et est utilisée dans plusieurs domaines de l économie et de la gestion dont le marketing. Approche pédagogique Sept séances de cours magistraux et de travaux dirigés (salle DE112 durée 3h) comprenant des exemples d application traités avec le logiciel SPAD. M2 : ECOSMA Analyse des Données - 2 -

MATERIEL PEDAGOGIQUE Ressources diverses (3) Polycopiés de cours, (1) polycopié de travaux dirigés ainsi que de nombreux fichiers de données réelles SPAD Système pour l Analyse de Données, version 7.4, Kit-Etudiant. Références bibliographiques Référence(s) de base [1] Bouroche J.M., Saporta G. L'analyse des données, "Que sais-je?" N 1854, PUF, 8 ème édition (2002). Ce fascicule de poche constitue une excellente introduction à l analyse statistique multidimensionnelle. Il met l accent sur l interprétation intuitive des idées et concepts en n ayant presque aucun recours à la notation mathématique. Il accorde aussi beaucoup d importance à l interprétation correcte des résultats. Autres références [2] Caillez F., Pages J.P. Introduction à l'analyse des Données SMASH (1975). [3] Celeux G, Diday E, Govaert G, Lechevalier Y, Ralambondrany H. Classification automatique des données. Environnement statistique et informatique, Dunod (1989). [4] Cibois P. L'analyse factorielle, "Que sais-je?" PUF (1983). [5] Cibois P. L'analyse des données en sociologie. PUF (1984). [6] Escofier B., Pagès J. Analyses factorielles simples et multiples 3 ème édition Dunod (1988). [7] Fenneteau H., Bialès C. Analyse statistique des données. Ellipses (1993). [8] Grangé D., Lebart L. Traitements statistiques des enquêtes. Dunod (1993). [9] Han J., Kamber M. : Data Mining Concepts and Techniques, (2001). [10] Michael J.A. Berry, Gordon Linoff : Data Mining, Masson (1997). [11] Moscarola J. Enquêtes et analyse de données. Vuibert Gestion (1990). [12] Rodriguez Herrera R., Salles-Le-Gac D. Initiation à l analyse factorielle des données Fondements mathématiques et interprétations. Ellipses (2002). [13] Saporta G. Probabilité, analyse des données et statistique Editions Technip (1990). [14] Stanton A, Glantz K, Bryan K : Primer of applied regression and anlysis of variance, Mc Graw Hill, (2000). [15] Volle M., Analyse des données. Economica (1978). [16] Guide du logiciel SPAD version 6 Système pour l Analyse des Données. Adresses de sites Web à consulter : [1] http://www.decisia.fr/spad_presentation.html [2] http://www.decisia.fr/index2.html [3] http://dept.econ.yorku.ca/jasj/classes.html Cours C. Gourieroux, Econometric, Analysais of individual Risks [4] http://dorakmt.tripod.com/mtd/glosstat.html glossaire statistique CONTROLE DES CONNAISSANCES Examen terminal ( 100% ) - janvier - durée 1h 30 - salle informatique. M2 : ECOSMA Analyse des Données - 3 -

Préambule Ce cours vise à présenter les méthodes d'analyses de données en mettant l'accent sur les outils d'interprétation, sans écarter pour autant l'exposé des principes de fonctionnement. Ces méthodes d'analyse sont aisées à mettre en oeuvre depuis le développement des moyens informatiques puissants de calcul, mais leur interprétation est souvent délicate. On insistera donc sur leurs aspects intuitifs, à savoir leur principe général, leurs objectifs et les techniques d interprétation des résultats. De plus, chaque méthode est illustrée par des applications à des données réelles. Bien évidemment, avant d'effectuer ces méthodes d'analyses multidimensionnelles sophistiquées, il est recommandé de prendre contact avec les données au moyen des outils classiques de la statistique descriptive ou de ceux plus récents de la statistique exploratoire ( cf. Méthodologie et techniques de dépouillement d'enquête ). Les objectifs - mettre en évidence les principes de fonctionnement de ces méthodes sans recourir au formalisme mathématique (des ouvrages permettant d'approfondir les fondements mathématiques sont indiqués en bibliographie), - montrer à partir d'exemples réels comment interpréter les résultats de ces analyses, - donner une idée de l'intérêt mais aussi des dangers et limites de ces méthodes, - l'enchaînement canonique de ces méthodes dans le cadre d'une analyse structurelle des données d'enquête. Un peu d'histoire Les prémices de ces méthodes ont été mises en place dans la première moitié de ce siècle par les travaux de Pearson (1904) et Hotelling (1933), aboutissant à l'analyse en Composantes Principales (ACP, Principal Component Analysis, PCA, appelée aussi Factor Analysis dans certains logiciels) qui permet de traiter un tableau de variables quantitatives. Dans les années 1968-1975, divers travaux tentent de mettre au point une technique équivalente pour traiter des tableaux de contingence ( tableau croisé de deux variables qualitatives ) : on peut citer les modèles de l'américain Goodman. Un français, Benzecri, trouve le moyen d'appliquer les principes de l'acp à un tel tableau : c'est l'analyse Factorielle des Correspondances (AFC). Il assortit ses travaux de considérations épistémologiques sur l'inutilité des hypothèses probabilistes (qui sont à la base des statistiques classiques : test, etc..) dans le traitement des données. Il prône une approche fondée sur le refus de ces hypothèses qui se présente comme une alternative aux approches statistiques classiques (essentiellement d'origine anglo-saxonne) et prend le nom d'analyse de Données. A la suite de ces travaux, une sorte d'école se développe en France. Diverses techniques sont mises au point dans ce cadre : Analyse Factorielle des Correspondances Multiples ( AFCM ou ACM ) ; Analyse Factorielle Discriminante (AFD); Segmentation ; Méthodes des Nuées Dynamiques ; etc. A la fin des années 80 la querelle entre partisans de l'analyse de Données et statisticiens "classiques" s'est apaisée. Les premiers ont réintroduit des éléments de probabilités dans leurs techniques et les seconds ont fini par considérer que ces méthodes pouvaient parfois être utiles. Le «Data Mining» est apparu aux Etats-Unis au milieu des années 1990. Il désigne l ensemble des moyens d exploitation informatique «intelligente» des données utilisant des modèles de prédiction variés. La traduction en français la plus proche est «fouille de données». Il ne suffit pas d avoir les données, encore faut-il savoir les traiter pour les synthétiser, les analyser, les rechercher, les mettre en perspective d une action bien définie ou d un objectif à atteindre. C est ainsi que s introduit naturellement le Data Mining qui est essentiellement dû à la conjonction des deux facteurs suivants : M2 : ECOSMA Analyse des Données - 4 -

- l accroissement exponentiel, dans les entreprises, de données liées à leur activité (données sur la clientèle, les stocks, la fabrication, la comptabilité, la gestion, les ressources humaines, etc.). Les entreprises ont vite compris qu il serait dommage de jeter ces données car elles contiennent des informations-clé (connaissances) sur leur fonctionnement, ces connaissances s avérant stratégiques pour la prise de décision. - Les progrès très rapides des matériels et logiciels informatiques, permettant de stocker des données et de les analyser pour un coût de plus en plus faible, tout en gérant des volumes de plus en plus importants. L analyse statistique exploratoire des données nécessite beaucoup de calculs et est inutilisable sans moyens informatiques. Pour traiter ses données, le statisticien contemporain a le plus souvent recours aux grands logiciels très répandus SAS, SPAD, SPSS. Ces logiciels constituent des outils indispensables très puissants, voire de véritables environnements informatiques (SAS), permettant le traitement d'une grande variété de données. Introduction Plus de vingt-cinq années de pratique ont démontré la puissance des méthodes d'analyses de données ou techniques de statistique descriptive multidimensionnelle, pour acquérir de l'information synthétique sur des échantillons énormes ou les très grands ensembles de données complexes comme le sont les fichiers d'enquêtes. La souplesse des programmes de calcul et leur efficacité permettent d'y faire appel de façon répétée sur les mêmes données. Lorsqu on dispose d un volumineux fichier de données, il est difficile d appréhender globalement l information contenue. Les méthodes statistiques classiques sont insuffisantes. En effet, la statistique descriptive nous enseigne seulement comment dégager des pourcentages et comment représenter l intensité entre deux caractères, par exemple le PIB en fonction de la population d un ensemble de pays ; la statistique inférentielle (mathématique), quant à elle, permet d estimer des paramètres de distribution ( moyenne, variance, proportion, etc.) et de vérifier la validité d hypothèses, notamment si deux séries de données correspondent à deux caractères corrélés. Toutes ces méthodes ne permettent pas d extraire les informations d un grand fichier, d où l on veut, en dépistant des concomitances répétées, déduire les relations statistiques entres diverses caractéristiques. L analyse des données permet des études globales incluant toutes les caractéristiques de ces mêmes données ; ces études ont pour but de mettre en lumière les phénomènes importants en faisant le minimum d hypothèses a priori sur les importances relatives des informations. Aujourd hui, l analyse des données est devenue un outil indispensable dans de nombreux domaines, par exemple l aide à la décision, en finance, dans les études de marché ou dans l étude du risque. Les méthodes d'analyse de Données sont rangées en deux grandes familles : les méthodes d'analyse factorielle et les méthodes de classification automatique. Ces deux familles de méthodes ont pour objet de résumer l'information contenue dans les données. Elles sont plus complémentaires que concurrentes, et peuvent avec profit être utilisées conjointement sur un même tableau de données du type " individus ( objets ) x variables ( attributs )". On peut, dans certains cas, associer utilement une classification aux résultats d'une analyse factorielle. Les méthodes d'analyse factorielle constituent un domaine important de l'analyse des données et relèvent de l'analyse linéaire. Elles sont diverses de part leurs différents domaines d'applications, mais leurs arrièreplans mathématiques sont très proches. Les méthodes factorielles ont pour objet de résumer l'information apportée par un ensemble de variables, par un nombre plus restreint de variables nouvelles appelées "facteurs". Les méthodes de classification automatique porte sur l'ensemble des individus ( objets ) qu'il s'agit de regrouper en classes ou catégories jugées les plus homogènes possibles et cela au regard d'un critère. On distinguera les variables selon leur type : quantitatives ou qualitatives et selon leur fonction dans l'analyse : actives ou illustratives ( supplémentaires ). M2 : ECOSMA Analyse des Données - 5 -

1- Analyse en Composantes Principales 1-1 Généralités L'Analyse en Composantes Principales 1 (ACP) est une méthode statistique exploratoire permettent une description essentiellement graphique de l information contenue dans de grands tableaux de données. C est aussi une méthode de structuration et de synthèse de données numériques. Elle permet de présenter un résumé descriptif, accompagné de représentations graphiques, d'un ensemble d'observations mesurées sur un ensemble de variables numériques. On utilisera cette méthode lorsqu'il s'agira de décrire et de "visualiser" au mieux l'information contenue dans un tableau de données quantitatives où n individus ( objets ) ont été évalués en fonction de p variables ( attributs ou caractéristiques ). L'ACP est une méthode très efficace pour représenter des données corrélées entre elles. Elle est largement utilisée dans les études de marché, d opinion et, de plus en plus, dans le domaine industriel. 1-2 Présentation de la méthode Supposons que l'on analyse les variables PIB et Population d'un ensemble de pays. On peut construire un graphique représentant les individus ( 15 pays de UE ) : En présence de deux variables, il est facile de représenter, dans un plan, l'ensemble des données. L'allure du nuage de points permet, d'étudier l'intensité de la liaison "corrélation" entre ces deux variables, de situer les différents individus ( pays ) et éventuellement de les classer. Supposons que l'on dispose d'une troisième variable "Taux d inflation" : il devient alors difficile de tout avoir sur un graphique. Il faut recourir à la perspective ou faire deux graphiques ( PIB x Population et Taux d inflation x Population par exemple ). Rajoutons une quatrième variable Taux de croissance, voire une cinquième Taux de chômage, etc. La représentation graphique des données devient alors impossible. Or ces variables sont corrélées entre elles : elles sont donc partiellement redondantes. Question : peut-on déterminer un nombre restreint de variables, représentant les mêmes données et non corrélées entre elles? 1 Principal Component Analysis (PCA). M2 : ECOSMA Analyse des Données - 6 -

1-2 Objectif de la méthode L'ACP consiste à synthétiser le nombre de variables observées, autrement dit elle va tenter de résumer l'information contenue dans le tableau de données, en un ensemble réduit de combinaisons linéaires des variables initiales, en veillant à minimiser la perte d'information du fait de cette réduction. Ces nouvelles variables synthétiques appelées "composantes principales ou facteurs ou encore macro-caractéristiques" possèdent donc les propriétés suivantes : - les composantes principales, notées ( C 1, C 2,..., C q ), sont des combinaisons linéaires des variables initiales ( X 1, X 2,, X p ) : C j = a 1 X 1 + a 2 X 2 +... + a p X p pour tout j = 1,q avec q p. - elles sont non corrélées (les coefficients de corrélation linéaire des composantes prises deux à deux sont nuls) ce qui évite la redondance de l'information déjà résumée. - la première composante porte ou résume plus d'informations que la seconde qui en porte plus que la troisième et ainsi de suite, de sorte qu'en se limitant aux 2 ou 3 premières composantes on dispose d'un bon résumé de l'information contenue dans les données. En résumé, on peut dire que l ACP consiste à transformer les variables initiales corrélées en de nouvelles variables, les composantes principales, combinaisons linéaires des variables initiales non corrélées entre elles, de variance maximale et les plus liées aux variables initiales : l ACP est une méthode factorielle linéaire. Ainsi, on utilisera l ACP pour faire apparaître : - la structuration des variables actives, c est-à-dire les systèmes de relation qui existent entre elles ; leurs association ou leurs oppositions. - La répartition des individus les uns par rapport aux autres, en relation avec les variables traitées ; les individus qui présentent des caractéristiques communes ou antagonistes. A noter que l ACP est une méthode essentiellement descriptive, préalable à l emploi d autres méthodes statistiques, telles que les méthodes de classification, de régression ou encore d économétrie. Moyens mathématiques Les outils mathématiques utilisés sont ceux de l'algèbre linéaire et du calcul matriciel. Le principe est le suivant : Diagonalisation Matrice des corrélations > Matrice des valeurs propres X 1 X 2... X p C 1 C 2... C p X 1 1 r 12... r 1p C 1 1 0 0 0 X 2 r 21 1... r 2p C 2 0 2 0 0.................. 0 0... 0 X p r p1 r p2... 1 C p 0 0 0 p ( r 12 = r( X 1, X 2 ) coefficient de corrélation linéaire entre les variables X 1 et X 2 ) On diagonalise la matrice des corrélations 2 (matrice symétrique dont les éléments sont les coefficients de corrélation linéaire entre les variables initiales prises deux à deux) (*). - les vecteurs propres de cette matrice définissent les nouvelles variables recherchées; les composantes principales - les valeurs propres associées, sont les variances des composantes principales (l'information résumée par chacune des composantes). - les axes factoriels sont les droites engendrées par les vecteurs propres. On peut montrer que les composantes principales ainsi définies, vérifient bien les propriétés recherchées : non corrélées entre elles, de variance décroissante, combinaisons linéaires des variables de départ. Cette dernière propriété permet de construire des graphiques représentant les individus aussi bien que les variables dans l'espace défini par les composantes. 2 On ne traite ici que le cas le plus courant. Le cas général part de la matrice des variances-covariances et d'une matrice des poids qui peut varier. Ici on parle d'une ACP normée, les données sont centrées et réduites pour éliminer les effets de l'origine (moyennes) et des unités (variances) des variables. M2 : ECOSMA Analyse des Données - 7 -

1-3 Points à retenir - Matrice des corrélations : fournit des éléments de description des associations entre les variables actives. Sa lecture nous donne une première idée de l'intensité de la liaison linéaire entre les variables, mais l'analyse en composantes principales va permettre d'obtenir une synthèse de ces liaisons. - Somme des valeurs propres : représente la variance ( l'inertie, l'information ) totale à résumer. Elle est égale au nombre de variables dans le cas d'une ACP normée. - Valeur propre : la variance de la composante principale correspondante (l'information résumée par l'axe factoriel considéré). - Pourcentage : le rapport de la valeur propre à l'inertie totale, ce qui mesure la quantité de l'information résumée par l'axe factoriel correspondant. Variables et individus actifs : Interprétation interne Variables actives - Coordonnées : les coordonnées des variables initiales sur les axes factoriels engendrés par les composantes principales. - Corrélations variables-facteurs : coefficients de corrélations entre les variables actives initiales et les composantes principales; ce qui mesure la qualité de la représentation des variables dans les plans factoriels. Individus actifs - Coordonnées : les coordonnées des individus sur les axes factoriels - Contribution : mesure la qualité de représentation de l'individu sur l'axe factoriel considéré. C'est la part d'inertie ou d'information de l'individu à la détermination de l'axe factoriel correspondant - Cosinus carré : détermine la qualité de représentation de l'individu sur l'axe factoriel considéré. La qualité de la représentation d'un individu dans un plan est définie par la somme des cosinus carrés correspondant aux deux axes factoriels définissant le plan. Variables et individus supplémentaires : Interprétation externe Les éléments supplémentaires éventuels n interviennent pas dans les calculs de détermination des composantes principales ; par contre, ils sont très utiles a posteriori pour enrichir l interprétation de ces composantes. Variables supplémentaires On peut également représenter dans l'analyse, des variables mixtes ( quantitatives et/ou qualitatives ) supplémentaires ou illustratives. L'utilisation de ces variables qui n'ont pas participé à la détermination des axes factoriels apporte des éclairages différents, il s'agit alors d'une interprétation externe. - Les variables quantitatives illustratives se représentent aisément dans le cercle des corrélations à partir de leurs corrélations avec les composantes principales. - Quant aux variables qualitatives, on utilise en général le principe barycentrique qui consiste à faire figurer le centre de gravité ( point moyen ) de chaque modalité. Individus supplémentaires - On peut également projeter des individus supplémentaires, à partir de leurs coordonnées relatives aux variables initiales. N'ayant pas servi à la détermination des axes, les contributions des individus illustratifs sont nulles. M2 : ECOSMA Analyse des Données - 8 -

1-4 Qualité des représentations - Interprétation des résultats Les projections sur les plans principaux sont des représentations déformées de la réalité et il convient de prendre des précautions quant à l'interprétation des résultats. On peut décomposer la lecture des résultats d'une ACP en plusieurs étapes qui sont les suivantes : - L'histogramme des valeurs propres permet de vérifier la qualité du résumé sur les différents axes factoriels. Le nombre d'axes à retenir est un problème délicat et qui n'a pas de solution rigoureuse. Il n'y a pas de règle précise fixant un seuil à partir duquel on éliminerait l'analyse ou décidant du nombre d'axes à étudier ( en analyse des données, tout est affaire d'interprétation ). Souvent on tient compte de la forme de l'histogramme pour déterminer le nombre d'axes à interpréter : +--------+----------+----------------------------------------------------------------------------------+ NUMERO POURCENT. HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES CUMULE 2 axes factoriels +--------+----------+----------------------------------------------------------------------------------+ 1 63.03 ******************************************************************************** 2 93.23 *************************************** 3 98.54 ******* 4 100.00 ** +--------+----------+----------------------------------------------------------------------------------+ +--------+----------+----------------------------------------------------------------------------------+ NUMERO POURCENT. HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES CUMULE 3 axes factoriels +--------+- ---+----------------------------------------------------------------------------------+ 1 49.79 ******************************************************************************** 2 75.97 ************************************** 3 98.27 ********************************* 4 100.00 ******** +--------+----------+----------------------------------------------------------------------------------+ Pour rester intéressants, les axes doivent fournir une information plus importante que chaque variable initiale. On peut également retenir les axes dont le taux d'inertie (exprimé en %) serait à peu près égal à 100/p, où p est le nombre de variables actives initiales. Dans le cas d'une ACP normée, on retient les axes factoriels dont la valeur propre est supérieure à un. En effet en données centrées-réduites les variables initiales ont des variances égales à un et on cherche des combinaisons linéaires de variance maximale donc supérieures. - Les corrélations variables-facteurs permettent de donner un sens aux axes factoriels et de vérifier la qualité de représentation des variables dans les plans factoriels. Si une variable n'est corrélée avec aucun des axes d'un plan, on ne peut guère tenir compte de cette variable dans ce plan. On s interessera aux coefficients les plus forts en valeur absolue et proches de 1. - les valeurs-tests : Si l'on projette les modalités de variables qualitatives illustratives, les valeurs-tests constituent un indice de la qualité de représentation de ces modalités sur les plans factoriels. On considère que si la projection d'une modalité sur un axe est due au hasard, elle réalise une loi normale centrée réduite. Si la valeur-test est supérieure à 1.96 en valeur absolue sur au moins l'un des deux axes, on considère que cette projection n'est pas due au hasard et que l'on peut en tenir compte. Autrement dit, la position de cette modalité ( catégorie ) illustrative, dans le plan factorielle, est significativement différente de l'origine. - les cosinus carrés : Lorsque l'on étudie la représentation des individus, les cosinus carrés entre individus et axes factoriels permettent de déterminer les individus qui sont bien ou mals représentés dans chaque plan. Le plus simple est de fixer arbitrairement un seuil (0.4, 0.5 ou plus) et de ne tenir compte, dans une première phase d'interprétation, que des individus dont le cosinus carré dépasse ce seuil, avant de réintégrer progressivement les autres. - contribution : On retiendra que les individus dont la contribution à l'axe factoriel est au moins égale à la moyenne des valeurs des contributions sur cet axe. - Le graphique des variables ( cercle de corrélations dans le cas d'une ACP normée ) permet de visualiser les proximités entre variables en terme de corrélation. C'est une synthèse graphique de la matrice des corrélations des variables actives : les directions des variables donnent le sens des corrélations. La distance par rapport au centre du graphique visualise la qualité de représentation dans le plan ( plus une variable est proche du centre, plus mauvaise est sa représentation ). M2 : ECOSMA Analyse des Données - 9 -

- Le graphique des individus permet de visualiser les proximités entre individus qui s'interprétent en terme de similitudes de comportement vis-à-vis des variables. L'étude de la forme du nuage des individus permettra de distinguer d'éventuels regroupements et de différencier des individus ou des groupes d'individus selon leurs réponses à l'ensemble des variables actives. Remarques : La superposition de ces deux graphiques ( variables - individus ) est dénuée de sens car ces nuages de points ne font pas partie d'un même espace. Bien qu il existe une manière de représenter simultanément individus et variables appelée «biplot», nous préconisons de représenter séparément les deux ensembles pour éviter des confusions. Si les graphiques sont ce que l'on regarde en premier le plus souvent, il faut tenir compte des divers indicateurs qui permettent d'éviter les pièges de l'interprétation de ce qui ne constitue qu'un résumé des données. Rappelons que les éléments supplémentaires n interviennent pas dans les calculs de détermination des axes factoriels ; par contre, ils sont très utiles a posteriori pour conforter et enrichir l interprétation de ces axes. L interprétation interne consiste à étudier les résultats en se basant sur les variables et les individus actifs. L étude des éléments supplémentaires se fait à travers la phase d interprétation externe. 1.5 Exemple d'application 1.5.1 Données ( Principaux indicateurs économiques et financiers de UE-2000 ) On s'intérresse ici aux principaux indicateurs économiques et financiers des 15 pays de l Union Européenne. Source : Publication de la banque de France - 14 septembre 2001- Document disponible sur le site internet de la banque de France : (http://www.banque-france.fr/fr/stat/main.htm). En plus des variables caractéristiques de la population et du Produit Intérieur Brut, présentées dans le dictionnaire des variables, on distingue deux principaux thèmes ou groupes de variables continues. Le premier se réfère aux finances publiques, le second à l activité et l emploi. Le tableau suivant résument les principales variables retenues pour donner une description d ensemble des caractéristiques des 15 pays de l Union Européenne. Dictionnaire des variables --------------------------------------------------------------------------- 1. Etat membre ( 3 MODALITES ) AUTR - Autre ZNEU - Zone Non Euro ZEUR - Zone Euro-EUM 2. Population (%) UE-2000 ( CONTINUE ) POPU - Population (%) UE-2000 3. Produit Intérieur Brut (%) UE-2000 ( CONTINUE ) PIB - Produit Intérieur Br --------------------------------------------------------------------------- Thème Finances publiques 4. Recettes totales des APU en % du PIB ( CONTINUE ) RECE - Recettes totales des 5. Dépenses totales des APU en % du PIB ( CONTINUE ) DEPE - Dépenses totales des APU 6. Solde des finances publiques en % du PIB ( CONTINUE ) SDFP - Solde des finances publiques 7. Dette brute des APU en % du PIB ( CONTINUE ) DETB - Dette brute des APU --------------------------------------------------------------------------- Thème Activité-Emploi 8. Taux de chômage en % population active ( CONTINUE ) TCHO - Taux de chômage en % 9. Ventes au détail en volume (%) ( CONTINUE ) VENT - Ventes au détail en 10. Production industrielle hors bâtiment ( CONTINUE ) PIND - Production industrie 11. Taux de croissance en volume du PIB ( CONTINUE ) TCRO - Taux de croissance e --------------------------------------------------------------------------- M2 : ECOSMA Analyse des Données - 10 -

1.5.2 Résultats Dans cet exemple, l'objectif est de décrire les variables du thème finances publiques-2000 de l ensemble des 15 pays de l UE. A noter qu'on a considéré les variables continues du thème Activité-Emploi et la variable nominale Etat membre comme variables supplémentaires ainsi que les deux pays hors UE (Etats-Unis et Japon) comme individus supplémentaires. Les résultats numériques et graphiques sont les suivants : SELECTION DES INDIVIDUS ET DES VARIABLES UTILES VARIABLES NOMINALES ILLUSTRATIVES 1 VARIABLES 3 MODALITES ASSOCIEES ------------------------------------------------------------------------------------------------------------------------- 1. Etat membre ( 3 MODALITES ) ------------------------------------------------------------------------------------------------------------------------- VARIABLES CONTINUES ACTIVES 4 VARIABLES ------------------------------------------------------------------------------------------------------------------------- 4. Recettes totales des APU ( CONTINUE ) 5. Dépenses totales des APU ( CONTINUE ) 6. Solde des finances publiques ( CONTINUE ) 7. Dette brute des APU ( CONTINUE ) ------------------------------------------------------------------------------------------------------------------------- VARIABLES CONTINUES ILLUSTRATIVES 4 VARIABLES ------------------------------------------------------------------------------------------------------------------------- 8. Taux de chômage en % population active ( CONTINUE ) 9. Ventes au détail en volume (%) ( CONTINUE ) 10. Production industrielle hors bâtiment ( CONTINUE ) 11. Taux de croissance en volume du PIB ( CONTINUE ) ------------------------------------------------------------------------------------------------------------------------- INDIVIDUS ----------------------------- NOMBRE -------------- POIDS --------------- POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIF RETENUS... NITOT = 17 PITOT = 17.000 SELECTION APRES FILTRAGE ACTIFS... NIACT = 15 PIACT = 15.000 SUPPLEMENTAIRES... NISUP = 2 PISUP = 2.000 ------------------------------------------------------------------------- M2 : ECOSMA Analyse des Données - 11 -

ANALYSE EN COMPOSANTES PRINCIPALES STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : 15 POIDS TOTAL : 15.00 +-------------------------------------------------------+----------------------+----------------------+ NUM. IDEN - LIBELLE EFFECTIF POIDS MOYENNE ECART-TYPE MINIMUM MAXIMUM +-------------------------------------------------------+----------------------+----------------------+ 4. RECE - Recettes totales des 15 15.00 45.77 5.43 34.70 56.80 5. DEPE - Dépenses totales des 15 15.00 44.01 5.94 30.00 52.70 6. SDFP - Solde des finances p 15 15.00 1.37 2.66-1.50 6.70 7. DETB - Dette brute des APU 15 15.00 60.71 27.38 5.30 110.80 ------------------------------------------------------- ---------------------- ----------------------- 8. TCHO - Taux de chômage en % 14 14.00 6.53 3.45 2.60 14.10 9. VENT - Ventes au détail en 15 15.00 3.91 2.51-0.40 9.10 10. PIND - Production industrie 15 15.00 5.96 3.72 0.00 15.40 11. TCRO - Taux de croissance e 15 15.00 4.46 2.33 2.90 11.50 +-------------------------------------------------------+----------------------+----------------------+ MATRICE DES CORRELATIONS RECE DEPE SDFP DETB -----+---------------------------- RECE 1.00 DEPE 0.89 1.00 SDFP 0.11-0.32 1.00 DETB 0.17 0.43-0.59 1.00 -----+---------------------------- RECE DEPE SDFP DETB MATRICE DES VALEURS-TESTS RECE DEPE SDFP DETB -----+---------------------------- RECE 99.99 DEPE 5.58 99.99 SDFP 0.43-1.27 99.99 DETB 0.68 1.77-2.64 99.99 -----+---------------------------- RECE DEPE SDFP DETB VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION.. 4.0000 SOMME DES VALEURS PROPRES... 4.0000 HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+------------------------------------------------------------+ NUMERO VALEUR POURCENT. POURCENT. PROPRE CUMULE +--------+------------+----------+----------+------------------------------------------------------------+ 1 2.2063 55.16 55.16 ************************************************************ 2 1.3907 34.77 89.93 *************************************** 3 0.3909 9.77 99.70 *********** 4 0.0121 0.30 100.00 * +--------+------------+----------+----------+------------------------------------------------------------+ COORDONNEES DES VARIABLES SUR LES AXES 1 A 4 VARIABLES ACTIVES ----------------------------+------------------------------------+-------------------------------+------------------------------- VARIABLES COORDONNEES CORRELATIONS VARIABLE-FACTEUR ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN - LIBELLE COURT 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 ----------------------------+------------------------------------+-------------------------------+------------------------------- RECE - Recettes totales des -0.75-0.66 0.01-0.07 0.00-0.75-0.66 0.01-0.07 0.00-0.50-0.56 0.02-0.66 0.00 DEPE - Dépenses totales des -0.94-0.30-0.15 0.08 0.00-0.94-0.30-0.15 0.08 0.00-0.63-0.25-0.23 0.69 0.00 SDFP - Solde des finances p 0.52-0.76 0.38 0.03 0.00 0.52-0.76 0.38 0.03 0.00 0.35-0.65 0.61 0.29 0.00 DETB - Dette brute des APU -0.70 0.54 0.47 0.00 0.00-0.70 0.54 0.47 0.00 0.00-0.47 0.46 0.76-0.01 0.00 ----------------------------+------------------------------------+-------------------------------+------------------------------- M2 : ECOSMA Analyse des Données - 12 -

Représentation des variables actives Finances publiques Cercle de corrélation COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS INDIVIDUS ACTIFS (AXES 1 A 4) +---------------------------------------+-------------------------------+--------------------------+--------------------------+ INDIVIDUS COORDONNEES CONTRIBUTIONS COSINUS CARRES ---------------------------------------+-------------------------------+--------------------------+-------------------------- IDENTIFICATEUR P.REL DISTO 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ France 6.67 3.17-1.48-0.15-0.97 0.06 0.00 6.7 0.1 16.0 1.8 0.0 0.70 0.01 0.30 0.00 0.00 Allemagne 6.67 1.26-0.13 0.88-0.63-0.28 0.00 0.0 3.7 6.8 42.7 0.0 0.01 0.61 0.31 0.06 0.00 Autriche 6.67 1.24-0.80 0.42-0.65 0.07 0.00 2.0 0.8 7.1 2.8 0.0 0.52 0.14 0.34 0.00 0.00 Belgique 6.67 3.91-1.47 0.91 0.95 0.03 0.00 6.6 4.0 15.5 0.6 0.0 0.55 0.21 0.23 0.00 0.00 Espagne 6.67 2.53 0.93 1.28-0.19-0.04 0.00 2.6 7.8 0.6 1.0 0.0 0.34 0.64 0.01 0.00 0.00 Finlande 6.67 5.09 0.61-2.02 0.79-0.01 0.00 1.1 19.6 10.7 0.0 0.0 0.07 0.80 0.12 0.00 0.00 Grèce 6.67 4.88-2.06 0.65 0.41 0.16 0.00 12.9 2.0 2.8 14.5 0.0 0.87 0.09 0.03 0.01 0.00 Irlande 6.67 11.91 3.33 0.57 0.70 0.08 0.00 33.5 1.5 8.3 3.7 0.0 0.93 0.03 0.04 0.00 0.00 Italie 6.67 3.67-1.14 1.18 0.97-0.19 0.00 3.9 6.7 16.0 20.5 0.0 0.36 0.38 0.26 0.01 0.00 Luxembourg 6.67 7.17 2.15-1.54-0.41-0.08 0.00 14.0 11.4 2.9 3.2 0.0 0.64 0.33 0.02 0.00 0.00 Pays-bas 6.67 0.45 0.65 0.04 0.16 0.05 0.00 1.3 0.0 0.5 1.4 0.0 0.93 0.00 0.06 0.01 0.00 Portugal 6.67 2.35 0.52 1.24-0.73 0.09 0.00 0.8 7.4 9.1 4.8 0.0 0.11 0.66 0.23 0.00 0.00 Danemark 6.67 3.14-0.92-1.47-0.39 0.00 0.00 2.6 10.3 2.5 0.0 0.0 0.27 0.68 0.05 0.00 0.00 Royaume-Uni 6.67 1.86 1.32 0.26-0.19 0.07 0.00 5.3 0.3 0.6 2.7 0.0 0.94 0.04 0.02 0.00 0.00 Suède 6.67 7.36-1.50-2.25 0.17-0.02 0.00 6.8 24.3 0.5 0.3 0.0 0.31 0.69 0.00 0.00 0.00 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ Représentation des individus actifs (pays UE-15) Premier plan principal M2 : ECOSMA Analyse des Données - 13 -

VARIABLES ILLUSTRATIVES ----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN - LIBELLE COURT 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 ----------------------------+------------------------------------+-------------------------------+------------------------------- POPU - Population (%) UE-20-0.14 0.42-0.26-0.55 0.00-0.14 0.42-0.26-0.55 0.00 PIB - Produit Intérieur Br -0.03 0.25-0.33-0.60 0.00-0.03 0.25-0.33-0.60 0.00 TCHO - Taux de chômage en % -0.26 0.27 0.14-0.45 0.00-0.26 0.27 0.14-0.45 0.00 VENT - Ventes au détail en 0.21-0.05 0.33 0.63 0.00 0.21-0.05 0.33 0.63 0.00 PIND - Production industrie 0.25-0.30 0.41-0.04 0.00 0.25-0.30 0.41-0.04 0.00 TCRO - Taux de croissance e 0.76-0.18 0.27 0.12 0.00 0.76-0.18 0.27 0.12 0.00 ----------------------------+------------------------------------+-------------------------------+------------------------------- Représentation des variables illustratives Premier plan principal INDIVIDUS ILLUSTRATIFS (AXES 1 A 4) +---------------------------------------+-------------------------------+--------------------------+--------------------------+ INDIVIDUS COORDONNEES CONTRIBUTIONS COSINUS CARRES ---------------------------------------+-------------------------------+--------------------------+-------------------------- IDENTIFICATEUR P.REL DISTO 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ Etats-Unis 6.67 12.98 3.02 1.84 0.68 0.11 0.00 0.0 0.0 0.0 0.0 0.0 0.70 0.26 0.04 0.00 0.00 Japon 6.67 15.07-1.59 3.54-0.11 0.11 0.00 0.0 0.0 0.0 0.0 0.0 0.17 0.83 0.00 0.00 0.00 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ COORDONNEES ET VALEURS-TEST DES MODALITES AXES 1 A 4 +---------------------------------------------+-------------------------------+------------------------------------+----------+ MODALITES VALEURS-TEST COORDONNEES --------------------------------------------- ------------------------------- ------------------------------------ ---------- IDEN - LIBELLE EFF. P.ABS 1 2 3 4 0 1 2 3 4 0 DISTO. +---------------------------------------------+-------------------------------+------------------------------------+----------+ 1. Etat membre AUTR - Autre 0 0.00 0.0 0.0 0.0 0.0 0.0 0.00 0.00 0.00 0.00 0.00 0.00 ZNEU - Zone Non Euro 3 3.00-0.5-1.8-0.4 0.3 0.0-0.37-1.15-0.13 0.02 0.00 1.48 ZEUR - Zone Euro 12 12.00 0.5 1.8 0.4-0.3 0.0 0.09 0.29 0.03 0.00 0.00 0.09 +---------------------------------------------+-------------------------------+------------------------------------+----------+ Représentation des individus illustratifs sur le premier plan principal Modalités de la variable nominale Etat membre M2 : ECOSMA Analyse des Données - 14 -

1.5.3 Quelques interprétations des résultats Les tableaux des statistiques sommaires et des corrélations des variables "finances publiques des 15 pays de l UE" nous fournissent les premières informations : - Statistiques descriptives ( moyenne, écart-type, minimum, maximum ) des variables actives et illustratives continues. - lorsque l'ordre de grandeur des variances des variables actives et/ou les unités de mesure de ces variables sont différentes, il est dès lors indispensable de normer les données c est-à-dire choisir une ACP normée. - la variable Recettes totales des APU 3 est fortement corrélée positivement avec la variable Dépenses totales des APU alors que la variable Solde des finances publiques est corrélée négativement avec la variable Dette brut des APU. La matrice des valeurs-tests présente les résultats des tests statistiques des coefficients de corrélation des variables actives. - Seuls les deux premiers facteurs significatifs de l analyse sont conservés. Les taux d'inertie expliquée correspondent à 55,16% et 34,77% de l'information globale représentée respectivement par le premier et deuxième facteur. Le plan constitué de ces deux facteurs principaux décrit environ 90% de l'information totale contenue dans les quatre variables actives initiales. Représentation graphique des variables finances publiques: Le graphique "cercle de corrélations" donne une représentation des caractéristiques finances publiques des 15 pays de l UE sur les deux premiers axes factoriels. Les données étant ici centrées réduites, les coordonnées de ces caractéristiques sur les axes sont les coefficients de corrélations entre les variables et les composantes principales. Ainsi, sur le premier plan principal, - le premier facteur est corrélé négativement avec les dépenses, les recettes et la dette brute des APU, et positivement avec le solde des finances publiques. - le deuxième facteur est significativement corrélé négativement avec le solde des finances publiques et les recettes, et positivement avec la dette brut des APU. Seule la variable illustrative "Taux de croissance en volume du PIB" du thème Activité-Emploi qui a été projetée a posteriori dans le plan factoriel, est corrélée avec le premier axe factoriel. Représentation graphique des individus ( pays de l UE-15 ) : L interprétation interne de la représentation des individus s effectue toujours à partir de celle des variables actives. Ainsi, relativement à l ensemble des pays de l UE et sur le premier plan factoriel, - le premier facteur oppose les pays dont les recettes, les dépenses et la dette brute sont élevées avec un solde des finances publiques significativement faible c est le cas de la Grèce, Suède, France ou encore de la Belgique, aux pays comme l Irlande et le Luxembourg dont le solde des finances publiques est élevé alors que les recettes, les dépenses et la dette brute sont significativement faibles. De plus, ces pays ont plutôt un taux de croissance en volume du PIB élevé par rapport à celui de l ensemble des pays de l UE ( interprétation externe variables illustratives ). - Quant au deuxième facteur, il oppose les pays ayant un solde des finances publiques et des recettes significativement élevés et une faible dette brute des APU ( Suède, Finlande, Luxembourg et le Danemark ), aux pays caractérisés par une dette brute importante et un solde des finances publiques et des recettes faibles c est le cas notamment de l Espagne, de l Italie et du Portugal. L origine ( fictive ) des axes représente un pays qui aurait pour caractéristique finances publiques la moyenne des quatre variables actives étudiées. 3 APU - Administrations publiques : Ensemble des unités institutionnelles dont la fonction principale est de produire des services non marchands ou d effectuer des opérations de redistribution du revenu et des richesses nationales. Elles tirent la majeure partie de leurs ressources de contributions obligatoires. Le secteur des administrations publiques comprend les administrations publiques centrales, les administrations publiques locales et les administrations de sécurité sociale. M2 : ECOSMA Analyse des Données - 15 -

2 Analyse Factorielle des Correspondances Le domaine d'application de l'analyse Factorielle des Correspondances 4 (AFC), développée par Benzécri (1969), est différent de celui de l'acp. Alors que cette dernière s'applique aux tableaux de mesures et au traitement de données quantitatives, l'afc est une méthode adaptée à la description d'un tableau de contingence et permet d'étudier les éventuelles relations existant entre les deux variables qualitatives de ce tableau. Le tableau de contingence ou de dépendance est un tableau croisé des effectifs des modalités de deux variables qualitatives ou nominales. La validité de l'afc s'étend à tout tableau de données à condition que les données recensées dans ce tableau soient toutes positives et homogènes. On peut ainsi traiter des tableaux de mesures exprimées dans la même unité, des tableaux d'échanges, tableaux de notes, tableaux de rangs, etc.. 2-1 Objectif de la méthode Décrire la dépendance entre deux variables qualitatives ( nominales ). L'observation de deux caractères qualitatifs sur un ensemble d'individus permet de construire un tableau de contingence. Par exemple, pour les 81491 créateurs-repreneurs d entreprises, créées ou reprises au cours du premier semestre 1994 ( Source : Insee - Les Créations d entreprises du premier semestre 1994 - Système productif n 97-98 - mars 96 ), si on veut décrire les éventuels liens entre les secteurs d'activités et les qualifications professionnelles du dernier emploi, le tableau ci-dessous donne la répartition des 81491 créateurs-repreneurs d entreprises selon ces deux caractères. Secteur Qualification professionnelle du dernier emploi d activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total I.Agro.Alimentaire 291 129 112 508 529 148 1717 Industrie 1109 1250 773 1528 1195 570 6425 Construction 1186 1011 1011 1956 4482 1107 10753 Commerce 4865 4316 3316 7927 3275 3928 27627 Transport 401 337 256 1247 557 312 3110 H.C.Restaurants 1374 684 528 3095 859 1083 7623 Serv. Entreprises 2833 5382 1654 3179 387 1670 15105 Serv. Ménages 1306 1117 1655 3265 560 1228 9131 Total 13365 14226 9305 22705 11844 10046 81491 Tableau de contingence Peut-on donner une réponse graphique à la question : Est-il raisonnable de penser qu'il existe une liaison ( correspondance ) entre les secteurs d'activités des entreprises créées-reprises et la qualification professionnelle du créateur-repreneur? Remarquons tout d'abord qu'un tableau de contingence peut se lire de deux manières différentes : selon ses lignes ou selon ses colonnes. On peut répondre à la question posée en appliquant les principes de l'analyse en Composantes Principales. L'AFC se présente alors comme 2 ACP particulières selon que l'on s'intéresse aux lignes ( secteurs d activités ) ou aux colonnes (qualification professionnelle) du tableau de contingence. 2.1.1 Première analyse : ACP des profils-lignes ( secteurs d activités ) Si on s'intéresse aux secteurs d activités des entreprises créées-reprises, on construit le tableau des profils-lignes en ramenant le total ligne du tableau de contingence à 1 (100%), on évite ainsi les effets de marges. On détermine ainsi pour chaque secteur d activité la répartition des créateurs-repreneurs selon la qualification professionnelle de leur dernier emploi. Par exemple, c est dans le secteur de la construction que les ouvriers (41.68%) ont créé ou repris le plus d entreprises que tous les autres ou encore ce sont les cadres (9.40%) qui ont créé ou repris le moins d entreprises dans ce secteur (interprétation par rapport au profil moyen : tous secteurs d activités confondus). 4 Factorial Correspondence Analysis (FCA). M2 : ECOSMA Analyse des Données - 16 -

Secteur Qualification professionnelle du dernier emploi Activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif Total I.Agro.Alimentaire 16.95 7.51 6.52 29.59 30.81 8.62 100 Industrie 17.26 19.46 12.03 23.78 18.60 8.87 100 Construction 11.03 9.40 9.40 18.19 41.68 10.29 100 Commerce 17.61 15.62 12.00 28.69 11.85 14.22 100 Transport 12.89 10.84 8.23 40.10 17.91 10.03 100 H.C.Restaurants 18.02 8.97 6.93 40.60 11.27 14.21 100 Serv. Entreprises 18.76 35.63 10.95 21.05 2.56 11.06 100 Serv. Ménages 14.30 12.23 18.13 35.76 6.13 13.45 100 Profil moyen 16.40 17.46 11.42 27.86 14.53 12.33 Tableau des profils-lignes (%) Nous allons considérer les lignes de ce tableau comme des individus et les colonnes comme des caractères. On fait ensuite l'acp de ce tableau avec une métrique particulière, (métrique du Khi²) pour calculer les distances entre profils, et des poids proportionnels aux effectifs des lignes. Cela revient en fait à procéder comme pour l'acp normée en remplaçant la matrice des coefficients de corrélation linéaire par une matrice adaptée aux caractères qualitatifs. On obtient ainsi une analyse et des représentations graphiques des secteurs d activités dans des plans factoriels appropriés. 2.1.2 Deuxième analyse : ACP des profils-colonnes ( qualification professionnelle ) Si on veut s'intéresser aux qualifications professionnelles des créateurs-repreneurs, on construit le tableau des profils-colonnes en ramenant le total colonne du tableau de contingence à 1 (100%). Secteur Qualification professionnelle du dernier emploi profil Activité A.C.C.Entps. Cadre P.Interméd Employé Ouvrier E.S.Qualif moyen I.Agro.Alimentaire 2.18 0.91 1.20 2.24 4.67 1.47 2.11 Industrie 8.30 8.79 8.31 6.73 10.09 5.67 7.88 Construction 8.87 7.11 10.87 8.61 37.84 11.02 13.20 Commerce 36.40 30.34 35.64 34.91 27.65 39.10 33.90 Transport 3.00 2.37 2.75 5.49 4.70 3.11 3.82 H.C.Restaurants 10.28 4.81 5.67 13.63 7.25 10.78 9.35 Serv. Entreprises 21.20 37.83 17.77 14.00 3.27 16.62 18.54 Serv. Ménages 9.77 7.85 17.79 14.38 4.73 12.22 11.20 Total 100 100 100 100 100 100 100 Tableau des profils-colonnes (%) On peut ainsi savoir pour chaque catégorie professionnelle comment se répartissent les secteurs d activités des entreprises créées-reprises. Ainsi, on constate que les cadres ont créé ou repris plus d entreprises dans les secteurs des services aux entreprises (37.83%) et de l industrie (8.79%), et moins dans les autres secteurs (interprétation par rapport au profil moyen : toutes qualifications confondues). On procède de la même façon avec le tableau des profils-colonnes en prenant les colonnes pour individus et les lignes pour caractères. On obtient ainsi une analyse et une représentation graphique des qualifications professionnelles. Remarques : 1- La mise en correspondance et le rôle symétrique que fait jouer la métrique du Khi² pour les modalités lignes et colonnes du tableau de contingence, fait que l'acp des profils-lignes est équivalente à l'acp des profils-colonnes : les composantes principales d'une analyse se déduisent de celles de l'autre et les valeurs propres des deux analyses sont identiques. 2- Le nombre d'axes factoriels est toujours inférieur ou égal au min(p-1, q-1) où p et q sont les nombres de modalités des deux caractères qualitatifs. 3- Dans la pratique, on effectue qu'une seule des 2 ACP, les résultats de l'autre analyse se déduisent par des formules de transition. Il est possible de superposer les graphiques (moyennant un changement d'échelle) des 2 ACP pour visualiser, dans les plans factoriels, les liaisons entre les profils-lignes et les profils-colonnes ( représentation simultanée ). 4- Les principes de représentation et les indices de qualité associés dans le cadre de l'analyse en Composantes Principales restent inchangés. M2 : ECOSMA Analyse des Données - 17 -

2.2 Exemple - Résultats 2.2.1 Données ( Les créations-reprises d'entreprises ) Enquête réalisée par l'insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier semestre 1991. Nous avons soumis à l'analyse des correspondances le tableau de contingence donnant la qualification professionnelle et le secteur d'activité des 81491 créateurs-repreneurs d'entreprises. 2.2.2 Interprétation de quelques résultats Les résultats et les règles de lecture des représentations graphiques de cette méthode demandent à être interprétés avec prudence. Les deux tableaux de profils permettent de répondre aux questions suivantes : Tableau des profils-lignes : "Quelle est la qualification professionnelle du dernier emploi du créateur ou repreneur de chaque secteur d'activité? Tableau des profils-colonnes : "Quel est le secteur d'activité des entreprises créées ou reprises par chaque qualification professionnelle? La proximité entre deux points "secteur d'activité" signifiera une similitude des profils "qualification professionnelle. Il en est ainsi pour les hôtels-cafés-restaurants et les services aux ménages, par exemple (cf. tableau des profils-lignes). La proximité entre deux points "qualification professionnelle" signifiera une similitude des profils "secteur d'activité". C'est ce que l'on constate pour les professions intermédiaires et les artisans-commerçants-chefs d'entreprise (cf. tableau des profils-colonnes). La proximité entre les hôtels-cafés-restaurants et les services aux ménages s'explique notamment par le fait que dans ces deux secteurs, la proportion d'entreprises créées ou reprises par les employés (13.63%, M2 : ECOSMA Analyse des Données - 18 -

14.38%) est supérieure à la moyenne (9.35%, 11.20%), et une proportion d'entreprises créées ou reprises par les cadres (4.81%, 7.85%) inférieure à la moyenne. Enfin, on notera que les proximités entre profils s'interprètent toujours par référence au profil moyen, et que les proximités les plus aisées à interpréter se situent toujours à la périphérie du graphique. Analyse de la dépendance L Analyse Factorielle des Correspondances (AFC) de la table de contingence conduit à cinq axes factoriels représentant toute l information à résumer c est-à-dire l association symétrique, entre les qualifications professionnelles et les secteurs d activité des créateurs et repreneurs d entreprises, mesurée par le phi-deux de Pearson ( ² = 0.1794). Dans le cas de l indépendance des deux variables, hypothèse d indépendance des lignes et des colonnes du tableau de contingence ci-dessous, la mesure de l association serait une réalisation d un khi-deux de Pearson à 35 degrés de liberté ( KHI2 = 14619.49 ), noté ², dont la relation est ² = ² calculé calculé / n, où n = 81491 entreprises désigne la taille de l échantillon. L hypothèse d indépendance est évidemment rejetée vu que PROBA ( KHI2 > 14619.49 ) = 0.0001 < 5% (risque d erreur). EDITION DU TABLEAU CROISE TABLEAU 1 EN LIGNE : Secteur d activité POIDS TOTAL : 81491 EN COLONNE : Qualification professionnelle du dernier emploi POIDS A.C.C.Entps. Cadre P.Intermédia Employé Ouvrier E.S.Qualific ENSEMBLE % COLONNE % LIGNE ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 291 129 112 508 529 148 1717 I.Agro.Alimentaire 2.18 0.91 1.20 2.24 4.67 1.47 2.11 16.95 7.51 6.52 29.59 30.81 8.62 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 1109 1250 773 1528 1195 570 6425 Industrie 8.30 8.79 8.31 6.73 10.09 5.67 1 7.88 17.26 19.46 12.03 23.78 18.60 8.87 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 1186 1011 1011 1956 4482 1107 10753 Construction 8.87 7.11 10.87 8.61 37.84 11.02 13.20 11.03 9.40 9.40 18.19 41.68 10.29 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 4865 4316 3316 7927 3275 3928 27627 Commerce 36.40 30.34 35.64 34.91 27.65 39.10 33.90 17.61 15.62 12.00 28.69 11.85 14.22 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 401 337 256 1247 557 312 3110 Transport 3.00 2.37 2.75 5.49 4.70 3.11 3.82 12.89 10.84 8.23 40.10 17.91 10.03 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 1374 684 528 3095 859 1083 7623 H.C.Restaurants 10.28 4.81 5.67 13.63 7.25 10.78 9.35 18.02 8.97 6.93 40.60 11.27 14.21 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 2833 5382 1654 3179 387 1670 15105 Serv. Entreprises 21.20 37.83 17.77 14.00 3.27 16.62 18.54 18.76 35.63 10.95 21.05 2.56 11.06 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 1306 1117 1655 3265 560 1228 9131 Serv. Menages 9.77 7.85 17.79 14.38 4.73 12.22 11.20 14.30 12.23 18.13 35.76 6.13 13.45 100.00 ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+-------------- 13365 14226 9305 22705 11844 10046 81491 ENSEMBLE 100.00 100.00 100.00 100.00 100.00 100.00 100.00 16.40 17.46 11.42 27.86 14.53 12.33 100.00 ------------------------------------------------------------------------------------------------------------ KHI2 = 14619.49 / 35 DEGRES DE LIBERTE / 0 EFFECTIFS THEORIQUES INFERIEURS A 5 PROBA ( KHI2 > 14619.49 ) = 0.000 / V.TEST = 99.10 ------------------------------------------------------------------------------------------------------------ ANALYSE DES CORRESPONDANCES BINAIRES VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION.. 0.1794 SOMME DES VALEURS PROPRES... 0.1794 HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+ NUMERO VALEUR POURCENT. POURCENT. PROPRE CUMULE +--------+------------+----------+----------+----------------------------------------------------------------------------------+ 1 0.1244 69.33 69.33 ******************************************************************************** 2 0.0442 24.65 93.97 ***************************** 3 0.0075 4.19 98.16 ***** 4 0.0025 1.41 99.57 ** 5 0.0008 0.43 100.00 * +--------+------------+----------+----------+----------------------------------------------------------------------------------+ M2 : ECOSMA Analyse des Données - 19 -

COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 5 FREQUENCES ACTIVES +------------------------------------------+-------------------------------+--------------------------+--------------------------+ FREQUENCES COORDONNEES CONTRIBUTIONS COSINUS CARRES ------------------------------------------+-------------------------------+--------------------------+-------------------------- IDEN - LIBELLE COURT P.REL DISTO 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 +------------------------------------------+-------------------------------+--------------------------+--------------------------+ ACCE - A.C.C.ENTREPRISE 16.40 0.02 0.13 0.00 0.06 0.06 0.05 2.1 0.0 6.6 20.5 54.4 0.64 0.00 0.12 0.13 0.10 CADR - CADRES 17.46 0.28 0.39 0.36 0.02-0.03-0.01 21.1 49.8 1.3 5.8 4.5 0.54 0.45 0.00 0.00 0.00 PINT - PROF.INTERMEDIAIRE 11.42 0.07 0.09-0.06-0.23-0.02 0.02 0.7 0.8 82.3 1.3 3.4 0.12 0.05 0.83 0.00 0.00 EMPL - EMPLOYES 27.86 0.06 0.04-0.24 0.05-0.05-0.01 0.4 36.7 9.3 24.7 1.1 0.03 0.90 0.04 0.03 0.00 OUVR - OUVRIERS 14.53 0.67-0.80 0.17 0.01-0.01 0.00 75.4 9.5 0.1 0.4 0.0 0.96 0.04 0.00 0.00 0.00 ESQU - E.SQUALIFICATION 12.33 0.03 0.05-0.11-0.01 0.10-0.05 0.2 3.2 0.3 47.3 36.6 0.09 0.44 0.01 0.37 0.09 +------------------------------------------+-------------------------------+--------------------------+--------------------------+ COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS AXES 1 A 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ INDIVIDUS COORDONNEES CONTRIBUTIONS COSINUS CARRES ---------------------------------------+-------------------------------+--------------------------+-------------------------- IDENTIFICATEUR P.REL DISTO 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ IAAlimentaire 2.11 0.27-0.49-0.02 0.14-0.04 0.09 4.1 0.0 5.4 1.1 21.5 0.89 0.00 0.07 0.00 0.03 Industrie 7.88 0.03-0.08 0.13-0.02-0.04 0.07 0.4 3.0 0.4 5.0 57.7 0.19 0.56 0.01 0.05 0.19 Construction 13.20 0.60-0.75 0.21-0.03 0.00-0.02 59.1 13.2 1.5 0.0 9.9 0.92 0.07 0.00 0.00 0.00 Commerce 33.90 0.01 0.05-0.07-0.01 0.06 0.00 0.7 4.1 0.9 41.6 0.1 0.23 0.48 0.02 0.28 0.00 Transport 3.82 0.11-0.16-0.20 0.12-0.16-0.03 0.8 3.6 7.6 36.7 5.5 0.23 0.39 0.14 0.23 0.01 HCRestaurants 9.35 0.13-0.01-0.31 0.17 0.00-0.01 0.0 20.8 38.0 0.1 0.7 0.00 0.76 0.24 0.00 0.00 S.Entreprises 18.54 0.31 0.47 0.30 0.03-0.02-0.01 32.8 36.7 2.1 2.3 4.0 0.71 0.28 0.00 0.00 0.00 S.Ménages 11.20 0.13 0.15-0.27-0.17-0.05-0.01 2.2 18.5 44.1 13.3 0.6 0.18 0.56 0.23 0.02 0.00 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ Créateurs / Repreneurs d entreprises Qualification Activité de l entreprise Représentation de l association Premier plan principal Représentation graphique La dépendance entre le secteur d'activité et la qualification professionnelle du dernier emploi peut être décrite par le premier plan principal qui résume environ 94% de l'information globale. - Le premier axe oppose les secteurs de la construction et de l'industrie agroalimentaire, caractéristiques des ouvriers, au secteur des services aux entreprises représentatif des cadres. - Quant au deuxième axe, il oppose les employés qui ont le plus créé ou repris d'entreprises dans les services aux ménages et les hôtels-cafés-restaurants, aux cadres qui caractérisent les entreprises créées ou reprises dans le secteur des services auprès des entreprises. Enfin, pour éviter des interprétations abusives de proximités graphiques illusoires, comme en Analyse en Composantes Principales, il est recommandé de consulter le tableau des contributions "contributions absolues" et le tableau des cosinus carrés des angles entre les points et avec les axes factoriels "contributions relatives". M2 : ECOSMA Analyse des Données - 20 -

3 Analyse Factorielle des Correspondances Multiples L'analyse de plus de deux variables qualitatives s'effectue à l'aide d'une extension de l'afc que l'on appelle Analyse Factorielle des Correspondances Multiples 5 (AFCM ou ACM). C'est l'une des méthodes les plus utilisées en analyse des données, ses principaux domaines d'applications sont le traitement des questionnaires et l'exploitation des enquêtes par sondages. Du point de vue de l'analyse des données une variable qualitative est une question; ses modalités sont les différentes réponses possibles. Les variables utilisées sont nécessairement qualitatives. Cependant, il est toujours possible de transformer une variable quantitative en une variable qualitative ordinale ( classes d'âges, tranches de salaires, etc. ). Il est possible de positionner des variables continues en élément supplémentaire ( sans transformation au préalable en variable qualitative par découpage en classes ). 3.1 Objectif de la méthode Décrire et étudier les liaisons entre plusieurs variables qualitatives. L'AFCM consiste à effectuer une Analyse Factorielle des Correspondances sur un tableau disjonctif complet ( logique ) ou à un tableau de Burt. Le tableau de Burt est calculé directement à partir du codage condensé ou disjonctif complet. On trouve dans ce tableau tous les tableaux de contingence croisant les variables deux à deux. Sur la diagonale se trouvent les variables croisées avec elles-mêmes, et donc les effectifs correspondant à chaque modalité. Par exemple, dans l'enquête portant sur les créations d'entreprises au cours du premier semestre 1991, on a relevé six variables qualitatives ( questions ) totalisant 29 modalités. ( Source : Insee - Les Créations d entreprises du 1 er semestre 1994 - Système productif n 97-98 - mars 96 ). Tableau disjonctif complet (logique) : Individu -25 ans 25-39 40ans+ homme femme......... s.entps s.ména I001 1 0 0 0 1 0 0 0 0 1 I002 0 1 0 0 0 0 0 1 0 0....................... I81491 0 0 1 0 0 1 0 0 1 0 Tableau de Burt : -25 ans 25-39 40ans+ homme femme......... s.entps s.ména -25ans 7019 0 0 4778 2241......... 749 1103 25-39 0 42678 0 30307 12371......... 7900 5069 40ans+ 31794 21657 10137...... 6456 2959 homme 56742 0......... 10572 4536 femme 24749......... 4533 4595....................................... 0 0 s.entps 15105 0 s.ména 9131 On peut montrer que les résultats de l'afcm obtenus à partir d'un tableau disjonctif ou d'un tableau de Burt, considéré comme un tableau de données, sont équivalents. Pour des raisons évidentes d'économie de calcul, les logiciels utilisent généralement le tableau de Burt. 5 Multiple «Factorial» Correspondence Analysis (MCA). M2 : ECOSMA Analyse des Données - 21 -

3.2 Exemple - Résultats 3.2.1 Données ( Source : Insee - Les Créations d entreprises du premier semestre 1994 - Système productif n 97-98 - mars 96 ). Enquête réalisée par l'insee auprès de 81491 créateurs-repreneurs d'entreprises au cours du premier semestre 1991. Nous avons soumis à l'analyse des correspondances multiples six variables qualitatives ( questions ), quatre actives et deux illustratives, totalisant 29 modalités (19 actives et 10 illustratives). Variables actives : Classes d'âge des créateurs-repreneurs ( moins de 25 ans, entre 25 et 39 ans, 40 ans et plus ) Sexe ( homme, femme ) Qualification professionnelle ( artisan/commerçant/chef entreprise, cadre, prof.intermédiaire, employé, ouvrier, étudiant/sans qualification ) Diplôme le plus élevé ( pas diplôme/cep, bepc, cap/bep, bac technique, bac général, bts/dut, deug/équivalent, bac+3 et plus ) Variables illustratives : Situation préalable ( actif, chômeur/non actif ) Secteurs d'activités ( industrie agro-alimentaire, industrie, construction, commerce, transport, hôtel/café/restaurant, services aux entreprises, services aux ménages ) Les variables actives utilisées dans cet exemple représentent la signalétique des créateurs-repreneurs d'entreprises ( classes d'âges, sexe, qualification professionnelle, diplôme le plus élevé ). En général, ces questions décrivent plus ou moins objectivement les créateurs-repreneurs. Les deux autres variables ( situation préalable, secteurs d'activités des entreprises créées ou reprises ), constituant le sujet même de l'enquête, sont représentés en éléments supplémentaires ou illustratifs. M2 : ECOSMA Analyse des Données - 22 -

Remarques : - Il serait maladroit de mélanger, par exemple, des informations de type socio-économique ( âge, sexe, profession, etc. ) et des opinions ou des comportements. Comment interpréterait-on alors la proximité entre deux individus? Si deux individus sont éloignés, est-ce à cause de leurs opinions différentes ou parce qu'ils ont des profils socio-économiques opposés? - On notera que l'analyse exploratoire met en jeu de façon essentielle les dépendances entre les questions actives. Par contre les variables illustratives ( qualitatives ou quantitatives ) sont introduites l'une après l'autre, sans tenir compte de leur éventuelle dépendance. 3.3.2 Résultats et interprétation ANALYSE DES CORRESPONDANCES BINAIRES VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION.. 1.0011 SOMME DES VALEURS PROPRES... 1.0011 HISTOGRAMME DES 15 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+ NUMERO VALEUR POURCENT. POURCENT. PROPRE CUMULE +--------+------------+----------+----------+----------------------------------------------------------------------------------+ 1 0.1463 14.61 14.61 ******************************************************************************** 2 0.1232 12.31 26.92 ************************************************************************** 3 0.0883 9.82 36.74 *************************************************************** 4 0.0832 8.31 45.05 *********************************************************** 5 0.0708 7.07 52.12 *************************************************** 6 0.0644 6.43 58.55 ************************************************* 7 0.0627 6.26 64.82 ************************************************ 8 0.0625 6.25 71.06 *********************************************** 9 0.0587 5.86 76.92 ********************************************** 10 0.0563 5.62 82.55 ********************************************* 11 0.0507 5.06 87.61 **************************************** 12 0.0477 4.77 92.37 ***************************** 13 0.0362 3.61 95.99 *********************** 14 0.0252 2.52 98.51 ***************** 15 0.0149 1.49 100.00 *********** +--------+------------+----------+----------+----------------------------------------------------------------------------------+ Compte tenu de la nature particulière du tableau disjonctif qui conduit à un nuage très éparpillé, les pourcentages d'information apportés par chaque axe sont en général très faibles ce qui surprend le néophyte. Il n'y a là rien d'inquiétant mais cela rend un peu plus délicat le choix du nombre pertinent d'axes factoriels à retenir. Les règles de lecture sont semblables à celles de l'afc. Seuls les calculs de contributions cumulées pour les modalités de chaque question active ont été ajoutés. D après les résultats graphiques et numériques précédents, on interprétera l analyse des deux premiers facteurs en s aidant des tableaux des contributions et des cosinus carrés. Le premier plan factoriel résume environ 27% de la dépendance entre les caractères signalétiques des créateurs-repreneurs, elle peut être interprétée de la façon suivante : - Le premier axe caractérise surtout la qualification professionnelle du dernier emploi des créateursrepreneurs ainsi que leurs diplômes, il oppose les jeunes ouvriers et employés d'un niveau CAP/BEP, aux cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG et BAC+3). - Le deuxième axe caractérise davantage la qualification professionnelle du dernier emploi ainsi que le sexe des créateurs-repreneurs. Il oppose les femmes étudiantes ou sans qualification d'un niveau BAC général aux ouvriers diplômés d'un CAP/BEP. Le deuxième graphique montre la projection des modalités de réponses des deux caractères illustratifs sur le premier plan principal de l analyse de la signalétique des créateurs-repreneurs d'entreprises. Pour l interprétation des modalités de ces caractères, on s aidera du tableau des valeurs-test. Ainsi, - Le premier axe oppose donc les jeunes ouvriers et employés d'un niveau CAP/BEP qui étaient inactifs ou chômeurs et qui ont créé ou repris des entreprises dans les secteurs de l'industrie agroalimentaire, des transports et des hôtels-cafés-restaurants, aux cadres artisans-commerçants et chefs d'entreprise plus âgés et plus diplômés (DEUG, BAC+3) qui étaient actifs et qui ont créé ou repris dans le secteur des services aux entreprises. - Le deuxième axe oppose les femmes étudiantes ou sans qualification d'un niveau BAC général, qui ont créé ou repris des entreprises de services aux ménages, aux ouvriers diplômés d'un CAP/BEP, qui ont créé ou repris des entreprises dans les secteurs de la construction et de l'industrie. M2 : ECOSMA Analyse des Données - 23 -

4 Analyse Factorielle Discriminante L'Analyse Factorielle Discriminante 6 (AFD) et les techniques associées ont pris une grande importance ces dernières années. Appliquées essentiellement dans le domaine médical pour l aide au diagnostic, elles sont maintenant utilisées dans des domaines très variés : en économie, en reconnaissance des formes, dans les banques et les assurances avec les techniques de scoring, dans le domaine biomédical, du management pour décider de l'avenir d'une entreprise en fonction de ses diverses mesures comptables, de la vente pour sélectionner les clients potentiels les plus intéressants, etc. L objectif de l analyse discriminante dite «décisionnelle» est de définir une règle permettant de classer un individu dans un groupe particulier, parmi les groupes possibles. Cette affectation à un groupe donné se fait sur la base des caractéristiques (variables) observées sur cet individu. Elle permet aussi de mettre en évidence les liaisons existant entre un caractère qualitatif à expliquer (à discriminer) et un ensemble de caractères explicatifs quantitatifs (discriminants). En analyse discriminante, on distingue a priori deux ou plusieurs groupes d individus sur lesquels on mesure un ensemble de caractères communs. L analyse va alors chercher à mettre en évidence ce qui différencie ces groupes. 4.1 Objectif de la méthode En réalité, le but précis de l analyse discriminante dépend du contexte. Dans la plupart des cas, l aspect diagnostic est essentiel. On vise avant tout une bonne prédiction des groupes a priori. La bonne affectation, dans le futur, d individus de provenance inconnue est le but principal. Elle se différencie des méthodes de classification 7, dans la mesure où les classes (groupes) sont définies au départ de l analyse. On distingue donc deux objectifs pour l'analyse discriminante : - Objectif descriptif : rechercher quels sont les caractères qui permettent de séparer le mieux possible les classes (groupes) d'individus et donner des représentations graphiques qui rendent compte au mieux de cette séparation. - Objectif décisionnel : Un nouvel individu (anonyme) se présente, pour lequel on ne connaît que les valeurs des caractères descriptifs discriminants, il s'agit alors de décider dans quelle classe il faut l'affecter. L'analyse discriminante tente alors de résoudre le problème de l'affectation à une classe d'un individu caractérisé par de nombreux caractères explicatifs. Les fonctions linéaires discriminantes seront les combinaisons linéaires de ces caractères, dont les valeurs séparent au mieux des classes connues a priori. Par exemple, certains résultats réalisés sur un ensemble d'entreprises caractérisé par une série de mesures comptables (C.A., différents ratios, frais de publicité, etc.) et dont on connaît leur situation actuelle (bonne, stable, critique), on se propose de "prédire" (ou de décider) l'avenir d'une nouvelle entreprise connaissant ses résultats sur le même ensemble de mesures comptables. A partir de ces informations, l'analyse discriminante va prévoir la situation la plus probable de cette nouvelle entreprise. Exemple : Caractéristiques de 200 entreprises. Le caractère qualitatif à discriminer "Situation de l'entreprise" comprend ici trois modalités (bonne, stable, critique) et les caractères explicatifs quantitatifs sont les mesures comptables : Chiffre d affaires annuel (M.F.), nombre de Salariés, nombre de points de Vente,..., frais de Publicité (M.F.). Caractères explicatifs Caractère à expliquer Mesures comptables Situation de l entreprise Ets C.A. S V P Bonne Stable Critique Classe E001 6860 325 152 414 1 0 0 1 E002 2925 353 117 234 0 0 1 3........................... E200 5775 412 124 295 0 1 0 2 Tableau des données Le tableau ci-dessous contient les valeurs moyennes des mesures comptables des 200 entreprises sur chacune des trois situations. 6 Factorial Discriminant Analysis (FDA, descriptive discriminant analysis, canonical variate analysis). 7 Cluster analysis, classification. M2 : ECOSMA Analyse des Données - 24 -

Mesures comptables Classes C.A. S V P Effectif Poids Bonne 5465 330 346 396 66 0.330 Stable 4325 341 219 127 84 0.420 Critique 3675 326 182 221 50 0.250 Tableau des centres des classes Ainsi, d'un point de vue de la discrimination, l'analyse factorielle discriminante, en décrivant l'échantillon d'apprentissage composé de 200 entreprises, permet de répondre aux questions préalables suivantes : - Est-il possible de réaliser la discrimination à partir des caractères descriptifs (mesures comptables) choisis? - Comment se comportent les caractères descriptifs vis-à-vis des trois classes à discriminer? - Quelles sont les caractères ou les groupes de caractères les plus discriminants? Peut-on donner une réponse graphique à la question : Dans quelle mesure la situation d'une entreprise dépend-t-elle des mesures comptables? 0n peut répondre à la question posée en appliquant les principes de l'analyse en Composantes Principales au tableau des centres des classes. l'afd se présente alors comme une ACP particulière. 4.2 Analyse en Composantes Principales des centres des classes : On considère alors les centres des classes comme des individus et les colonnes comme des variables. On fait ensuite l'acp de ce tableau avec une métrique particulière, (distance de Mahalanobis) pour calculer les proximités entre les centres des classes, et des poids proportionnels aux effectifs des classes. On obtient ainsi, une analyse et des représentations graphiques sur des plans factoriels appropriés qui permettent de séparer au mieux les centres des classes. Les résultats d'une AFD peuvent alors se visualiser sur les plans factoriels appelés plans discriminants et se formuler par des critères d'inertie : - maximiser l'inertie interclasses : séparer au mieux les centres des classes afin d'exalter les différences entre classes. - minimiser l'inertie intra-classes : les individus appartenant à une même classe soient le plus concentrés possible autour du centre de la classe afin que l'étendue dans les classes soit bien délimitée. Les principes de représentation et les indices de qualité sont les mêmes que ceux de l'analyse en Composantes Principales. Remarques : - Cas de deux classes, on retrouve les résultats de l'analyse discriminante linéaire classique rencontrée fréquemment lors des applications. C'est aussi un cas particulier de la régression multiple, où la variable à expliquer ne prend que deux valeurs (modalités), chacune d'elles caractérisant une classe. - Quand le nombre de variables descriptives est très élevé relativement à la taille de l'échantillon, il est souvent indispensable de passer par une phase de sélection des "meilleurs" caractères discriminants afin d'obtenir une discrimination satisfaisante. Certains logiciels d'analyse de données proposent des méthodes hiérarchiques de sélection des caractères, basées sur des critères de mesure du "pouvoir" discriminant de ces caractères. Ce sont des techniques de discrimination pas à pas analogues à la régression stepwise où on introduit au fur et à mesure les caractères explicatifs dans une formule de discrimination. - L'Analyse Factorielle Discriminante sur un ensemble de variables qualitatives explicatives (discriminantes) et une AFD sur les composantes principales (quantitatives) de l'afcm des variables explicatives. M2 : ECOSMA Analyse des Données - 25 -

4.3.1 Discrimination en 2 classes - Exemple - Données ( Le marché belge des petites voitures ) On s'intéresse ici à un échantillon de voitures de moins de 3,80 mètres. On dispose du prix en milliers de francs belges, de la consommation urbaine, de la cylindrée, de la vitesse maximum, du volume maximum du coffre, du rapport poids/puissance et de la longueur de 27 voitures. L'objectif est de mettre en évidence les caractéristiques qui différencient ces voitures concurrentes. On désire déterminer dans quelle mesure la marque du constructeur est liée aux caractéristiques mesurées par les six caractères quantitatifs ( prix en milliers de francs belges, consommation urbaine, cylindrée, vitesse maximum, volume maximum du coffre et le rapport poids/puissance ). Le caractère qualitatif à discriminer, marque du constructeur ( Française, Etrangère ), prend ici deux modalités. Disposant des caractéristiques de trois nouvelles petites voitures, anonymes quant à leur marque, on se propose de visualiser ces voitures dans les plans discriminants de l'analyse et ainsi tenter de prévoir la marque de leur constructeur. Ces trois voitures seront considérées dans l'analyse comme individus supplémentaires. ADL : Marché des petites voitures en Belgique Caractères discriminants Caractère à discriminer (caractéristiques) (Marque constructeur) actives : 6 Modalités : 2 Prix France Consommation Etranger Cylindrée Vitesse Volume P/P : poids-puissance Voitures actives : 27 Voitures illustratives : 3 Clio Citroën AX Rover AFD : Marché des petites voitures en Belgique SELECTION DES INDIVIDUS ET DES VARIABLES UTILES VARIABLES NOMINALES ACTIVES 1 VARIABLES 2 MODALITES ASSOCIEES --------------------------------------------------------------------------------------------------------- 8. Marque du constructeur ( 2 MODALITES ) --------------------------------------------------------------------------------------------------------- VARIABLES CONTINUES ACTIVES 6 VARIABLES --------------------------------------------------------------------------------------------------------- 1. Prix ( CONTINUE ) 2. Consommation urbaine ( CONTINUE ) 3. Cylindrée ( CONTINUE ) 4. Vitesse ( CONTINUE ) 5. Volume maximum du coffre ( CONTINUE ) 6. Rapport poids/puissance ( CONTINUE ) 7. Longueur ( CONTINUE ) --------------------------------------------------------------------------------------------------------- INDIVIDUS ----------------------------- NOMBRE -------------- POIDS --------------- POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. RETENUS... NITOT = 30 PITOT = 30.000 SELECTION APRES FILTRAGE ACTIFS... NIACT = 27 PIACT = 27.000 SUPPLEMENTAIRES... NISUP = 3 PISUP = 3.000 ------------------------------------------------------------------------- UNIF STATISTIQUES USUELLES DES VARIABLES TRIS A PLAT DES VARIABLES NOMINALES ------ EFFECTIFS ------- ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS 9. Marque du constructeur MFRA - Française 10 37.04 37.04 ****************** METR - Etrangère 17 62.96 62.96 ***************************** ENSEMBLE 27 100.00 100.00 ----------------------------------------------------------------------------------------------------- M2 : ECOSMA Analyse des Données - 26 -

Exemple ADL : Marché des petites voitures en Belgique Dans le cas de deux groupes, l analyse discriminante classique est formellement équivalente à une régression. Appliquée sur les coordonnées factorielles de l analyse en composantes principales des caractéristiques des voitures, l analyse discriminante de Fisher fournit le modèle de discrimination c est-à-dire la combinaison linéaire des variables qui séparent au mieux les deux groupes de voitures. SELECTION DES INDIVIDUS ET DES VARIABLES UTILES VARIABLES NOMINALES ACTIVES 1 VARIABLES 2 MODALITES ASSOCIEES ---------------------------------------------------------------------------------------------------- 9. Marque du constructeur ( 2 MODALITES ) ---------------------------------------------------------------------------------------------------- VARIABLES CONTINUES ACTIVES 7 VARIABLES ---------------------------------------------------------------------------------------------------- 1. Prix ( CONTINUE ) 2. Consommation urbaine ( CONTINUE ) 3. Cylindrée ( CONTINUE ) 4. Vitesse ( CONTINUE ) 5. Volume maximum du coffre ( CONTINUE ) 6. Rapport poids/puissance ( CONTINUE ) 7. Longueur ( CONTINUE ) ---------------------------------------------------------------------------------------------------- INDIVIDUS ----------------------------- NOMBRE -------------- POIDS --------------- POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. RETENUS... NITOT = 30 PITOT = 30.000 SELECTION APRES FILTRAGE ACTIFS... NIACT = 27 PIACT = 27.000 SUPPLEMENTAIRES... NISUP = 3 PISUP = 3.000 ------------------------------------------------------------------------- ANALYSE DISCRIMINANTE A 2 GROUPES MODELE 1 DEFINITION :----- MODELE : V9 =V1--V7 GESTION DES DONNEES MANQUANTES AUCUNE VALEUR MANQUANTE DETECTEE ANALYSE DISCRIMINANTE LINEAIRE SUR L'ECHANTILLON : DE BASE ENTRE LES 2 GROUPES : Française ET Etrangère VARIABLE DE GROUPE NUMERO 9 : Marque du constructeur UNIF M2 : ECOSMA Analyse des Données - 27 -