Analyse en composantes principales Une méthode factorielle pour traiter les données didactiques

Documents pareils

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Statistique Descriptive Multidimensionnelle. (pour les nuls)

La classification automatique de données quantitatives

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction. Préambule. Le contexte

Fonctions de plusieurs variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Relation entre deux variables : estimation de la corrélation linéaire

Leçon N 4 : Statistiques à deux variables

Chapitre 3. Les distributions à deux variables

Notion de fonction. Résolution graphique. Fonction affine.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de deux variables. Mai 2011

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

L'analyse des données à l usage des non mathématiciens

Algorithmes pour la planification de mouvements en robotique non-holonome

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Intégration et probabilités TD1 Espaces mesurés Corrigé

Programmation linéaire

Chapitre 2. Matrices

Analyse des correspondances avec colonne de référence

3 Approximation de solutions d équations

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours d analyse numérique SMI-S4

Exercices Corrigés Premières notions sur les espaces vectoriels

Oscillations libres des systèmes à deux degrés de liberté

Cours 7 : Utilisation de modules sous python

Plan du cours : électricité 1

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Résolution d équations non linéaires

I. Polynômes de Tchebychev

Fonctions homographiques

Chapitre 1 : Évolution COURS

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Compter à Babylone. L écriture des nombres

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

Mesures gaussiennes et espaces de Fock

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Le contexte. Le questionnement du P.E.R. :

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Cours d Analyse. Fonctions de plusieurs variables

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Introduction à l étude des Corps Finis

Programmes des classes préparatoires aux Grandes Ecoles

Filtrage stochastique non linéaire par la théorie de représentation des martingales

3. Conditionnement P (B)

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Modèles et Méthodes de Réservation

Cours Fonctions de deux variables

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Logiciel XLSTAT version rue Damrémont PARIS

Angles orientés et trigonométrie

Calcul intégral élémentaire en plusieurs variables

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

PARTIE NUMERIQUE (18 points)

Programmation linéaire et Optimisation. Didier Smets

PROBLEME(12) Première partie : Peinture des murs et du plafond.

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Conversion d un entier. Méthode par soustraction

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

INF6304 Interfaces Intelligentes

Algèbre binaire et Circuits logiques ( )

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Cours de Mécanique du point matériel

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

CORRIGE LES NOMBRES DECIMAUX RELATIFS. «Réfléchir avant d agir!»

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Introduction à l approche bootstrap

Sites web éducatifs et ressources en mathématiques

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Exercice : la frontière des portefeuilles optimaux sans actif certain

Cours 02 : Problème général de la programmation linéaire

Théorie des sondages : cours 5

Lecture graphique. Table des matières

NOTICE DOUBLE DIPLÔME

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Les indices à surplus constant

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Activités numériques [13 Points]

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Analyse de la variance Comparaison de plusieurs moyennes

Transcription:

Analyse en composantes principales Une méthode factorielle pour traiter les données didactiques Ali Kouani, S. El Jamali et M.Talbi Résumé L Analyse en Composantes Principales (ACP) est une méthode d analyse de données. Elle cherche à synthétiser l information contenue dans un tableau croisant des individus et des variables quantitatives. Produire un résumé d information au sens de l ACP c est établir une similarité entre les individus, chercher des groupes d individus homogènes, mettre en évidence une typologie d individus. Quant aux variables c est mettre en évidence des bilans de liaisons entre elles, moyennant des variables synthétiques et mettre en évidence une typologie de variables. L ACP cherche d une façon générale à établir des liaisons entre ces deux typologies. 1 Introduction Pour évaluer la façon dont les étudiants ont perçu un enseignement, l enseignant a recours aux contrôles continus et aux examens de différentes formes. Il étudie sur le plan statistique l ensemble des notes en calculant par exemple la moyenne des notes de l ensemble des élèves, leur écart type... Mais ces indicateurs restent insuffisants dans certaines situations. En effet, prenons le cas de deux groupes de 10 élèves chacun et les notes qu ils ont obtenues dans un même examen comme le montre le tableau ci-dessus : Mots clés : composantes principales, analyse de données, similarité, typologie d individus, typologie de variables, variables synthétiques 1

A. Kaouani et al., Radisma, numéro 2, 2007 2 Nous constatons que les deux ont la même moyenne 10,1. Par conséquent, peut-on en déduire qu ils ont le même niveau? La moyenne est un indicateur global qui permet simplement un classement des résultats des élèves. En se référant à l écart type, nous observons que dans le deuxième groupe les notes des élèves sont plus concentrées autour de la moyenne que dans le premier groupe. Peut-on en conclure que les deux groupes sont constitués d éléments homogènes? Sinon, comment les déceler dans le cas où l on traite plusieurs variables avec un effectif d élèves assez grand? Dans une situation d orientation ou de passage d élèves, la moyenne pondérée de toutes les notes dans les différentes disciplines enseignées est une variable qui résume ou synthétise l ensemble dans le sens que : si un élève a obtenu 18 de moyenne, il a certainement de très bonnes notes dans toutes les matières. Au contraire, un autre qui a obtenu 2 de moyenne n a certainement bien réussi aucune discipline. Donc, la pertinence d une même variable synthétique varie selon les situations étudiées. Pour illustrer ce propos, considérons le tableau suivant : Dans ce tableau : 6 individus sont décrits par deux notes (N i, N j ). Cas 1 : la moyenne 1 synthétise bien les notes N 1 et N 2 ; ce n est pas le cas de leur différence Ecart 1 (= N 2 N 1 ). Cas 2 : la moyenne 2 ne synthétise pas N3 et N4 ; ce n est pas le cas de leur différence Ecart 2 (= N 4 N 3 ).

A. Kaouani et al., Radisma, numéro 2, 2007 3 Donc, devant une série de données, quelles variables complémentaires peut-on choisir pour synthétiser au mieux l information portée par l ensemble des variables? Dans la pratique enseignante, l enseignant cherche toujours à visualiser graphiquement les résultats de ses élèves pour les interpréter. Mais, pour analyser les liaisons entre une série de variables, il va se trouver devant un nombre assez grand de graphiques ; nombre qui rend presque impossible l interprétation. En effet avec 10 variables, il aura 45 graphiques de liaisons et 15 (?) le nombre devient alors 105! Par conséquent, est- il possible de trouver une représentation plane de l ensemble des variables dans un espace réduit permettant une visualisation des liens numériques et de déceler des facteurs latents? Le but de cet article est de présenter dans sa première partie une description mathématique de la méthode exploratoire Analyse en Composantes Principales (ACP). La seconde partie sera consacrée à l application de l ACP à un cas réel (un tableau des notes des étudiants) où on tâchera de voir ce que l ACP outil exploratoire (cf. [3]) peut apporter comme éléments de réponse à des questions de type (cf. [2]). Ressemblances entre individus : Quels sont les individus qui se ressemblent? Quels sont ceux qui sont différents? Existe -t-il des groupes homogènes d individus? Si oui, peut-on mettre alors en évidence une typologie des individus? Liaisons entre variables : Quelles sont les variables qui sont liées positivement entre elles? Quelles sont celles qui s opposent (liées négativement)? Existe-t-il des groupes de variables corrélées entre elles? Si oui, peut-on alors mettre en évidence une typologie des variables? Quelles sont les variables qui caractérisent un même groupe d individus? Est- il possible de trouver une représentation plane de l ensemble des variables dans un espace réduit permettant une visualisation des liens numériques d une part et de déceler des facteurs latents d autre part? Quant à la troisième partie de cet article, elle résume l objet de l ACP comme elle pose des questions.

A. Kaouani et al., Radisma, numéro 2, 2007 4 2 Présentation et description de la méthode factorielle : Analyse en composantes principales (ACP) On dispose d un tableau des notes des étudiants de deux filières Sciences Mathématiques (SM) et Sciences Mathématiques et Informatique (SMI) obtenues dans le premier semestre S1 de l année universitaire 2003 /2004 dans les disciplines suivantes : L ensemble des données peut être schématisé par une matrice X à n lignes et p colonnes. Si X est le tableau (nxp) des notes, les colonnes représenteront les variables x i (les disciplines), les lignes représenteront les individus e j ( étudiants ), alors que x ij est la note obtenue par l étudiant i dans la discipline j. Dans une optique purement descriptive on identifiera une variable à la colonne de X correspondante : une variable n est rien d autre que la liste des n valeurs qu elle prend sur les n individus : X j = X 1j X 2j. X nj

A. Kaouani et al., Radisma, numéro 2, 2007 5 On identifiera de même l individu i au vecteur e i à p composante dont le transposé est : e i = (x i1, x i2,..., x i1 ) 2.1 Espace des individus Chaque individu ei sera considéré comme un élément d un espace vectoriel F (espace des individus). L ensemble des n individus est un nuage de points de F dont le barycentre est le point g défini par : g = (x 1, x 2,..., x p ), où x p est la moyenne aritmétique de x p. Le point g est appelé parfois : point moyenne du nuage ou centre de gravité. L espace F est muni d une structure euclidienne afin de pouvoir définir des distances entre individus e i et e j. On utilisera la formulation générale suivante : la distance entre deux individus e i et e j est définie par la forme quadratique : d 2 (e i ; e j ) = (e i ; e j ) M(e i ; e j ), où M est une matrice symétrique de taille p définie positive et (e i ; e j ) est le transposé du vecteur (e i ; e j ). L espace des individus est donc muni du produit scalaire : ei, ej = e ime j. Le choix de M dépend de l utilisateur. En pratique les métriques usuelles en ACP sont en nombre réduit : à part la métrique M = I (Matrice identité de rang p ) ce qui revient à utiliser le produit scalaire usuel, la métrique la plus utilisée ( et qui est souvent l option par défaut des logiciels d ACP ) est la métrique diagonale des inverses des variances : Ce qui revient à diviser chaque caractère par son écart-type : entre autres avantages, la distance entre deux individus ne dépend plus des unités de mesure puisque les nombres x ij /s j

A. Kaouani et al., Radisma, numéro 2, 2007 6 sont sans dimension, ce qui est très utile lorsque les variables ne s expriment pas avec les mêmes unités. Surtout, cette métrique donne à chaque caractère la même importance quelle que soit sa dispersion ; l utilisation de métrique M = I conduirait à privilégier les variables les plus dispersées, pour lesquelles les différences entre individus sont plus fortes, et à négliger les différences entre les autres variables. Remarque : Souvent, les données brutes x ij sont remplacées par les données de la forme (x ij x j )/s j (dite centrée réduite) où x j est la moyenne de la variable x j et s j est l écart type de la variable x j. Le centrage permet de comparer les dispersions par rapport à un point de référence unique (la moyenne, qui vaut zéro pour la variable après centrage). En réduisant les variables, on les exprime toutes en unités d écart - type, et on leur donne une variance égale à 1. 2.2 Espace des variables Chaque variable X i est une liste de n valeurs numériques, qui peut être considérée comme un vecteur X i d un espace E à n dimensions appelé espace des variables. Pour étudier la proximité des variables entre elles, on munit E d une métrique. Généralement, on définit le produit scalaire entre deux variables par : X i, X k = X i DX k avec D = 1 n I. L angle θ jk entre deux variables est donné par : cos θ jk = Xi, X k x j x k = S jk S j S k. Dans le cas de variables centrées réduites on a alors : Ce produit scalaire est la covariance s jk car : X i X i, Xk X k = 1 n X ij X i X kj X k s i s k n s i s k j=1 Et ( ) X i X Var i = 1 n s i n X ij X i j=1 s i X ij X i X i X =, Xi X = s i s i s i X i X s i 2 D. De plus,

A. Kaouani et al., Radisma, numéro 2, 2007 7 X i X s i 2 = 1 D s 2 i ( 1 n n ( Xij X ) ( X ij X )) = 1. j=1 Donc le nuage des variables est situé sur une sphère de rayon 1. De plus le cosinus de l angle de ces deux variables n est autre que leur coefficient de corrélation linéaire : ) ) θ jk = Xj X j ; X k X k x j X j x k X k = 1 n (X ij X (X i ik X k. n S j S k L interprétation d un coefficient de corrélation comme un cosinus est une propriété très importante puisqu elle donne un support géométrique, donc visuel, au coefficient de corrélation. j=1 2.3 L inertie On appelle Inertie totale du nuage de points la moyenne des carrés des distances des points au centre de gravité : I g = 1 n e i g. Remarque : I g est la moyenne des écarts absolus entre les individus e i et leur barycentre g. Si M = D 1, on montre que Ig = Trace(R) = p, où R est la matrice de variance covariance des s2 données centrées réduites (cf. [4], pp. 163-164). En d autres termes, l inertie est donc égale au nombre de variables et ne dépend pas de leurs valeurs. 3 Analyse en Composantes Principales (ACP) 3.1 Projection des individus sur un sous-espace Principe : On ne peut pas visualiser directement le nuage N des individus du fait de la dimension importante de l espace F (dimf = p). Le principe de l ACP (et plus généralement de l analyse factorielle) consiste à projeter orthogonalement le nuage N sur un plan (plus généralement sur un sous-espace de l espace F ).

A. Kaouani et al., Radisma, numéro 2, 2007 8 Le plan (ou le sous-espace) est choisi de façon à ce que la projection orthogonale déforme le moins possible le nuage. En terme de distance entre individus le sous-espace cherché est tel que : I g = 1 i e n i f i 2 soit minimal. Où f i est un vecteur dans l espace de projection cherché et e i vecteur (individu) dans l espace initial. Cette écriture n est autre que la forme classique du critère des moindres carrés ; par conséquent le sous-espace passera par le point fictif g barycentre du nuage N des individus. Or d après le théorème de Pythagore, on a : e i g 2 = e i f i 2 + e i g 2 Donc, 1 n e i g 2 = 1 e i f i 2 + 1 e i g 2. n n i 1 Par conséquent l expression I ci-dessus, revient à maximiser : n constant. 3.2 Théorème fondamental i i i e i g 2, puisque Ig est Le sous-espace F k de dimension k rendant I maximal est engendré par les k valeurs propres de V M associés aux k plus grandes valeurs propres. Dans notre cas on prend M = D 1 s 2 et V la matrice de variance covariance entre variables. F k est un sous-espace rendant I maximale, alors le sous-espace de dimension k+1 rendant I maximale est la somme directe de F k et du sous-espace de dimension 1 M -orthogonal à F k : la suite des sous-espaces F k est une suite emboîtée. Les vecteurs propres de V M, M-normés à 1 sont appelés axes principaux d inertie. La matrice V M étant M- symétrique possède des vecteurs propres M- orthogonaux deux à

A. Kaouani et al., Radisma, numéro 2, 2007 9 deux et le rang de V M est égal à p donc le nombre d axes principaux est p. Les vecteurs propres M 1 - normés de MV sont appelés facteurs principaux. Ils sont M 1 et V - orthogonaux. 3.3 Composantes principales Ce sont les variables c i définies par les facteurs principaux : c i = XU i. c i est le vecteur renfermant les coordonnées des projections des individus sur l axe défini par a i avec a i unitaire. La variance d une composante principale est égale à la valeur propre λ: V (c i ) = λ i En effet V (c) = c Dc = u X DXu = u V u or : V u = λm 1 u donc V (c) = λu M 1 u = λ Les composantes principales sont elles-mêmes vecteurs propres d une matrice de taille n. En effet : MV u = λu s écrit MX DXu = λu. En multipliant à gauche par X et en remplaçant Xu par c on obtient alors, XMX Dc = λc. La matrice XMX notée W est la matrice dont le terme général w ij est le produit scalaire e i, e j = e jjme j. D où pour résumer : dans la pratique on calcule les u par diagonalisation de MV, puis on obtient les c = Xu, les axes principaux a n ayant pas d intérêt pratique. 3.4 Qualité des représentations sur les plans principaux Le but de l ACP étant d obtenir une représentation des individus dans un espace de dimension plus faible que p (dim F ), la question qui se pose alors est : comment apprécie-t-on la perte d information subie et de savoir combien de facteurs faut-il retenir? Le critère habituellement utilisé est celui du pourcentage d inertie totale expliqué (cf. [4], pp 176-179). On mesure la qualité de F k par : ( ) ( ) λ1 + λ 2 +... + λ k λ1 + λ 2 +... + λ k 100 = 100. I g λ 1 + λ 2 +... + λ p Ce pourcentage( est appelé ) parfois : le pourcentage expliqué par le sous-espace F k. λ Si par exemple 1 +λ 2 I g 100 = 90%, on conçoit clairement que le nuage de points est presque aplati sur un sous-espace à deux dimensions et qu une représentation du nuage dans le plan des deux premiers axes principaux sera satisfaisante.

A. Kaouani et al., Radisma, numéro 2, 2007 10 3.5 Application de l ACP à la matrice des notes Les données sont traitées par le logiciel SPAD (Système Pour l Analyse des Données) produit DECISA. Le choix de ce logiciel est justifié par son mode d utilisation simplifié, son interface enrichie par les logiciels Excel pour l entrée des données et l édition des résultats, SPSS et SAS pour les données et son guide d utilisation et d interprétations des différents modules de traitement des données tels que l ACP, la classification hiérarchique Nous partons d un fichier constitué des notes des étudiants des filières SM et SMI obtenues au cours du 1er semestre S1 2003/2004. Le choix du module Analyse en Composantes Principales du logiciel SPAD, nous a permis de visualiser les résultats suivants : une statistique sommaire des variables étudiées (moyenne, écart type, minimum); la matrice des corrélations des variables. le tableau des valeurs propres de la matrice de corrélation ainsi que le pourcentage d explication de chaque valeur propre. un plan de projection des variables. un plan de projection des individus. Par conséquent, le travail du chercheur résidera dans l interprétation des différents résultats. Chose qu on a essayé de présenter dans cette troisième partie. Les statistiques élémentaires sur les variables sont données dans le tableau 2 : Le paramètre écart- type montre que les notes obtenues en mécanique (MECA) et en analyse 1 (ANALY1) sont plus dispersées autour de la moyenne.

A. Kaouani et al., Radisma, numéro 2, 2007 11 La matrice de corrélation entre variables est indiquée dans le tableau 3 : Dans notre exemple, toutes les variables sont corrélées positivement. Donc, les notes varient dans le même sens. La corrélation est forte entre le Calcul Vectoriel et les disciples : la thermodynamique, l algèbre linaire 1 et la mécanique ; c est-à-dire que les étudiants qui ont obtenu une bonne note en calcul vectoriel en S1 peuvent également avoir de bonnes notes en thermodynamique, en algèbre linéaire1 et en mécanique. Ce constat peut être justifié par le fait que : les différents chapitres intégrés dans le module calcul vectoriel on les retrouve soit d une façon explicite comme c est le cas de l algèbre linaire 1 ou comme outils de résolution d exercices comme c est la cas de la mécanique et de la thermodynamique. Donc l étudiant revoit ces concepts sous plusieurs aspects pendant un même semestre. La faible corrélation entre LC1 et ALG1 ; LC1 et ANAL ; LC1 et CAL.Vect ; LC1 et MECA ; et entre LC1 et THER montre la grande rupture qui existe entre la langue d enseignement des matières scientifiques pendant le cursus scolaire antérieur de l étudiant qui est l arabe et celle utilisée à l université (le français). Rupture qui persiste même si nos élèves reçoivent un cours de traduction pendant la période du lycée? La diagonalisation de la matrice de corrélation donne les résultats présentés dans le tableau 4.

A. Kaouani et al., Radisma, numéro 2, 2007 12 La deuxième colonne indique les valeurs propres de la matrice de corrélation. La troisième colonne nous renseigne sur le pourcentage expliqué par chaque valeur propre. 3.6 Représentation des variables On obtient alors la représentation suivante des variables dans le plan (facteur 1, facteur 2) expliquant 69% de l inertie initiale. 3.6.1 Le cercle des corrélations A chaque variable, on associe un point dont la coordonnée sur un axe factoriel est une mesure de la corrélation entre cette variable et le facteur (Axe 1 ou Axe 2) exemple la coordonnée sur l axe 1 de la variable LC1 est 0,55 et celle sur l axe 2 est 0,68. Mais, nous savons que les variables appartiennent à la sphère de rayon 1. Donc par projection sur un plan factoriel les variables s inscrivent dans un cercle de rayon 1 - le

A. Kaouani et al., Radisma, numéro 2, 2007 13 cercle des corrélations-. Elles sont d autant plus proches du bord du cercle que la variable est bien représentée par le plan factoriel, c est-à-dire que la variable est bien corrélée avec les deux facteurs constituant ce plan. 3.6.2 Représentation des variables sur le premier plan factoriel L angle entre deux variables x j et x k, mesuré par son cosinus est égal au coefficient de corrélation linéaire entre les 2 variables: cos θ ik. Donc : L interprétation des composantes principales s effectue en regardant les corrélations avec les variables de départ. Ainsi on a : toutes les variables sont assez éloignées de O ; les variables, et donc les angles qu elles forment, n ont pas été trop déformées dans la projection. Plus précisément les pourcentages d inertie sont 55,30% (axe1 horizontal) et 14,21% (axe2 vertical) pour le plan 1 ; toutes les variables occupent une zone assez restreinte à l intérieur du cercle des corrélations. L angle maximum entre deux variables est inférieur à 90. Ceci suggère que toutes les variables sont corrélées positivement entre elles (cf. tableau 2) ; les matières fondamentales de cette filière sont assez corrélées entre elles. Cette affirmation se vérifie en se rapportant de la matrice de corrélation ; les notes des 5 matières (calcul vectoriel, thermodynamique, mécanique, algèbre et analyse) sont plus liées entre elles qu avec les autres matières. Ceci suggère l existence de qualités communes (ou goûts communs) pour réussir dans ces matières ;

A. Kaouani et al., Radisma, numéro 2, 2007 14 on peut faire des remarques identiques pour la communication et l informatique et les TP. L écart entre ces deux matières et les précédentes suggère l existence de qualités différentes (ou goûts différents) pour réussir ces deux groupes de matières. En conclusion : Le cercle des corrélations permet de voir, parmi les anciennes variables, les groupes de variables très corrélées entre elles. Donc son étude est plus simple et plus informative que l analyse directe de la matrice de corrélation. 3.7 Variables synthétiques : l ACP est une méthode de recherche de nouvelles variables z qui synthétisent les variables initiales. Ces variables z synthétisent d autant mieux l ensemble de variables V k ; k = 1,..., p lorsqu elles constituent des combinaisons linéaires des variables initiales. Ainsi, dans l exemple on remarque que : la première variable synthétique est liée positivement à chacune des variables. Elles les représentent toutes à peu près de la même façon ; la seconde variable synthétique représente une opposition entre langue et communication, informatique, travaux pratiques de physique et les matières calcul vectoriel, thermodynamique mécanique, algèbre et analyse. 3.8 La première variable synthétique L expression de la première composante principale est : ( ) ( ) LC(etudi ) 12, 45 Infl(etudi ) 12, 24 F act 1 (etud i ) = 0, 55 + 0, 65 +... 2, 43 1, 91 ( ) T P1 (etud i ) 11, 04 + 0, 71 2, 2 3.9 Interprétation de la première composante Un élève ayant dans toutes les matières des notes supérieures à la moyenne de l ensemble, a des valeurs positives pour toutes les variables centrées ; comme tous les coefficients sont positifs, cet étudiant a une forte valeur positive pour le Facteur1 (remarquer l intérêt de faire apparaître les variables centrées, ceci montre qu une note influe dans un sens ou dans un autre selon qu elle est supérieure à la moyenne de l ensemble). Réciproquement, un élève qui a une forte valeur positive pour Fact1 a, globalement, des notes au dessus de la moyenne de l ensemble. En ce sens, cette première composante principale représente le niveau général des étudiants.

A. Kaouani et al., Radisma, numéro 2, 2007 15 La seconde variable synthétique La seconde composante principale peut s écrire : ( ) ( ) LC(etudi ) 12, 45 Inf1 (etud i ) 12, 24 F act 2 (etud i ) = 0, 68 + 0, 55 2, 43 1, 91 ( ) ( ) Alg(etudi ) 9, 79 T P1 (etud i ) 11, 04 0, 32... + 0, 25 3, 79 2, 2 Des notes inférieures à la moyenne dans les matières spécifiques telles que : algèbre, analyse, calcul vectoriel, mécanique et thermodynamique, augmenteront la valeur du F act 2 ; par contre des notes supérieures à la moyenne dans ces matières affaibliront la valeur du F act 2. Réciproquement, une valeur négative de Fact2 correspond aux étudiants ayant en général des notes supérieures à la moyenne dans les matières spécifiques de la filière. En conséquence, ces deux variables synthétiques permettront de postuler qu on est devant quatre grands groupes d étudiants. Représentation des individus Représentation des individus sur le plan factoriel défini par les deux premières composantes principales. 6 étudiants sont identifiés : 6, 22, 35, 88, 92, 54. L étudiant 97 est fictif c est le point moyenne. Son but est de fournir des images planes approchées du nuage des individus situés dans l espace R p. L ensemble des projections de tous les points du nuage d individus N sur son premier axe factoriel U 1 appelé premier facteur, sur les individus, constitue une nouvelle variable (cf. [2], p.17). On montre que cette variable se confond, à la norme près, à la première composante principale obtenue dans la projection du nuage des variables. Donc, l interprétation des axes de ce graphique est par définition celle des composantes principales. Ainsi, l axe des abscisses représente le niveau général des étudiants alors que celui des ordonnées représente leur profil. En effet, un étudiant appartenant au groupe 1 possède en général des notes meilleures dans les matières spécifiques des deux filières avec des capacités déterminées en communication et en informatique ; c est le cas par exemple l étudiant 22.

A. Kaouani et al., Radisma, numéro 2, 2007 16 Par opposition, un étudiant appartenant au groupe 4, c est un étudiant qui a en général de notes faibles dans toutes les matières ; c est le cas de l étudiant 35. Donc, le premier axe (axe horizontale) oppose les étudiants qui ont globalement de bonnes notes à ceux qui ont généralement de mauvaises notes. Quant au deuxième il oppose les étudiants ayant globalement des très bonnes notes en LC et TP et Inf. à ceux qui ont qui ont obtenu de faibles notes dans ces disciplines. En conclusion, nous remarquons que l ACP a l avantage d une part de résumer l ensemble des variables initiales corrélées en un nombre réduit de facteurs non corrélés. D autre part, elle nous a permis de mettre en évidence des similarités ou oppositions entre variables et individus. 4 Conclusion La question principale de notre travail est: comment à partir d une série de notes (descripteurs) obtenues par un ensemble d étudiants peut-on avoir : des variables résumant le mieux l information portée par ces descripteurs? un bilan de liaison entre les variables? une représentation plane optimale des individus? une aide à l enseignant dans l élaboration d une typologie de ses étudiants selon ces nouvelles variables? L ACP est une méthode exploratoire qui utilise des concepts de l algèbre linéaire et de la géométrie et permet de résoudre en partie cette problématique. En effet, en supposant que les étudiants peuvent être représentés par un nuage de points dans un espace de dimension finie p(p 3), l ACP cherche un sous-espace tel que la projection du nuage initial sur ce sous-espace déforme le moins possible l information portée par les variables initiales. L outil informatique met à la disposition du chercheur une gamme de logiciels permettant de traduire en termes de procédures toute la démarche théorique de l ACP : centrage et réduction des données brutes ; bilan des liaisons entre les variables ; mise en évidence de variables synthétiques ; représentation plane (ou sur un sous-espace de faible dimension) optimale des individus.

5 Limites et perspectives A. Kaouani et al., Radisma, numéro 2, 2007 17 Comme pour toute autre méthode exploratoire nous pouvons citer deux limites principales de l ACP : la première est la visualisation globale des données. Dans certains cas, cette visualisation est suffisante ; dans d autres, par contre, elle permet seulement de situer, dans l ensemble des données, une recherche plus poussée, qui peut être soit définie a priori, soit établie à la lumière des résultats de l ACP. Par exemple, dans notre cas si on envisage une pédagogie différenciée en faveur des étudiants ayant obtenu de faibles résultats, la classification hiérarchique est nécessaire pour affiner la formation de groupes homogènes et pour connaître les variables qui interviennent le plus dans la formation d une répartition; la deuxième limite est technique. La mise en oeuvre de l ACP demande le calcul préalable de la matrice carrée de covariance des données, qui est de taille p 2 pour des vecteurs de dimension p. Cette matrice est déjà coûteuse à calculer, et sa taille et son traitement deviennent prohibitifs en haute dimension. Ainsi des données de dimension 1000 donneront lieu à une matrice de un million d éléments. D autres méthodes peuvent être élaborées pour remédier à ce problème (cf. [1], p. 5). La faible corrélation des notes entre les disciplines langue et communication et les disciplines spécifiques des deux filières nous pousse à nous poser un ensemble de questions que l on peut résumer ainsi : jusqu à quel point nos étudiants ont tiré profit du cours de traduction instauré au lycée dans les options scientifiques? le contenu du module Langue et Communication répond-t-il aux besoins exprimés par nos étudiants? les méthodes d enseignement des matières langue et communication favorisent -elles une aide aux étudiants pour surmonter les obstacles dûs au changement brutal de la langue d enseignement des matières scientifiques (de l arabe au français)? Bibliographie [1] M. Delichère et D. Memmi : Analyse Factorielle Neuronale pour Documents Textuels. Les cahiers du laboratoire Leibniz N 49, GRENOBLE, Avril 2002. [2] J. Pages, B. Escofier : Analyses factorielles simples et multiples : Objectifs, méthodes et interprétation. DUNOD, 1990.

A. Kaouani et al., Radisma, numéro 2, 2007 18 [3] J. Pages, B. Escofier : Introduction à l analyse en composantes principales à partir de l étude d un tableau de notes. Méthode d analyse statistiques multidimensionnelles en didactiques des mathématique, IRMAR et IRESTE NANTES, 27-29, 1995. [4] G. Saporta : Probabilités Analyse des données et statistiques Edition Technip, 1990. Adresses des auteurs : Laboratoire Interdisciplinaire de Recherches: Apprentissage, Didactique, Evaluation & Technologies de l Information pour l Education (lirade-tie), U.F.R Ingénierie et Technologie de l Education et de la formation itef alikaouani@menara.ma, saideljamali@gmail.com, maarifcentre@yahoo.fr Faculté des Sciences Ben M Sik, Université Hassane II Mohammedia, Casablanca, Maroc