Introduction. Préambule. Le contexte

Dimension: px
Commencer à balayer dès la page:

Download "Introduction. Préambule. Le contexte"

Transcription

1 Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments actifs et illustratifs... 7 ANALYSE DU NUAGE DES INDIVIDUS... 9 a - Comment voir les distances entre individus?... 9 b - Comment trouver les plans de projection c - Principe de l'ajustement d - Distance entre individus e - Matrice à diagonaliser f - Composantes Principales PROJECTIONS DES VARIABLES a - Nature de la projection b - Facteur de taille... 0 c - Les matrices implicites des distances... 0 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES... 1 a - Individus supplémentaires... b - Contribution d un individu à la fabrication d un axe... c - Qualité du positionnement d un point... 3 d - Notion de représentation simultanée en ACP... 5 e - Détails sur la représentation simultanée... 5 f - Variables continues supplémentaires... 8 g - Variables nominales supplémentaires LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST a - Principe b - La valeur-test pour la caractérisation des modalités c - La valeur-test pour la caractérisation des axes d - Les valeurs-tests et le Data mining ACP NON NORMEE Retenir l essentiel... 4 RELATIONS ENTRE LES AJUSTEMENTS DES NUAGES RECONSTITUTION APPROCHEE. COMBIEN D AXES RETENIR? GLOSSAIRE SUCCINCT QUELQUES REFERENCES Alain Morineau Page 1 DeeNov

2 Préambule Ce document, téléchargeable sur le site illustre les différents aspects de l analyse en composantes principales, ses fondements, ses caractéristiques techniques et pratiques, ses domaines d application et ses règles d interprétation. Il constitue aussi une introduction à l utilisation de la méthode et comporte les principaux développements techniques. En complément, on pourra se procurer, à la page Formation du site un support de formation à cette technique. Ce support inclut plus de 100 diapositives animées, réparties en plusieurs chapitres et largement commentées de vive voix. La formation en question s appuie sur une présentation visuelle accompagnée d un commentaire audio complet. Le texte peut être visualisé en même temps que les commentaires des diapos seront écoutés. L utilisateur navigue librement entre les chapitres, les réécoute à volonté et fait les pauses qui lui conviennent. Introduction Le contexte L analyse en composantes principales, souvent notée ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en 004. Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. L'opération de l'analyse de Composantes Principales consiste à passer d un tableau des données brutes, contenant toute l'information recueillie sur le phénomène que nous souhaitons étudier, à certaines représentations visuelles des données. Cette opération entraînera une certaine perte "d'information" que l on essaie de minimiser. En échange, on obtient un gain en "signification", en particulier grâce aux représentations graphiques. Autrement dit, on passe du "magma" des données d origine à des graphiques interprétables par l'utilisateur. Pour l'interprétation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'acp et la naturevdes résultats qu'elle produit. On trouvera une présentation détaillée des méthodes dans les ouvrages cités en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Alain Morineau Page DeeNov

3 Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes complexes et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Ana. factorielles et Classifications Présentation invisible dans l'espace complet F 1 F Visualisation dans le "meilleur" espace réduit Classification (dans l'espace complet) A. Morineau 3 DeeNov,, 005 Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles". Visualisation et Ana. de données Eclairage d un objet 3D et sa visualisation sur des plans de projection Certaines projections apportent plus d information que d autres La clé de l anayse factorielle est dans le choix des meilleures projections A. Morineau 4 DeeNov,, 005 Alain Morineau Page 3 DeeNov

4 Les techniques factorielles reposent toutes sur une propriété mathématique des tableaux rectangulaires : la décomposition aux valeurs singulières (décomposition due à Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables (colonnes). Cette "restitution des individus à la statistique", essentiellement due à Jean-Paul Benzécri, induit une attitude nouvelle vis-à-vis des traitements statistiques des données multidimentionnelles. Bref historique de l ACP Conçue par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales (ACP) n'est vraiment utilisée que depuis la large diffusion des moyens de calcul informatique. La technique d'analyse en composantes principales peut être présentée de divers points de vue. Pour le statisticien classique, il s'agit de la recherche des axes principaux de l'ellipsoïde d'une distribution normale multidimensionnelle, ces axes étant estimés à partir d'un échantillon. C'est la présentation initiale de Hotelling (l933), puis celle des manuels classiques d'analyse multivariée. Pour le factorialiste classique, il s'agit d'un cas particulier de la méthode d'analyse factorielle des psychométriciens (cas de variances spécifiques nulles ou égales). Enfin, du point de vue plus récent des analystes de données, il s'agit d'une technique de représentation des données, ayant un caractère optimal selon certains critères algébriques et géométriques, et que l'on utilise en général sans référence à des hypothèses de nature statistique ni à un modèle particulier. Ce point de vue, fort répandu actuellement est peut-être le plus ancien. C'est celui qui avait été adopté par Pearson (1901). Bien entendu, il ne s'agissait pas de l'analyse en composantes principales telle que nous la présentons, mais les idées essentielles de la méthode étaient déjà présentées par cet auteur. L'analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage des points-individus peut être centré ou non, réduit ou non. Parmi ces variantes, l'analyse en composantes principales normée (nuage centréréduit) est certainement la plus utilisée et c'est celle-ci que nous choisissons pour présenter les principes de l'analyse. Alain Morineau Page 4 DeeNov

5 Domaine d'application L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possède un tableau rectangulaire de mesures, dont les colonnes figurent des variables à valeurs numériques continues (des mensurations, des taux, etc.) et dont les lignes représentent les individus sur lesquels ces variables sont observées. D'une manière générale, la condition que doivent remplir ces tableaux numériques pour être l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en général) est formée d'unités ayant un caractère répétitif, l'autre pouvant être éventuellement plus hétérogène. Les lignes (qui ont ce caractère répétitif) sont désignées en général sous le nom d'individus ou d'observations, les colonnes étant désignées sous le nom de variables. A titre d esemple, nous considérons le tableau X des mesures prises sur quelques milliers d individus actifs concernant leurs temps d'activités quotidiennes. On dispose par exemple de 16 variables décrivant des temps d'activité, en minutes par jour (sommeil, repos, repas chez soi, etc.). Tableau des données X (n,p) Variables (dizaines, centaines) continues nominales ordinales textuelles etc.... Individus statistiques (centaines, milliers) A. Morineau 1 DeeNov,, 005 Le tableau X aura donc en colonne les mesures caractérisant ces observations. Le terme général x ij de ce tableau décrit la durée de l'activité j de l individu i. L objectif est de donner une idée de la structure de l'ensemble des 16 activités, ainsi que des similitudes éventuelles de comportement entre les groupes d'individus. Alain Morineau Page 5 DeeNov

6 Interprétations géométriques Les représentations géométriques entre les lignes et entre les colonnes du tableau de données permettent de visualiser les proximités entre les individus et entre les variables. Principe géomg ométrique de l ACPl X(n,p) i i' j j' R p Ressemblance entre individus R n Liaisons entre variables A. Morineau 11 DeeNov,, 005 a - Pour les n individus Dans l'espace à p coordonnées où se trouvent les individus, les n(n-1) distances attachées aux couples de points individus ont une interprétation directe pour l'utilisateur : p (, ) ( ij i' j ) j1 d i i x x Il s'agit ici de la distance euclidienne classique. Deux points sont très voisins si, dans l'ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors caractérisés par des valeurs presque égales pour chaque variable. Dans l'exemple évoqué ci-dessus, deux individus représentés par des points proches consacrent les mêmes temps aux mêmes activités. Similitude entre individus Nuage de n points individus d i,' i x ij xi ' j dans R p j1 La «meilleure» image approchée e du nuage en projection sur une droite H : respecter au mieux les inter-distances entre tous les couples p (H) MaxH dh i,' i i i' A. Morineau 1 DeeNov,, 005 Alain Morineau Page 6 DeeNov

7 b - Pour les p variables Si les valeurs prises par deux variables particulières sont très voisines pour tous les individus, ces variables seront représentées par deux points très proches dans l espace à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu'elles sont liées par une relation particulière. Toutefois la définition de ces proximités dans les deux espaces est assez fruste. Des problèmes d'échelle de mesure se posent d'emblée : par exemple, le temps consacré au sommeil est toujours beaucoup plus important que le temps passé à la lecture. Liaisons entre les variables Une variable est définie d par les n valeurs qu elle prend sur les individus Les variables sont centrées es réduitesr On a donc pour la variable «j» : n 1 n i i1 d ( O, j) x 1 C est l él équation d une d sphère de rayon 1 : les vecteurs variables sont donc des points sur la surface d une d sphère dans n A. Morineau 13 DeeNov,, 005 Par ailleurs, dans un cadre plus général, comment calculer la distance entre deux variables si l'une est exprimée en centimètre et l'autre en kilogramme? Comment interpréter un éloignement moyen dans R p? Est-ce que deux individus assez proches dans R p ont des valeurs assez voisines pour chacune des variables, ou au contraire très proches pour certaines et éloignées pour d'autres? L'analyse en composantes principales normée permet de donner des éléments de réponses à ces questions. c - Notion d éléments actifs et illustratifs Le tableau de données contient une assez grande quantité de variables, ce qui est une caractéristique habituelle des études appliquées. En fait les variables peuvent se regrouper selon des thèmes. Si l analyse cherche à comparer des villes en fonction des caractéristiques de leur population, on trouvera une série de variables relatives aux dépenses sur différents postes (vêtement, loyer, véhicule, services, etc.) dont l ensemble doit concourrir à Alain Morineau Page 7 DeeNov

8 Villes donner une idée de la cherté de la vie. D'autres variables informent sur le niveau des salaires, répartis selon 1 professions. Enfin, d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici à comparer les villes en tenant compte simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à interpréter car elles peuvent avoir des causes multiples et de nature très différentes. Il est plus raisonnable de sélectionner un groupe de variables, ce groupe étant homogène par rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c est-à-dire un groupe de variables, définit un certain point de vue choisi par l utilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre éléments sera plus facile à interpréter. Les variables choisies, appelées variables actives, constituent donc les seuls éléments utilisés pour comparer les éléments entre eux. Cela ne signifie pas que le reste de l'information soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des explications pour les similitudes et différences observées entre les éléments. C'est pour cela que l on appelle illustratives ou supplémentaires les autres variables. Toute analyse statistique commence donc par le choix des éléments actifs. Variables p=40 n=51 Variables actives Variables illustratives Choix du thème actif et des variables illustratives Dans ce qui suit on s intéresse aux éléments actifs seuls. Les éléments illustratifs sont introduits plus tard. Alain Morineau Page 8 DeeNov

9 Analyse du nuage des individus Nous considérons tout d'abord le nuage des n individus (non pondérés ou pondérés suivant les nécessités de l analyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace à une, puis deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus fidèle possible des proximités existant entre les n individus vis-à-vis des p variables. a - Comment voir les distances entre individus? Situé dans un espace de dimension élevée, le nuage des points-lignes (comme celui des points-colonnes) n est pas visible. L essentiel de l analyse en composantes principales réside dans la recherche d un plan (appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projetés sur ce plan soit aussi semblable que possible à la configuration réelle des points dans l espace complet. Nous y parviendrons en rendant globalement les distances entre les points projetés sur ce plan aussi proches que possible des distances réelles entre les points de l'espace d'origine. Considérons par exemple le nuage des n points-individus dans l espace où chaque axe représente une variable d'origine. La figure schématise la situation dans le cas de 3 variables seulement. var 3 F i d X (i,i') i' var d F (i,i') i i' F 1 var 1 Espace d'origine Représentation du nuage des points- lignes dans le premier plan factoriel Espace factoriel (plan de projection) Il s'agit de trouver le plan tel que, globalement, l ensemble des d F (i,i' ) mesurés dans le plan pour tous les couples de points, se rapproche autant que possible des distances réelles d X (i,i' ) mesurées dans l'espace d'origine. Alain Morineau Page 9 DeeNov

10 b - Comment trouver les plans de projection L objectif est de choisir le sous-espace de dimension réduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir? Quel critère d'ajustement entre les distances réelles et les distances projetées peut-on utiliser pour déterminer le plan de projection? On cherche le plan qui maximise la dispersion (l étalement) des points projetés: MaxH dh ( i, i ') i i' formule où H représente le sous-espace de projection. On peut montrer que la somme des carrés des distances entre tous les couples de points est égale à la somme des carrés des distances au centre de gravité (multipliée par n). Pour la recherche du maximum, on a : MaxH dh ( i, i') MaxH n dh ( i, G) i i' i Ainsi, maximiser la somme des distances projetées revient à maximiser la dispersion autour du centre de gravité dans le plan de projection. La formule, qui n est autre que l expression du théorème de Pythagore, décompose la dispersion du nuage (une quantitée fixe), en deux termes: la dispersion dans le plan de projection et un terme complémentaire qui est la somme des distances des points au plan de projection (voir la figure). i d(i,g) d i G H (, ) i H H G dh ( i, G ) Décomposition de la distance d'un point- ligne au centre de gravité du nuage. Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus près du nuage (au sens du critère des moindres carrés). Alain Morineau Page 10 DeeNov

11 C est ce qu exprime l égalité : d ( i, G) dh ( i, G) d ( i, G) H i i i Par conséquent : Max dh ( i, G) Min d ( i, G) H i i c - Principe de l'ajustement On va chercher à rendre maximum la somme des carrés des distances entre tous les couples d'individus : Max (H ) n i n d H (i,i' ) i' La droite d'ajustement H 1 que l on cherche doit passer au plus près du nuage de points sans être astreinte à passer par l'origine. H 0 espace R p O H 1 Droite d'ajustement du nuage de n points individus Si h i et h i' désignent les valeurs des projections de deux pointsindividus i et i' sur H 1, on a la relation classique : n d n (i,i' ) (h i h i' ) n n n n nh i nh i' h i h i' i,i' i,i' i,i' i,i' i i' n ( 1 n h i h n ) n (h i h ) n i i O i d(i,i') h h i' i d (i,i') H 1 i' H 1 Projections sur H 1 Alain Morineau Page 11 DeeNov

12 où h désigne la moyenne des projections des n individus : h 1 n n i h i et correspond à la projection sur H 1 du centre de gravité G du nuage dont la j ème coordonnée vaut : r j 1 n n i r ij Par conséquent, on a : n d n (i,i' ) n d (i,g) i,i' i Analyse Générale G : problème X x i u y y i = x i u y = Xu Maximiser {u X Xu} avec u u = 1 0 u x i y i F A. Morineau 7 DeeNov,, 005 Rendre maximum la somme des carrés des distances entre tous les couples d'individus revient à maximiser la somme des carrés des distances entre les points et le centre de gravité du nuage G : est équivalent à : n Max ( H ) d H (i, i' ) i, i n Max ( H ) d H (i,g) i Si l'origine est prise en G, la quantité à maximiser sera à nouveau la somme des carrés des distances à l'origine. Le sous-espace cherché résulte de l'analyse générale du tableau transformé X, de terme général (données brutes notées r) : x ij r ij r j Alain Morineau Page 1 DeeNov

13 Meilleur plan de projection Axes factoriels z Nuage Facteur n x Meilleur plan A. Morineau 5 DeeNov,, 005 y Facteur n1 A. Morineau 6 DeeNov,, 005 d - Distance entre individus La distance entre deux individus i et i' est la distance euclidienne usuelle. Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'échelles très diverses, (exemple : temps passé au sommeil, temps passé à la lecture) ; on veut que la distance entre deux points soit indépendante des unités sur les variables. Par ailleurs, on peut désirer, surtout lorsque les unités de mesures ne sont pas les mêmes, faire jouer à chaque variable un rôle identique dans la définition des proximités entre individus : on parle alors d'analyse en composantes principales normée. Pour cela on corrige les échelles en adoptant la distance : d (i,i' ) p j1 s j désignant l'écart-type de la variable j : s j 1 n ( r ij r i' j s j n ) (r ij r j ) Finalement, nous retiendrons que l'analyse normée dans R p du tableau brut R est l'analyse du tableau X des données centrées er réduites, de terme général : x ij n i1 r ij r j s j n Toutes les variables ainsi transformées sont "comparables" et ont même dispersion : s (x j ) = 1 Alain Morineau Page 13 DeeNov

14 Les variables sont centrées réduites, ce qui signifie qu on mesure l'écart à la moyenne en nombre d'écarts-types de la variable j. e - Matrice à diagonaliser L'analyse du nuage des points-individus dans R p nous a amené à effectuer une translation de l'origine au centre de gravité de ce nuage et à changer, dans le cas de l'analyse normée, les échelles sur les différents axes. L'analyse du tableau transformé X nous conduit à diagonaliser la matrice C = X'X. Le terme général c jj' de cette matrice s'écrit : soit : c'est-à-dire : c jj ' 1 n n i c jj ' n i x ij x ij ' (r ij r j )(r ij ' r j' ) s j s j' c jj ' cor(j, j' ) c jj' n'est autre que le coefficient de corrélation entre les variables j et j' (d'où l'utilité du coefficient n introduit au dénominateur dans la transformation des données). La matrice à diagonaliser est donc la matrice de corrélations. Distance entre variables Distance basée sur la corrélation, 1, d j k cor j k j o o o j k k j k cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) ( d² ) cor(j,k) -1 d(j,k) ( d² 4 ) A. Morineau 16 DeeNov,, 005 Corrélations et distances entre points-variables Alain Morineau Page 14 DeeNov

15 f - Composantes Principales Nous allons considérer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de décomposer l'inertie de ce nuage selon une série de directions orthogonales. Nous allons commencer par le sous-espace le plus simple, c'est à dire une ligne droite. Nous pouvons imaginer une droite définie par un vecteur de longueur unité u. Nous essayerons de définir u de telle manière que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances représentées entre couples de points doivent être aussi proches que possible des distances réelles entre points. La projection (ou coordonnée) d'un point sur la direction définie par le vecteur unitaire u, est égale à: p i x ij u j j1 par conséquent, l'inertie (ou variance) de tous les points projetés sur u sera : n p i i1 i Matrice des données i i i u i u Projection d'un point-ligne sur la direction définie par un vecteur unitaire Il s'agit donc de chercher la droite u qui rende maximale la valeur de. Si on appelle X le tableau des données (données centrées), cela conduit à diagonaliser la matrice X'X. Cette matrice est égale à la matrice de corrélations entre les variables dans le cas d'une ACP normée, et elle est égale à la matrice des covariances dans le cas d'une ACP non normée. Le vecteur unitaire recherché u est le vecteur propre associé à la plus grande valeur propre obtenue dans la diagonalisation de X'X. Alain Morineau Page 15 DeeNov

16 L'opération de diagonalisation consiste à chercher les directions de la dispersion maximale de l'ellipsoïde défini par X'X. Le résultat de l'opération de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsoïde) et q valeurs propres (inertie de chaque axe), où q est le rang de X'X.. De manière analogue, la direction orthogonale à u, qui en même temps maximise l'inertie projetée, correspond au vecteur propre associé à la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projetée est égale à la seconde valeur propre, et ainsi de suite. Diagonalisation de X'X Valeurs propres Vecteurs propres 1 u 1 u p u p Les valeurs propres donnent directement les inerties projetées sur chacune des directions que nous cherchons. L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est égale à l'inertie du nuage de points. IT 1 p R S T p p j var(j) en ACP normee en ACP non norme e Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels. Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linéaires particulières des variables d'origine. Leur variance est égale à leur valeur propre. u 1 x 1 u p x p var( ) L'Analyse en Composantes Principales consiste donc à passer des p variables d'origine x j, chacune d'elles avec une importance mesurée par sa variance, à p nouvelles variables combinaisons linéaires de celles d'origine, chacune avec une importance mesurée par sa variance, égale à le valeur propre (voir la figure). Alain Morineau Page 16 DeeNov

17 Variables Axes factoriels Var 3 Axe 1 Axe Var Var 1 Changement de base et réduction de la dimentionnalité Projections des Variables a - Nature de la projection De même que nous avons réalisé l'ajustement des points-lignes, nous pouvons procéder à l'ajustement des points-colonnes (les variables) dans un espace de dimension réduit qui préserve au mieux les distances d'origine (les corrélations). Mathématiquement, cela conduit à diagonaliser la matrice XX. Ajustement des points-lignes p Diagonaliser p X'X X= Matrice de Données p Ajustement des points-colonnes n n XX' n Matrices à diagonaliser dans les deux ajustements. Comme précédemment, on obtient la décomposition de l'inertie selon les directions définies par les vecteurs propres de la matrice XX'. L'inertie projetée sur chaque direction est égale à la valeur propre associée. Alain Morineau Page 17 DeeNov

18 Nuage des variables Nuage des p variables (approximation dans R n ) Un plan factoriel (v1,v) coupe la sphère suivant un grand cercle (de rayon 1) Les points-variables tombent à l intérieur Espace R n 4 F 1 F 1 F1 F Projection de quatre variables A. Morineau 17 DeeNov,, 005 Représentation de la sphère et du cercle des corrélations La droite d'inertie maximale se trouve définie par le vecteur propre v (définissant la direction F1), associé à la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant à cette droite, la direction F du vecteur propre associé à la seconde valeur propre, et ainsi de suite. ind 3 v 3 Axe 1 v v 4 v 1 ind ind 1 Axe Nuage des variables et axes factoriels dans l espace des individus. La représentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui définit la direction de l'axe. Soit j la coordonnée de la variable j sur l axe. On aura: n xij x j vi i1 s j Alain Morineau Page 18 DeeNov

19 v v 3 Axe 1 v 4 v 1 v Axe v 3 v 4 Axe 1 Axe v 1 Projection des variables sur le premier plan factoriel. L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il n existe pas de pondération des points-variables (les variables jouent un rôle qui est fonction de leurs variances). p j1 j On remarque que l'inertie des points-variables projeté sur un axe est la même que celle des points-lignes sur l axe de même rang (mathématiquement, on dira que les valeurs propres non nulles de XX' sont identiques à celles de X'X.) Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition. Dans la pratique, il suffit de réaliser un seul ajustement; à partir de celui-ci, on obtient l autre. On réalise en général l'ajustement de plus faible coût, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calculée en fonction des axes factoriels du nuage des points-ligne : j u j Cette formule permettra ultérieurement d'interpréter la représentation simultanée des villes et des variables (lignes et colonnes du tableau). Il est clair que le nuage de points-variable n'est pas centré. Il arrive que tous les points-variables soient situés du même côté par rapport à l origine sur le premier axe. Alain Morineau Page 19 DeeNov

20 On peut voir que, dans le cas d une analyse normée, la coordonnée d une variable sur un axe coïncide avec la corrélation de cette variable avec la composante principale (projection des individus sur l axe factoriel de même rang): j cor( x j, ) Cette formule joue un rôle important pour l'interprétation des résultats. Elle met en relation les représentations des points-lignes avec les représentations des points-colonnes. Une corrélation élevée indique que la disposition des individus sur l'axe factoriel est semblable à l'ordonnance des individus selon la variable (la corrélation unité signifierait que la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable. b - Facteur de taille Dans certains cas, la première composante principale nait de la forte corrélation entre les variables actives. La première composante se situe alors au milieu du faisceau des variables actives. Cette situation peut s interprêter de la façon suivante. D une façon générale, si une valeur est forte pour une variable, les valeurs sont fortes pour l ensemble des variables. C est la généralité de cette observation sur l ensemble du tableau qui constitue dans ce cas la structure la plus forte des données et engendre le premier facteur. C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue. Ce résultat est assez fréquent en ACP. Dans ce cas, la matrice de corrélations des variables ordonnées selon leur projection sur ce facteur, présente une structure particulière: corrélations élevées près de la diagonale et décroissantes quand on s éloigne de la diagonale (on obtient une sériation des corrélations). c - Les matrices implicites des distances Les matrices des distances existent mais on ne les calcule pas explicitement. Les lignes sont situées dans un espace usuel où la distance se mesure par une formule classique. Dans le cas de l'analyse normée: d p x ij x i' j (i,i' ) s j j1 Alain Morineau Page 0 DeeNov

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com Le contexte méthodologique Les techniques descriptives multidimensionnelles et techniques de Data mining (mises en œuvre par exemple dans le logiciel SPAD que nous avons développé au sein de la société

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie Annette Paugam Diagonalisation des auto-adjoints Applications aux formes quadratiques : Directions principales Applications en Géométrie, en Statistique et en Mécanique Les paragraphes, 2, 3 donnent un

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Notes de cours L1 MATH120. Hervé Le Dret

Notes de cours L1 MATH120. Hervé Le Dret Notes de cours L1 MATH120 Hervé Le Dret 18 octobre 2004 40 Chapitre 3 Vecteurs dans R m Dans ce chapitre, nous allons nous familiariser avec la notion de vecteur du point de vue algébrique. Nous reviendrons

Plus en détail

Espaces vectoriels et applications linéaires

Espaces vectoriels et applications linéaires Espaces vectoriels et applications linéaires Exercice 1 On considère l'ensemble E des matrices carrées d'ordre 3 défini par,,, 1) Montrer que est un sous-espace vectoriel de l'espace vectoriel des matrices

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Espaces vectoriels euclidiens. Groupe orthogonal

Espaces vectoriels euclidiens. Groupe orthogonal 19 Espaces vectoriels euclidiens. Groupe orthogonal Dans un premier temps, E est un espace vectoriel réel de dimension n 1. 19.1 Espaces vectoriels euclidiens Dénition 19.1 On dit qu'une forme bilinéaire

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Les macros SAS. d'analyse des données

Les macros SAS. d'analyse des données INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES DIRECTION GÉNÉRALE 18, boulevard Adolphe Pinard - 75675 PARIS CEDEX 14 Les macros SAS d'analyse des données Document n F 9405 15 mars 1994

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES

Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES Nous abordons dans ce chapitre l analyse de données statistiques particulières

Plus en détail

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes :

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes : .1 Espace vectoriel Un espace vectoriel de dimension p sur le corps des reels IR est une construction mathematique dont les elements sont des vecteurs. Il est deni par deux operations : L'addition. Soient

Plus en détail

SUJET INÉDIT 1. Dossier 1. Charges et choix d une unité d œuvre 4 points 45 minutes CHAPITRES 1 et 4

SUJET INÉDIT 1. Dossier 1. Charges et choix d une unité d œuvre 4 points 45 minutes CHAPITRES 1 et 4 SUJET INÉDIT 1 La société Coupe & Shampoing Coupe & Shampoing est un salon de coiffure indépendant. Afin de faire face à la concurrence de salons de coiffure franchisés, son dirigeant, Kamel, aimerait

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Examen d'analyse des données

Examen d'analyse des données Université d'angers Janvier 2007 Master 1 MIM : Analyse des données Examen d'analyse des données Durée : 3 heures Les documents ne sont pas autorisés. La calculatrice est autorisée. Exercice I (7 points)

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q 1 Codes linéaires Un code de longueur n est une partie de F n q. Un code linéaire C de longueur n sur le corps ni F q est un sous-espace vectoriel de F n q. Par défaut, un code sera supposé linéaire. La

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

2. MATRICES ET APPLICATIONS LINÉAIRES

2. MATRICES ET APPLICATIONS LINÉAIRES 2. MATRICES ET APPLICATIONS LINÉAIRES 2.1 Définition Une matrice n m est un tableau rectangulaire de nombres (réels en général) à n lignes et m colonnes ; n et m sont les dimensions de la matrice. Notation.

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système.

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système. Sept outils du management (Les) Introduction Diagramme des relations Diagramme des affinités Diagramme en arbre Diagramme matriciel Diagramme des décisions d'action (PDPC) Diagramme sagittal (CPM) Analyse

Plus en détail

Examen d accès - 28 Septembre 2012

Examen d accès - 28 Septembre 2012 Examen d accès - 28 Septembre 2012 Aucun document autorisé - Calculatrice fournie par le centre d examen Cet examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France 1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011 Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

TD 2 Exercice 1. Un bûcheron a 100 hectares de bois de feuillus. Couper un hectare de bois et laisser la zone se régénérer naturellement coûte 10 kf par hectares, et rapporte 50 kf. Alternativement, couper

Plus en détail

MATHEMATIQUES. Premier Cycle TROISIEME

MATHEMATIQUES. Premier Cycle TROISIEME MATHEMATIQUES Premier Cycle TROISIEME 79 INTRODUCTION Le programme de la classe de troisième, dernier niveau de l enseignement moyen, vise à doter l élève de savoirs faire pratiques par une intégration

Plus en détail

L'AFC pour les nuls. Mise à jour du 21 janvier 2010. Dernière version des diapos disponible ici : analyse factorielle des composantes

L'AFC pour les nuls. Mise à jour du 21 janvier 2010. Dernière version des diapos disponible ici : analyse factorielle des composantes L'AFC pour les nuls Mise à jour du 21 janvier 2010 Dernière version des diapos disponible ici : analyse factorielle des composantes Source des images indiquées au-dessous ou en cliquant sur l image Cours

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3 Chapitre 5 Systèmes linéaires 1 Généralités sur les systèmes linéaires 2 11 Définitions 2 12 Opérations élémentaires 2 13 Systèmes échelonnés et triangulaires 3 2 Résolution des systèmes linéaires 3 21

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES

1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES 1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES Si vous lisez ce livre c est que, probablement, vous faites des expériences et que vous cherchez à mieux les organiser. Vous cherchez surtout

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé ALGÈBRE PAD - Notes de cours S. Rigal, D. Ruiz, et J. C. Satgé November 23, 2006 Table des Matières Espaces vectoriels Applications linéaires - Espaces vectoriels............................... 3 -. Approche

Plus en détail

Préparation à réaliser avant le début du TP

Préparation à réaliser avant le début du TP Préparation à réaliser avant le début du TP Soit une suite de points p 0,p 1,... p n du plan (n>=3). On cherche à approximer l'ensemble de ces points par une droite. Écrivez le système d'équations (sur

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

THEORIE FINANCIERE Préparation à l'examen

THEORIE FINANCIERE Préparation à l'examen THEORIE FINANCIERE Préparation à l'examen N.B. : Il faut toujours justifier sa réponse. 1. Qu'est-ce que l'axiomatique de Von Neumann et Morgenstern? La représentation des préférences des investisseurs

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Chapitre 6 Méthodes de Krylov 611 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Dans le cas où la matrice A n est pas symétrique, comment peut-on retrouver une matrice de corrélation

Plus en détail

2010 My Maths Space Page 1/6

2010 My Maths Space Page 1/6 A. Des statistiques aux probabilités 1. Statistiques descriptives, analyse de données. Vocabulaire des statistiques : Population : c'est l'ensemble étudié. Individu : c'est un élément de la population.

Plus en détail

Traitements appliqués à la photointerprétation

Traitements appliqués à la photointerprétation Traitements numériques des images de télédétection Traitements appliqués à la photointerprétation OLIVIER DE JOINVILLE 3e partie Table des matières I - L'analyse en composantes principales 5 II - La détection

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION Dans les leçons précédentes, nous avons modélisé des problèmes en utilisant des graphes. Nous abordons dans cette leçon un autre type de modélisation.

Plus en détail

Analyse de la variance

Analyse de la variance M2 Statistiques et Econométrie Fanny MEYER Morgane CADRAN Margaux GAILLARD Plan du cours I. Introduction II. Analyse de la variance à un facteur III. Analyse de la variance à deux facteurs IV. Analyse

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

2. Formalisation ... Or les variables sont indépendantes. Donc si

2. Formalisation ... Or les variables sont indépendantes. Donc si L'estimation 1. Concrètement... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais plus exactement, disons 7,1 cm. C'est peut-être un peu moins

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

TECHNIQUES STATISTIQUES

TECHNIQUES STATISTIQUES TECHNIQUES STATISTIQUES, enseignant à l'institut d'administration des Entreprises, Université Nancy 2 SOMMAIRE 1. Introduction 3 2. Contrôle statistique des lots 3 2.1 Champ d'application 3 2.2 Niveau

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

CHAPITRE 2 CALCULS ALGEBRIQUES

CHAPITRE 2 CALCULS ALGEBRIQUES Classe de Troisième CHAPITRE CALCULS ALGEBRIQUES UTILISER DES LETTRES... 34 EXPRESSIONS EQUIVALENTES... 36 VOCABULAIRE DU CALCUL LITTERAL... 37 REDUCTIONS D'ECRITURES... 39 DEVELOPPER UN PRODUIT... 40

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

X-ENS PSI - 2009 Un corrigé

X-ENS PSI - 2009 Un corrigé X-ENS PSI - 009 Un corrigé Première partie.. Des calculs élémentaires donnent χ A(α) = χ B(α) = X X + et χ A(α)+B(α) = X X + 4α + 4 On en déduit que Sp(A(α)) = Sp(B(α)) = {j, j } où j = e iπ 3 Sp(A(α)

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Série statistique double à l aide d un exemple

Série statistique double à l aide d un exemple Série statistique double à l aide d un exemple Série statistique double: exemple... 2 Série statistique double: questions posées... 3 Calcul de la covariance sur la base de l'exemple... 4 Calcul du coefficient

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail