Introduction. Préambule. Le contexte

Dimension: px
Commencer à balayer dès la page:

Download "Introduction. Préambule. Le contexte"

Transcription

1 Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments actifs et illustratifs... 7 ANALYSE DU NUAGE DES INDIVIDUS... 9 a - Comment voir les distances entre individus?... 9 b - Comment trouver les plans de projection c - Principe de l'ajustement d - Distance entre individus e - Matrice à diagonaliser f - Composantes Principales PROJECTIONS DES VARIABLES a - Nature de la projection b - Facteur de taille... 0 c - Les matrices implicites des distances... 0 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES... 1 a - Individus supplémentaires... b - Contribution d un individu à la fabrication d un axe... c - Qualité du positionnement d un point... 3 d - Notion de représentation simultanée en ACP... 5 e - Détails sur la représentation simultanée... 5 f - Variables continues supplémentaires... 8 g - Variables nominales supplémentaires LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST a - Principe b - La valeur-test pour la caractérisation des modalités c - La valeur-test pour la caractérisation des axes d - Les valeurs-tests et le Data mining ACP NON NORMEE Retenir l essentiel... 4 RELATIONS ENTRE LES AJUSTEMENTS DES NUAGES RECONSTITUTION APPROCHEE. COMBIEN D AXES RETENIR? GLOSSAIRE SUCCINCT QUELQUES REFERENCES Alain Morineau Page 1 DeeNov

2 Préambule Ce document, téléchargeable sur le site illustre les différents aspects de l analyse en composantes principales, ses fondements, ses caractéristiques techniques et pratiques, ses domaines d application et ses règles d interprétation. Il constitue aussi une introduction à l utilisation de la méthode et comporte les principaux développements techniques. En complément, on pourra se procurer, à la page Formation du site un support de formation à cette technique. Ce support inclut plus de 100 diapositives animées, réparties en plusieurs chapitres et largement commentées de vive voix. La formation en question s appuie sur une présentation visuelle accompagnée d un commentaire audio complet. Le texte peut être visualisé en même temps que les commentaires des diapos seront écoutés. L utilisateur navigue librement entre les chapitres, les réécoute à volonté et fait les pauses qui lui conviennent. Introduction Le contexte L analyse en composantes principales, souvent notée ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en 004. Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. L'opération de l'analyse de Composantes Principales consiste à passer d un tableau des données brutes, contenant toute l'information recueillie sur le phénomène que nous souhaitons étudier, à certaines représentations visuelles des données. Cette opération entraînera une certaine perte "d'information" que l on essaie de minimiser. En échange, on obtient un gain en "signification", en particulier grâce aux représentations graphiques. Autrement dit, on passe du "magma" des données d origine à des graphiques interprétables par l'utilisateur. Pour l'interprétation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'acp et la naturevdes résultats qu'elle produit. On trouvera une présentation détaillée des méthodes dans les ouvrages cités en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Alain Morineau Page DeeNov

3 Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes complexes et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Ana. factorielles et Classifications Présentation invisible dans l'espace complet F 1 F Visualisation dans le "meilleur" espace réduit Classification (dans l'espace complet) A. Morineau 3 DeeNov,, 005 Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles". Visualisation et Ana. de données Eclairage d un objet 3D et sa visualisation sur des plans de projection Certaines projections apportent plus d information que d autres La clé de l anayse factorielle est dans le choix des meilleures projections A. Morineau 4 DeeNov,, 005 Alain Morineau Page 3 DeeNov

4 Les techniques factorielles reposent toutes sur une propriété mathématique des tableaux rectangulaires : la décomposition aux valeurs singulières (décomposition due à Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables (colonnes). Cette "restitution des individus à la statistique", essentiellement due à Jean-Paul Benzécri, induit une attitude nouvelle vis-à-vis des traitements statistiques des données multidimentionnelles. Bref historique de l ACP Conçue par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales (ACP) n'est vraiment utilisée que depuis la large diffusion des moyens de calcul informatique. La technique d'analyse en composantes principales peut être présentée de divers points de vue. Pour le statisticien classique, il s'agit de la recherche des axes principaux de l'ellipsoïde d'une distribution normale multidimensionnelle, ces axes étant estimés à partir d'un échantillon. C'est la présentation initiale de Hotelling (l933), puis celle des manuels classiques d'analyse multivariée. Pour le factorialiste classique, il s'agit d'un cas particulier de la méthode d'analyse factorielle des psychométriciens (cas de variances spécifiques nulles ou égales). Enfin, du point de vue plus récent des analystes de données, il s'agit d'une technique de représentation des données, ayant un caractère optimal selon certains critères algébriques et géométriques, et que l'on utilise en général sans référence à des hypothèses de nature statistique ni à un modèle particulier. Ce point de vue, fort répandu actuellement est peut-être le plus ancien. C'est celui qui avait été adopté par Pearson (1901). Bien entendu, il ne s'agissait pas de l'analyse en composantes principales telle que nous la présentons, mais les idées essentielles de la méthode étaient déjà présentées par cet auteur. L'analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage des points-individus peut être centré ou non, réduit ou non. Parmi ces variantes, l'analyse en composantes principales normée (nuage centréréduit) est certainement la plus utilisée et c'est celle-ci que nous choisissons pour présenter les principes de l'analyse. Alain Morineau Page 4 DeeNov

5 Domaine d'application L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possède un tableau rectangulaire de mesures, dont les colonnes figurent des variables à valeurs numériques continues (des mensurations, des taux, etc.) et dont les lignes représentent les individus sur lesquels ces variables sont observées. D'une manière générale, la condition que doivent remplir ces tableaux numériques pour être l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en général) est formée d'unités ayant un caractère répétitif, l'autre pouvant être éventuellement plus hétérogène. Les lignes (qui ont ce caractère répétitif) sont désignées en général sous le nom d'individus ou d'observations, les colonnes étant désignées sous le nom de variables. A titre d esemple, nous considérons le tableau X des mesures prises sur quelques milliers d individus actifs concernant leurs temps d'activités quotidiennes. On dispose par exemple de 16 variables décrivant des temps d'activité, en minutes par jour (sommeil, repos, repas chez soi, etc.). Tableau des données X (n,p) Variables (dizaines, centaines) continues nominales ordinales textuelles etc.... Individus statistiques (centaines, milliers) A. Morineau 1 DeeNov,, 005 Le tableau X aura donc en colonne les mesures caractérisant ces observations. Le terme général x ij de ce tableau décrit la durée de l'activité j de l individu i. L objectif est de donner une idée de la structure de l'ensemble des 16 activités, ainsi que des similitudes éventuelles de comportement entre les groupes d'individus. Alain Morineau Page 5 DeeNov

6 Interprétations géométriques Les représentations géométriques entre les lignes et entre les colonnes du tableau de données permettent de visualiser les proximités entre les individus et entre les variables. Principe géomg ométrique de l ACPl X(n,p) i i' j j' R p Ressemblance entre individus R n Liaisons entre variables A. Morineau 11 DeeNov,, 005 a - Pour les n individus Dans l'espace à p coordonnées où se trouvent les individus, les n(n-1) distances attachées aux couples de points individus ont une interprétation directe pour l'utilisateur : p (, ) ( ij i' j ) j1 d i i x x Il s'agit ici de la distance euclidienne classique. Deux points sont très voisins si, dans l'ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors caractérisés par des valeurs presque égales pour chaque variable. Dans l'exemple évoqué ci-dessus, deux individus représentés par des points proches consacrent les mêmes temps aux mêmes activités. Similitude entre individus Nuage de n points individus d i,' i x ij xi ' j dans R p j1 La «meilleure» image approchée e du nuage en projection sur une droite H : respecter au mieux les inter-distances entre tous les couples p (H) MaxH dh i,' i i i' A. Morineau 1 DeeNov,, 005 Alain Morineau Page 6 DeeNov

7 b - Pour les p variables Si les valeurs prises par deux variables particulières sont très voisines pour tous les individus, ces variables seront représentées par deux points très proches dans l espace à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu'elles sont liées par une relation particulière. Toutefois la définition de ces proximités dans les deux espaces est assez fruste. Des problèmes d'échelle de mesure se posent d'emblée : par exemple, le temps consacré au sommeil est toujours beaucoup plus important que le temps passé à la lecture. Liaisons entre les variables Une variable est définie d par les n valeurs qu elle prend sur les individus Les variables sont centrées es réduitesr On a donc pour la variable «j» : n 1 n i i1 d ( O, j) x 1 C est l él équation d une d sphère de rayon 1 : les vecteurs variables sont donc des points sur la surface d une d sphère dans n A. Morineau 13 DeeNov,, 005 Par ailleurs, dans un cadre plus général, comment calculer la distance entre deux variables si l'une est exprimée en centimètre et l'autre en kilogramme? Comment interpréter un éloignement moyen dans R p? Est-ce que deux individus assez proches dans R p ont des valeurs assez voisines pour chacune des variables, ou au contraire très proches pour certaines et éloignées pour d'autres? L'analyse en composantes principales normée permet de donner des éléments de réponses à ces questions. c - Notion d éléments actifs et illustratifs Le tableau de données contient une assez grande quantité de variables, ce qui est une caractéristique habituelle des études appliquées. En fait les variables peuvent se regrouper selon des thèmes. Si l analyse cherche à comparer des villes en fonction des caractéristiques de leur population, on trouvera une série de variables relatives aux dépenses sur différents postes (vêtement, loyer, véhicule, services, etc.) dont l ensemble doit concourrir à Alain Morineau Page 7 DeeNov

8 Villes donner une idée de la cherté de la vie. D'autres variables informent sur le niveau des salaires, répartis selon 1 professions. Enfin, d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici à comparer les villes en tenant compte simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à interpréter car elles peuvent avoir des causes multiples et de nature très différentes. Il est plus raisonnable de sélectionner un groupe de variables, ce groupe étant homogène par rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c est-à-dire un groupe de variables, définit un certain point de vue choisi par l utilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre éléments sera plus facile à interpréter. Les variables choisies, appelées variables actives, constituent donc les seuls éléments utilisés pour comparer les éléments entre eux. Cela ne signifie pas que le reste de l'information soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des explications pour les similitudes et différences observées entre les éléments. C'est pour cela que l on appelle illustratives ou supplémentaires les autres variables. Toute analyse statistique commence donc par le choix des éléments actifs. Variables p=40 n=51 Variables actives Variables illustratives Choix du thème actif et des variables illustratives Dans ce qui suit on s intéresse aux éléments actifs seuls. Les éléments illustratifs sont introduits plus tard. Alain Morineau Page 8 DeeNov

9 Analyse du nuage des individus Nous considérons tout d'abord le nuage des n individus (non pondérés ou pondérés suivant les nécessités de l analyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace à une, puis deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus fidèle possible des proximités existant entre les n individus vis-à-vis des p variables. a - Comment voir les distances entre individus? Situé dans un espace de dimension élevée, le nuage des points-lignes (comme celui des points-colonnes) n est pas visible. L essentiel de l analyse en composantes principales réside dans la recherche d un plan (appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projetés sur ce plan soit aussi semblable que possible à la configuration réelle des points dans l espace complet. Nous y parviendrons en rendant globalement les distances entre les points projetés sur ce plan aussi proches que possible des distances réelles entre les points de l'espace d'origine. Considérons par exemple le nuage des n points-individus dans l espace où chaque axe représente une variable d'origine. La figure schématise la situation dans le cas de 3 variables seulement. var 3 F i d X (i,i') i' var d F (i,i') i i' F 1 var 1 Espace d'origine Représentation du nuage des points- lignes dans le premier plan factoriel Espace factoriel (plan de projection) Il s'agit de trouver le plan tel que, globalement, l ensemble des d F (i,i' ) mesurés dans le plan pour tous les couples de points, se rapproche autant que possible des distances réelles d X (i,i' ) mesurées dans l'espace d'origine. Alain Morineau Page 9 DeeNov

10 b - Comment trouver les plans de projection L objectif est de choisir le sous-espace de dimension réduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir? Quel critère d'ajustement entre les distances réelles et les distances projetées peut-on utiliser pour déterminer le plan de projection? On cherche le plan qui maximise la dispersion (l étalement) des points projetés: MaxH dh ( i, i ') i i' formule où H représente le sous-espace de projection. On peut montrer que la somme des carrés des distances entre tous les couples de points est égale à la somme des carrés des distances au centre de gravité (multipliée par n). Pour la recherche du maximum, on a : MaxH dh ( i, i') MaxH n dh ( i, G) i i' i Ainsi, maximiser la somme des distances projetées revient à maximiser la dispersion autour du centre de gravité dans le plan de projection. La formule, qui n est autre que l expression du théorème de Pythagore, décompose la dispersion du nuage (une quantitée fixe), en deux termes: la dispersion dans le plan de projection et un terme complémentaire qui est la somme des distances des points au plan de projection (voir la figure). i d(i,g) d i G H (, ) i H H G dh ( i, G ) Décomposition de la distance d'un point- ligne au centre de gravité du nuage. Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus près du nuage (au sens du critère des moindres carrés). Alain Morineau Page 10 DeeNov

11 C est ce qu exprime l égalité : d ( i, G) dh ( i, G) d ( i, G) H i i i Par conséquent : Max dh ( i, G) Min d ( i, G) H i i c - Principe de l'ajustement On va chercher à rendre maximum la somme des carrés des distances entre tous les couples d'individus : Max (H ) n i n d H (i,i' ) i' La droite d'ajustement H 1 que l on cherche doit passer au plus près du nuage de points sans être astreinte à passer par l'origine. H 0 espace R p O H 1 Droite d'ajustement du nuage de n points individus Si h i et h i' désignent les valeurs des projections de deux pointsindividus i et i' sur H 1, on a la relation classique : n d n (i,i' ) (h i h i' ) n n n n nh i nh i' h i h i' i,i' i,i' i,i' i,i' i i' n ( 1 n h i h n ) n (h i h ) n i i O i d(i,i') h h i' i d (i,i') H 1 i' H 1 Projections sur H 1 Alain Morineau Page 11 DeeNov

12 où h désigne la moyenne des projections des n individus : h 1 n n i h i et correspond à la projection sur H 1 du centre de gravité G du nuage dont la j ème coordonnée vaut : r j 1 n n i r ij Par conséquent, on a : n d n (i,i' ) n d (i,g) i,i' i Analyse Générale G : problème X x i u y y i = x i u y = Xu Maximiser {u X Xu} avec u u = 1 0 u x i y i F A. Morineau 7 DeeNov,, 005 Rendre maximum la somme des carrés des distances entre tous les couples d'individus revient à maximiser la somme des carrés des distances entre les points et le centre de gravité du nuage G : est équivalent à : n Max ( H ) d H (i, i' ) i, i n Max ( H ) d H (i,g) i Si l'origine est prise en G, la quantité à maximiser sera à nouveau la somme des carrés des distances à l'origine. Le sous-espace cherché résulte de l'analyse générale du tableau transformé X, de terme général (données brutes notées r) : x ij r ij r j Alain Morineau Page 1 DeeNov

13 Meilleur plan de projection Axes factoriels z Nuage Facteur n x Meilleur plan A. Morineau 5 DeeNov,, 005 y Facteur n1 A. Morineau 6 DeeNov,, 005 d - Distance entre individus La distance entre deux individus i et i' est la distance euclidienne usuelle. Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'échelles très diverses, (exemple : temps passé au sommeil, temps passé à la lecture) ; on veut que la distance entre deux points soit indépendante des unités sur les variables. Par ailleurs, on peut désirer, surtout lorsque les unités de mesures ne sont pas les mêmes, faire jouer à chaque variable un rôle identique dans la définition des proximités entre individus : on parle alors d'analyse en composantes principales normée. Pour cela on corrige les échelles en adoptant la distance : d (i,i' ) p j1 s j désignant l'écart-type de la variable j : s j 1 n ( r ij r i' j s j n ) (r ij r j ) Finalement, nous retiendrons que l'analyse normée dans R p du tableau brut R est l'analyse du tableau X des données centrées er réduites, de terme général : x ij n i1 r ij r j s j n Toutes les variables ainsi transformées sont "comparables" et ont même dispersion : s (x j ) = 1 Alain Morineau Page 13 DeeNov

14 Les variables sont centrées réduites, ce qui signifie qu on mesure l'écart à la moyenne en nombre d'écarts-types de la variable j. e - Matrice à diagonaliser L'analyse du nuage des points-individus dans R p nous a amené à effectuer une translation de l'origine au centre de gravité de ce nuage et à changer, dans le cas de l'analyse normée, les échelles sur les différents axes. L'analyse du tableau transformé X nous conduit à diagonaliser la matrice C = X'X. Le terme général c jj' de cette matrice s'écrit : soit : c'est-à-dire : c jj ' 1 n n i c jj ' n i x ij x ij ' (r ij r j )(r ij ' r j' ) s j s j' c jj ' cor(j, j' ) c jj' n'est autre que le coefficient de corrélation entre les variables j et j' (d'où l'utilité du coefficient n introduit au dénominateur dans la transformation des données). La matrice à diagonaliser est donc la matrice de corrélations. Distance entre variables Distance basée sur la corrélation, 1, d j k cor j k j o o o j k k j k cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) ( d² ) cor(j,k) -1 d(j,k) ( d² 4 ) A. Morineau 16 DeeNov,, 005 Corrélations et distances entre points-variables Alain Morineau Page 14 DeeNov

15 f - Composantes Principales Nous allons considérer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de décomposer l'inertie de ce nuage selon une série de directions orthogonales. Nous allons commencer par le sous-espace le plus simple, c'est à dire une ligne droite. Nous pouvons imaginer une droite définie par un vecteur de longueur unité u. Nous essayerons de définir u de telle manière que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances représentées entre couples de points doivent être aussi proches que possible des distances réelles entre points. La projection (ou coordonnée) d'un point sur la direction définie par le vecteur unitaire u, est égale à: p i x ij u j j1 par conséquent, l'inertie (ou variance) de tous les points projetés sur u sera : n p i i1 i Matrice des données i i i u i u Projection d'un point-ligne sur la direction définie par un vecteur unitaire Il s'agit donc de chercher la droite u qui rende maximale la valeur de. Si on appelle X le tableau des données (données centrées), cela conduit à diagonaliser la matrice X'X. Cette matrice est égale à la matrice de corrélations entre les variables dans le cas d'une ACP normée, et elle est égale à la matrice des covariances dans le cas d'une ACP non normée. Le vecteur unitaire recherché u est le vecteur propre associé à la plus grande valeur propre obtenue dans la diagonalisation de X'X. Alain Morineau Page 15 DeeNov

16 L'opération de diagonalisation consiste à chercher les directions de la dispersion maximale de l'ellipsoïde défini par X'X. Le résultat de l'opération de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsoïde) et q valeurs propres (inertie de chaque axe), où q est le rang de X'X.. De manière analogue, la direction orthogonale à u, qui en même temps maximise l'inertie projetée, correspond au vecteur propre associé à la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projetée est égale à la seconde valeur propre, et ainsi de suite. Diagonalisation de X'X Valeurs propres Vecteurs propres 1 u 1 u p u p Les valeurs propres donnent directement les inerties projetées sur chacune des directions que nous cherchons. L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est égale à l'inertie du nuage de points. IT 1 p R S T p p j var(j) en ACP normee en ACP non norme e Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels. Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linéaires particulières des variables d'origine. Leur variance est égale à leur valeur propre. u 1 x 1 u p x p var( ) L'Analyse en Composantes Principales consiste donc à passer des p variables d'origine x j, chacune d'elles avec une importance mesurée par sa variance, à p nouvelles variables combinaisons linéaires de celles d'origine, chacune avec une importance mesurée par sa variance, égale à le valeur propre (voir la figure). Alain Morineau Page 16 DeeNov

17 Variables Axes factoriels Var 3 Axe 1 Axe Var Var 1 Changement de base et réduction de la dimentionnalité Projections des Variables a - Nature de la projection De même que nous avons réalisé l'ajustement des points-lignes, nous pouvons procéder à l'ajustement des points-colonnes (les variables) dans un espace de dimension réduit qui préserve au mieux les distances d'origine (les corrélations). Mathématiquement, cela conduit à diagonaliser la matrice XX. Ajustement des points-lignes p Diagonaliser p X'X X= Matrice de Données p Ajustement des points-colonnes n n XX' n Matrices à diagonaliser dans les deux ajustements. Comme précédemment, on obtient la décomposition de l'inertie selon les directions définies par les vecteurs propres de la matrice XX'. L'inertie projetée sur chaque direction est égale à la valeur propre associée. Alain Morineau Page 17 DeeNov

18 Nuage des variables Nuage des p variables (approximation dans R n ) Un plan factoriel (v1,v) coupe la sphère suivant un grand cercle (de rayon 1) Les points-variables tombent à l intérieur Espace R n 4 F 1 F 1 F1 F Projection de quatre variables A. Morineau 17 DeeNov,, 005 Représentation de la sphère et du cercle des corrélations La droite d'inertie maximale se trouve définie par le vecteur propre v (définissant la direction F1), associé à la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant à cette droite, la direction F du vecteur propre associé à la seconde valeur propre, et ainsi de suite. ind 3 v 3 Axe 1 v v 4 v 1 ind ind 1 Axe Nuage des variables et axes factoriels dans l espace des individus. La représentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui définit la direction de l'axe. Soit j la coordonnée de la variable j sur l axe. On aura: n xij x j vi i1 s j Alain Morineau Page 18 DeeNov

19 v v 3 Axe 1 v 4 v 1 v Axe v 3 v 4 Axe 1 Axe v 1 Projection des variables sur le premier plan factoriel. L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il n existe pas de pondération des points-variables (les variables jouent un rôle qui est fonction de leurs variances). p j1 j On remarque que l'inertie des points-variables projeté sur un axe est la même que celle des points-lignes sur l axe de même rang (mathématiquement, on dira que les valeurs propres non nulles de XX' sont identiques à celles de X'X.) Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition. Dans la pratique, il suffit de réaliser un seul ajustement; à partir de celui-ci, on obtient l autre. On réalise en général l'ajustement de plus faible coût, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calculée en fonction des axes factoriels du nuage des points-ligne : j u j Cette formule permettra ultérieurement d'interpréter la représentation simultanée des villes et des variables (lignes et colonnes du tableau). Il est clair que le nuage de points-variable n'est pas centré. Il arrive que tous les points-variables soient situés du même côté par rapport à l origine sur le premier axe. Alain Morineau Page 19 DeeNov

20 On peut voir que, dans le cas d une analyse normée, la coordonnée d une variable sur un axe coïncide avec la corrélation de cette variable avec la composante principale (projection des individus sur l axe factoriel de même rang): j cor( x j, ) Cette formule joue un rôle important pour l'interprétation des résultats. Elle met en relation les représentations des points-lignes avec les représentations des points-colonnes. Une corrélation élevée indique que la disposition des individus sur l'axe factoriel est semblable à l'ordonnance des individus selon la variable (la corrélation unité signifierait que la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable. b - Facteur de taille Dans certains cas, la première composante principale nait de la forte corrélation entre les variables actives. La première composante se situe alors au milieu du faisceau des variables actives. Cette situation peut s interprêter de la façon suivante. D une façon générale, si une valeur est forte pour une variable, les valeurs sont fortes pour l ensemble des variables. C est la généralité de cette observation sur l ensemble du tableau qui constitue dans ce cas la structure la plus forte des données et engendre le premier facteur. C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue. Ce résultat est assez fréquent en ACP. Dans ce cas, la matrice de corrélations des variables ordonnées selon leur projection sur ce facteur, présente une structure particulière: corrélations élevées près de la diagonale et décroissantes quand on s éloigne de la diagonale (on obtient une sériation des corrélations). c - Les matrices implicites des distances Les matrices des distances existent mais on ne les calcule pas explicitement. Les lignes sont situées dans un espace usuel où la distance se mesure par une formule classique. Dans le cas de l'analyse normée: d p x ij x i' j (i,i' ) s j j1 Alain Morineau Page 0 DeeNov

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com Le contexte méthodologique Les techniques descriptives multidimensionnelles et techniques de Data mining (mises en œuvre par exemple dans le logiciel SPAD que nous avons développé au sein de la société

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Analyse en Composantes Principales avec XLSTAT

Analyse en Composantes Principales avec XLSTAT Analyse en Composantes Principales avec XLSTAT Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données proviennent du US Census Bureau (le

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston. 2011-2012 LACHAAL Rafik

Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston. 2011-2012 LACHAAL Rafik Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston 2011-2012 LACHAAL Rafik I. Introduction Les données choisis concernent les logements en banlieue de Boston. Celle-ci

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

L Analyse en Composantes Principales. A. Morineau

L Analyse en Composantes Principales. A. Morineau L Analyse en Composantes Principales A. Morineau - 2005 1 L ACP, qu est ce? L ACP, qu est ce? Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4 Principe géométrique de l ACP

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

CH.2 CODES CORRECTEURS

CH.2 CODES CORRECTEURS CH.2 CODES CORRECTEURS 2.1 Le canal bruité 2.2 La distance de Hamming 2.3 Les codes linéaires 2.4 Les codes de Reed-Muller 2.5 Les codes circulaires 2.6 Le câblage des codes circulaires 2.7 Les performances

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Université Paris 6 Année universitaire 2011-2012 Cours Groupes finis et leurs représentations Corrigé de l examen terminal du 21 mai 2012.

Université Paris 6 Année universitaire 2011-2012 Cours Groupes finis et leurs représentations Corrigé de l examen terminal du 21 mai 2012. Université Paris 6 Année universitaire 011-01 Cours Groupes finis et leurs représentations Corrigé de l examen terminal du 1 mai 01 Exercice 1 Questions de cours Soit G un groupe fini et soit p un nombre

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

2. MATRICES ET APPLICATIONS LINÉAIRES

2. MATRICES ET APPLICATIONS LINÉAIRES 2. MATRICES ET APPLICATIONS LINÉAIRES 2.1 Définition Une matrice n m est un tableau rectangulaire de nombres (réels en général) à n lignes et m colonnes ; n et m sont les dimensions de la matrice. Notation.

Plus en détail

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION Dans les leçons précédentes, nous avons modélisé des problèmes en utilisant des graphes. Nous abordons dans cette leçon un autre type de modélisation.

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

Le problème des multiplications matricielles enchaînées peut être énoncé comme suit : étant

Le problème des multiplications matricielles enchaînées peut être énoncé comme suit : étant Licence informatique - L Année 0/0 Conception d algorithmes et applications (LI) COURS Résumé. Dans cette cinquième séance, nous continuons l exploration des algorithmes de type Programmation Dynamique.

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

Notes de cours L1 MATH120. Hervé Le Dret

Notes de cours L1 MATH120. Hervé Le Dret Notes de cours L1 MATH120 Hervé Le Dret 18 octobre 2004 40 Chapitre 3 Vecteurs dans R m Dans ce chapitre, nous allons nous familiariser avec la notion de vecteur du point de vue algébrique. Nous reviendrons

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. Solution des exercices d algèbre linéaire

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. Solution des exercices d algèbre linéaire UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 3 4 Master d économie Cours de M. Desgraupes MATHS/STATS Document : Solution des exercices d algèbre linéaire Table des matières

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Chapitre 6 Méthodes de Krylov 611 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Dans le cas où la matrice A n est pas symétrique, comment peut-on retrouver une matrice de corrélation

Plus en détail

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier Christophe Fournier Clinique de Thuys Aunége - Christophe Fournier 2 Table des matières Information sur l'échantillon 3 Structure de l'échantillon...4 Point méthodologique 6 Point méthodologique...7 Représentativité

Plus en détail

Cours de Mathématiques Seconde. Généralités sur les fonctions

Cours de Mathématiques Seconde. Généralités sur les fonctions Cours de Mathématiques Seconde Frédéric Demoulin 1 Dernière révision : 16 avril 007 Document diffusé via le site www.bacamaths.net de Gilles Costantini 1 frederic.demoulin (chez) voila.fr gilles.costantini

Plus en détail

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3 Chapitre 5 Systèmes linéaires 1 Généralités sur les systèmes linéaires 2 11 Définitions 2 12 Opérations élémentaires 2 13 Systèmes échelonnés et triangulaires 3 2 Résolution des systèmes linéaires 3 21

Plus en détail

CODES CORRECTEURS D'ERREURS

CODES CORRECTEURS D'ERREURS CODES CORRECTEURS D'ERREURS Marc URO TABLE DES MATIÈRES DÉTECTION ET CORRECTION D'ERREURS... 6 CAS D'UN CANAL SANS SYMBOLE D'EFFACEMENT...6 CAS D'UN CANAL AVEC SYMBOLE D'EFFACEMENT...7 GÉNÉRATION ET DÉTECTION

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

Vecteurs.nb 1. Collège du Sud 1-ère année. Mathématiques. Vecteurs. Edition 2003/2004 - DELM

Vecteurs.nb 1. Collège du Sud 1-ère année. Mathématiques. Vecteurs. Edition 2003/2004 - DELM Vecteurs.nb 1 Collège du Sud 1-ère année Mathématiques Vecteurs Edition 00/004 - DELM Supports de cours de mathématiques de degré secondaire II, lien hypertexte vers la page mère http://www.deleze.name/marcel/sec/index.html

Plus en détail

1 Un objet aléatoire de base : le dé

1 Un objet aléatoire de base : le dé Dans le monde des statistiques, il est bien évident qu on ne fait plus aucun calcul à la main. Si nous le faisons en cours de mathématiques, c est pour mieux comprendre ce que font les divers logiciels

Plus en détail

Examen d'analyse des données

Examen d'analyse des données Université d'angers Janvier 2007 Master 1 MIM : Analyse des données Examen d'analyse des données Durée : 3 heures Les documents ne sont pas autorisés. La calculatrice est autorisée. Exercice I (7 points)

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

INF-130 Travail Pratique #2

INF-130 Travail Pratique #2 École de technologie supérieure INF-30 Travail Pratique #2 Travail individuel Tracé d un métro Francis Bourdeau, Frédérick Henri et Patrick Salois Remise à la 0 e semaine. Objectifs - Amener l étudiant

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Electrocinétique et magnétostatique

Electrocinétique et magnétostatique Chapitre 3 Electrocinétique et magnétostatique 3.1 Electrocinétique - Vecteur densité de courant Un courant électrique correspond à des charges électriques mobiles. On appelle vecteur densité de courant

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Chapitre 1 GRAPHIQUES

Chapitre 1 GRAPHIQUES Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 1 GRAPHIQUES On entend souvent qu un schéma vaut mieux qu un long discours. Effectivement, lorsque l on

Plus en détail

Avis n 2012 05 du 18 octobre 2012 relatif aux changements de méthodes comptables, changements d estimations comptables et corrections d erreurs

Avis n 2012 05 du 18 octobre 2012 relatif aux changements de méthodes comptables, changements d estimations comptables et corrections d erreurs Avis n 2012 05 du 18 octobre 2012 relatif aux changements de méthodes comptables, changements d estimations comptables et corrections d erreurs Sommaire 1. CHAMP D APPLICATION... 2 2. CHANGEMENTS DE METHODES

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes :

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes : .1 Espace vectoriel Un espace vectoriel de dimension p sur le corps des reels IR est une construction mathematique dont les elements sont des vecteurs. Il est deni par deux operations : L'addition. Soient

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle :

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : a. Une opération de «production» b. Visant l ensemble des variables d une enquête c. Recherchant

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail