Introduction. Préambule. Le contexte

Dimension: px
Commencer à balayer dès la page:

Download "Introduction. Préambule. Le contexte"

Transcription

1 Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments actifs et illustratifs... 7 ANALYSE DU NUAGE DES INDIVIDUS... 9 a - Comment voir les distances entre individus?... 9 b - Comment trouver les plans de projection c - Principe de l'ajustement d - Distance entre individus e - Matrice à diagonaliser f - Composantes Principales PROJECTIONS DES VARIABLES a - Nature de la projection b - Facteur de taille... 0 c - Les matrices implicites des distances... 0 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES... 1 a - Individus supplémentaires... b - Contribution d un individu à la fabrication d un axe... c - Qualité du positionnement d un point... 3 d - Notion de représentation simultanée en ACP... 5 e - Détails sur la représentation simultanée... 5 f - Variables continues supplémentaires... 8 g - Variables nominales supplémentaires LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST a - Principe b - La valeur-test pour la caractérisation des modalités c - La valeur-test pour la caractérisation des axes d - Les valeurs-tests et le Data mining ACP NON NORMEE Retenir l essentiel... 4 RELATIONS ENTRE LES AJUSTEMENTS DES NUAGES RECONSTITUTION APPROCHEE. COMBIEN D AXES RETENIR? GLOSSAIRE SUCCINCT QUELQUES REFERENCES Alain Morineau Page 1 DeeNov

2 Préambule Ce document, téléchargeable sur le site illustre les différents aspects de l analyse en composantes principales, ses fondements, ses caractéristiques techniques et pratiques, ses domaines d application et ses règles d interprétation. Il constitue aussi une introduction à l utilisation de la méthode et comporte les principaux développements techniques. En complément, on pourra se procurer, à la page Formation du site un support de formation à cette technique. Ce support inclut plus de 100 diapositives animées, réparties en plusieurs chapitres et largement commentées de vive voix. La formation en question s appuie sur une présentation visuelle accompagnée d un commentaire audio complet. Le texte peut être visualisé en même temps que les commentaires des diapos seront écoutés. L utilisateur navigue librement entre les chapitres, les réécoute à volonté et fait les pauses qui lui conviennent. Introduction Le contexte L analyse en composantes principales, souvent notée ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en 004. Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. L'opération de l'analyse de Composantes Principales consiste à passer d un tableau des données brutes, contenant toute l'information recueillie sur le phénomène que nous souhaitons étudier, à certaines représentations visuelles des données. Cette opération entraînera une certaine perte "d'information" que l on essaie de minimiser. En échange, on obtient un gain en "signification", en particulier grâce aux représentations graphiques. Autrement dit, on passe du "magma" des données d origine à des graphiques interprétables par l'utilisateur. Pour l'interprétation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'acp et la naturevdes résultats qu'elle produit. On trouvera une présentation détaillée des méthodes dans les ouvrages cités en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Alain Morineau Page DeeNov

3 Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes complexes et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Ana. factorielles et Classifications Présentation invisible dans l'espace complet F 1 F Visualisation dans le "meilleur" espace réduit Classification (dans l'espace complet) A. Morineau 3 DeeNov,, 005 Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles". Visualisation et Ana. de données Eclairage d un objet 3D et sa visualisation sur des plans de projection Certaines projections apportent plus d information que d autres La clé de l anayse factorielle est dans le choix des meilleures projections A. Morineau 4 DeeNov,, 005 Alain Morineau Page 3 DeeNov

4 Les techniques factorielles reposent toutes sur une propriété mathématique des tableaux rectangulaires : la décomposition aux valeurs singulières (décomposition due à Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables (colonnes). Cette "restitution des individus à la statistique", essentiellement due à Jean-Paul Benzécri, induit une attitude nouvelle vis-à-vis des traitements statistiques des données multidimentionnelles. Bref historique de l ACP Conçue par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales (ACP) n'est vraiment utilisée que depuis la large diffusion des moyens de calcul informatique. La technique d'analyse en composantes principales peut être présentée de divers points de vue. Pour le statisticien classique, il s'agit de la recherche des axes principaux de l'ellipsoïde d'une distribution normale multidimensionnelle, ces axes étant estimés à partir d'un échantillon. C'est la présentation initiale de Hotelling (l933), puis celle des manuels classiques d'analyse multivariée. Pour le factorialiste classique, il s'agit d'un cas particulier de la méthode d'analyse factorielle des psychométriciens (cas de variances spécifiques nulles ou égales). Enfin, du point de vue plus récent des analystes de données, il s'agit d'une technique de représentation des données, ayant un caractère optimal selon certains critères algébriques et géométriques, et que l'on utilise en général sans référence à des hypothèses de nature statistique ni à un modèle particulier. Ce point de vue, fort répandu actuellement est peut-être le plus ancien. C'est celui qui avait été adopté par Pearson (1901). Bien entendu, il ne s'agissait pas de l'analyse en composantes principales telle que nous la présentons, mais les idées essentielles de la méthode étaient déjà présentées par cet auteur. L'analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage des points-individus peut être centré ou non, réduit ou non. Parmi ces variantes, l'analyse en composantes principales normée (nuage centréréduit) est certainement la plus utilisée et c'est celle-ci que nous choisissons pour présenter les principes de l'analyse. Alain Morineau Page 4 DeeNov

5 Domaine d'application L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possède un tableau rectangulaire de mesures, dont les colonnes figurent des variables à valeurs numériques continues (des mensurations, des taux, etc.) et dont les lignes représentent les individus sur lesquels ces variables sont observées. D'une manière générale, la condition que doivent remplir ces tableaux numériques pour être l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en général) est formée d'unités ayant un caractère répétitif, l'autre pouvant être éventuellement plus hétérogène. Les lignes (qui ont ce caractère répétitif) sont désignées en général sous le nom d'individus ou d'observations, les colonnes étant désignées sous le nom de variables. A titre d esemple, nous considérons le tableau X des mesures prises sur quelques milliers d individus actifs concernant leurs temps d'activités quotidiennes. On dispose par exemple de 16 variables décrivant des temps d'activité, en minutes par jour (sommeil, repos, repas chez soi, etc.). Tableau des données X (n,p) Variables (dizaines, centaines) continues nominales ordinales textuelles etc.... Individus statistiques (centaines, milliers) A. Morineau 1 DeeNov,, 005 Le tableau X aura donc en colonne les mesures caractérisant ces observations. Le terme général x ij de ce tableau décrit la durée de l'activité j de l individu i. L objectif est de donner une idée de la structure de l'ensemble des 16 activités, ainsi que des similitudes éventuelles de comportement entre les groupes d'individus. Alain Morineau Page 5 DeeNov

6 Interprétations géométriques Les représentations géométriques entre les lignes et entre les colonnes du tableau de données permettent de visualiser les proximités entre les individus et entre les variables. Principe géomg ométrique de l ACPl X(n,p) i i' j j' R p Ressemblance entre individus R n Liaisons entre variables A. Morineau 11 DeeNov,, 005 a - Pour les n individus Dans l'espace à p coordonnées où se trouvent les individus, les n(n-1) distances attachées aux couples de points individus ont une interprétation directe pour l'utilisateur : p (, ) ( ij i' j ) j1 d i i x x Il s'agit ici de la distance euclidienne classique. Deux points sont très voisins si, dans l'ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors caractérisés par des valeurs presque égales pour chaque variable. Dans l'exemple évoqué ci-dessus, deux individus représentés par des points proches consacrent les mêmes temps aux mêmes activités. Similitude entre individus Nuage de n points individus d i,' i x ij xi ' j dans R p j1 La «meilleure» image approchée e du nuage en projection sur une droite H : respecter au mieux les inter-distances entre tous les couples p (H) MaxH dh i,' i i i' A. Morineau 1 DeeNov,, 005 Alain Morineau Page 6 DeeNov

7 b - Pour les p variables Si les valeurs prises par deux variables particulières sont très voisines pour tous les individus, ces variables seront représentées par deux points très proches dans l espace à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu'elles sont liées par une relation particulière. Toutefois la définition de ces proximités dans les deux espaces est assez fruste. Des problèmes d'échelle de mesure se posent d'emblée : par exemple, le temps consacré au sommeil est toujours beaucoup plus important que le temps passé à la lecture. Liaisons entre les variables Une variable est définie d par les n valeurs qu elle prend sur les individus Les variables sont centrées es réduitesr On a donc pour la variable «j» : n 1 n i i1 d ( O, j) x 1 C est l él équation d une d sphère de rayon 1 : les vecteurs variables sont donc des points sur la surface d une d sphère dans n A. Morineau 13 DeeNov,, 005 Par ailleurs, dans un cadre plus général, comment calculer la distance entre deux variables si l'une est exprimée en centimètre et l'autre en kilogramme? Comment interpréter un éloignement moyen dans R p? Est-ce que deux individus assez proches dans R p ont des valeurs assez voisines pour chacune des variables, ou au contraire très proches pour certaines et éloignées pour d'autres? L'analyse en composantes principales normée permet de donner des éléments de réponses à ces questions. c - Notion d éléments actifs et illustratifs Le tableau de données contient une assez grande quantité de variables, ce qui est une caractéristique habituelle des études appliquées. En fait les variables peuvent se regrouper selon des thèmes. Si l analyse cherche à comparer des villes en fonction des caractéristiques de leur population, on trouvera une série de variables relatives aux dépenses sur différents postes (vêtement, loyer, véhicule, services, etc.) dont l ensemble doit concourrir à Alain Morineau Page 7 DeeNov

8 Villes donner une idée de la cherté de la vie. D'autres variables informent sur le niveau des salaires, répartis selon 1 professions. Enfin, d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les jours de travail, etc. Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici à comparer les villes en tenant compte simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à interpréter car elles peuvent avoir des causes multiples et de nature très différentes. Il est plus raisonnable de sélectionner un groupe de variables, ce groupe étant homogène par rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c est-à-dire un groupe de variables, définit un certain point de vue choisi par l utilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre éléments sera plus facile à interpréter. Les variables choisies, appelées variables actives, constituent donc les seuls éléments utilisés pour comparer les éléments entre eux. Cela ne signifie pas que le reste de l'information soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des explications pour les similitudes et différences observées entre les éléments. C'est pour cela que l on appelle illustratives ou supplémentaires les autres variables. Toute analyse statistique commence donc par le choix des éléments actifs. Variables p=40 n=51 Variables actives Variables illustratives Choix du thème actif et des variables illustratives Dans ce qui suit on s intéresse aux éléments actifs seuls. Les éléments illustratifs sont introduits plus tard. Alain Morineau Page 8 DeeNov

9 Analyse du nuage des individus Nous considérons tout d'abord le nuage des n individus (non pondérés ou pondérés suivant les nécessités de l analyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace à une, puis deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus fidèle possible des proximités existant entre les n individus vis-à-vis des p variables. a - Comment voir les distances entre individus? Situé dans un espace de dimension élevée, le nuage des points-lignes (comme celui des points-colonnes) n est pas visible. L essentiel de l analyse en composantes principales réside dans la recherche d un plan (appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projetés sur ce plan soit aussi semblable que possible à la configuration réelle des points dans l espace complet. Nous y parviendrons en rendant globalement les distances entre les points projetés sur ce plan aussi proches que possible des distances réelles entre les points de l'espace d'origine. Considérons par exemple le nuage des n points-individus dans l espace où chaque axe représente une variable d'origine. La figure schématise la situation dans le cas de 3 variables seulement. var 3 F i d X (i,i') i' var d F (i,i') i i' F 1 var 1 Espace d'origine Représentation du nuage des points- lignes dans le premier plan factoriel Espace factoriel (plan de projection) Il s'agit de trouver le plan tel que, globalement, l ensemble des d F (i,i' ) mesurés dans le plan pour tous les couples de points, se rapproche autant que possible des distances réelles d X (i,i' ) mesurées dans l'espace d'origine. Alain Morineau Page 9 DeeNov

10 b - Comment trouver les plans de projection L objectif est de choisir le sous-espace de dimension réduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir? Quel critère d'ajustement entre les distances réelles et les distances projetées peut-on utiliser pour déterminer le plan de projection? On cherche le plan qui maximise la dispersion (l étalement) des points projetés: MaxH dh ( i, i ') i i' formule où H représente le sous-espace de projection. On peut montrer que la somme des carrés des distances entre tous les couples de points est égale à la somme des carrés des distances au centre de gravité (multipliée par n). Pour la recherche du maximum, on a : MaxH dh ( i, i') MaxH n dh ( i, G) i i' i Ainsi, maximiser la somme des distances projetées revient à maximiser la dispersion autour du centre de gravité dans le plan de projection. La formule, qui n est autre que l expression du théorème de Pythagore, décompose la dispersion du nuage (une quantitée fixe), en deux termes: la dispersion dans le plan de projection et un terme complémentaire qui est la somme des distances des points au plan de projection (voir la figure). i d(i,g) d i G H (, ) i H H G dh ( i, G ) Décomposition de la distance d'un point- ligne au centre de gravité du nuage. Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus près du nuage (au sens du critère des moindres carrés). Alain Morineau Page 10 DeeNov

11 C est ce qu exprime l égalité : d ( i, G) dh ( i, G) d ( i, G) H i i i Par conséquent : Max dh ( i, G) Min d ( i, G) H i i c - Principe de l'ajustement On va chercher à rendre maximum la somme des carrés des distances entre tous les couples d'individus : Max (H ) n i n d H (i,i' ) i' La droite d'ajustement H 1 que l on cherche doit passer au plus près du nuage de points sans être astreinte à passer par l'origine. H 0 espace R p O H 1 Droite d'ajustement du nuage de n points individus Si h i et h i' désignent les valeurs des projections de deux pointsindividus i et i' sur H 1, on a la relation classique : n d n (i,i' ) (h i h i' ) n n n n nh i nh i' h i h i' i,i' i,i' i,i' i,i' i i' n ( 1 n h i h n ) n (h i h ) n i i O i d(i,i') h h i' i d (i,i') H 1 i' H 1 Projections sur H 1 Alain Morineau Page 11 DeeNov

12 où h désigne la moyenne des projections des n individus : h 1 n n i h i et correspond à la projection sur H 1 du centre de gravité G du nuage dont la j ème coordonnée vaut : r j 1 n n i r ij Par conséquent, on a : n d n (i,i' ) n d (i,g) i,i' i Analyse Générale G : problème X x i u y y i = x i u y = Xu Maximiser {u X Xu} avec u u = 1 0 u x i y i F A. Morineau 7 DeeNov,, 005 Rendre maximum la somme des carrés des distances entre tous les couples d'individus revient à maximiser la somme des carrés des distances entre les points et le centre de gravité du nuage G : est équivalent à : n Max ( H ) d H (i, i' ) i, i n Max ( H ) d H (i,g) i Si l'origine est prise en G, la quantité à maximiser sera à nouveau la somme des carrés des distances à l'origine. Le sous-espace cherché résulte de l'analyse générale du tableau transformé X, de terme général (données brutes notées r) : x ij r ij r j Alain Morineau Page 1 DeeNov

13 Meilleur plan de projection Axes factoriels z Nuage Facteur n x Meilleur plan A. Morineau 5 DeeNov,, 005 y Facteur n1 A. Morineau 6 DeeNov,, 005 d - Distance entre individus La distance entre deux individus i et i' est la distance euclidienne usuelle. Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'échelles très diverses, (exemple : temps passé au sommeil, temps passé à la lecture) ; on veut que la distance entre deux points soit indépendante des unités sur les variables. Par ailleurs, on peut désirer, surtout lorsque les unités de mesures ne sont pas les mêmes, faire jouer à chaque variable un rôle identique dans la définition des proximités entre individus : on parle alors d'analyse en composantes principales normée. Pour cela on corrige les échelles en adoptant la distance : d (i,i' ) p j1 s j désignant l'écart-type de la variable j : s j 1 n ( r ij r i' j s j n ) (r ij r j ) Finalement, nous retiendrons que l'analyse normée dans R p du tableau brut R est l'analyse du tableau X des données centrées er réduites, de terme général : x ij n i1 r ij r j s j n Toutes les variables ainsi transformées sont "comparables" et ont même dispersion : s (x j ) = 1 Alain Morineau Page 13 DeeNov

14 Les variables sont centrées réduites, ce qui signifie qu on mesure l'écart à la moyenne en nombre d'écarts-types de la variable j. e - Matrice à diagonaliser L'analyse du nuage des points-individus dans R p nous a amené à effectuer une translation de l'origine au centre de gravité de ce nuage et à changer, dans le cas de l'analyse normée, les échelles sur les différents axes. L'analyse du tableau transformé X nous conduit à diagonaliser la matrice C = X'X. Le terme général c jj' de cette matrice s'écrit : soit : c'est-à-dire : c jj ' 1 n n i c jj ' n i x ij x ij ' (r ij r j )(r ij ' r j' ) s j s j' c jj ' cor(j, j' ) c jj' n'est autre que le coefficient de corrélation entre les variables j et j' (d'où l'utilité du coefficient n introduit au dénominateur dans la transformation des données). La matrice à diagonaliser est donc la matrice de corrélations. Distance entre variables Distance basée sur la corrélation, 1, d j k cor j k j o o o j k k j k cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) ( d² ) cor(j,k) -1 d(j,k) ( d² 4 ) A. Morineau 16 DeeNov,, 005 Corrélations et distances entre points-variables Alain Morineau Page 14 DeeNov

15 f - Composantes Principales Nous allons considérer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de décomposer l'inertie de ce nuage selon une série de directions orthogonales. Nous allons commencer par le sous-espace le plus simple, c'est à dire une ligne droite. Nous pouvons imaginer une droite définie par un vecteur de longueur unité u. Nous essayerons de définir u de telle manière que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances représentées entre couples de points doivent être aussi proches que possible des distances réelles entre points. La projection (ou coordonnée) d'un point sur la direction définie par le vecteur unitaire u, est égale à: p i x ij u j j1 par conséquent, l'inertie (ou variance) de tous les points projetés sur u sera : n p i i1 i Matrice des données i i i u i u Projection d'un point-ligne sur la direction définie par un vecteur unitaire Il s'agit donc de chercher la droite u qui rende maximale la valeur de. Si on appelle X le tableau des données (données centrées), cela conduit à diagonaliser la matrice X'X. Cette matrice est égale à la matrice de corrélations entre les variables dans le cas d'une ACP normée, et elle est égale à la matrice des covariances dans le cas d'une ACP non normée. Le vecteur unitaire recherché u est le vecteur propre associé à la plus grande valeur propre obtenue dans la diagonalisation de X'X. Alain Morineau Page 15 DeeNov

16 L'opération de diagonalisation consiste à chercher les directions de la dispersion maximale de l'ellipsoïde défini par X'X. Le résultat de l'opération de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsoïde) et q valeurs propres (inertie de chaque axe), où q est le rang de X'X.. De manière analogue, la direction orthogonale à u, qui en même temps maximise l'inertie projetée, correspond au vecteur propre associé à la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projetée est égale à la seconde valeur propre, et ainsi de suite. Diagonalisation de X'X Valeurs propres Vecteurs propres 1 u 1 u p u p Les valeurs propres donnent directement les inerties projetées sur chacune des directions que nous cherchons. L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est égale à l'inertie du nuage de points. IT 1 p R S T p p j var(j) en ACP normee en ACP non norme e Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels. Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linéaires particulières des variables d'origine. Leur variance est égale à leur valeur propre. u 1 x 1 u p x p var( ) L'Analyse en Composantes Principales consiste donc à passer des p variables d'origine x j, chacune d'elles avec une importance mesurée par sa variance, à p nouvelles variables combinaisons linéaires de celles d'origine, chacune avec une importance mesurée par sa variance, égale à le valeur propre (voir la figure). Alain Morineau Page 16 DeeNov

17 Variables Axes factoriels Var 3 Axe 1 Axe Var Var 1 Changement de base et réduction de la dimentionnalité Projections des Variables a - Nature de la projection De même que nous avons réalisé l'ajustement des points-lignes, nous pouvons procéder à l'ajustement des points-colonnes (les variables) dans un espace de dimension réduit qui préserve au mieux les distances d'origine (les corrélations). Mathématiquement, cela conduit à diagonaliser la matrice XX. Ajustement des points-lignes p Diagonaliser p X'X X= Matrice de Données p Ajustement des points-colonnes n n XX' n Matrices à diagonaliser dans les deux ajustements. Comme précédemment, on obtient la décomposition de l'inertie selon les directions définies par les vecteurs propres de la matrice XX'. L'inertie projetée sur chaque direction est égale à la valeur propre associée. Alain Morineau Page 17 DeeNov

18 Nuage des variables Nuage des p variables (approximation dans R n ) Un plan factoriel (v1,v) coupe la sphère suivant un grand cercle (de rayon 1) Les points-variables tombent à l intérieur Espace R n 4 F 1 F 1 F1 F Projection de quatre variables A. Morineau 17 DeeNov,, 005 Représentation de la sphère et du cercle des corrélations La droite d'inertie maximale se trouve définie par le vecteur propre v (définissant la direction F1), associé à la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant à cette droite, la direction F du vecteur propre associé à la seconde valeur propre, et ainsi de suite. ind 3 v 3 Axe 1 v v 4 v 1 ind ind 1 Axe Nuage des variables et axes factoriels dans l espace des individus. La représentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui définit la direction de l'axe. Soit j la coordonnée de la variable j sur l axe. On aura: n xij x j vi i1 s j Alain Morineau Page 18 DeeNov

19 v v 3 Axe 1 v 4 v 1 v Axe v 3 v 4 Axe 1 Axe v 1 Projection des variables sur le premier plan factoriel. L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il n existe pas de pondération des points-variables (les variables jouent un rôle qui est fonction de leurs variances). p j1 j On remarque que l'inertie des points-variables projeté sur un axe est la même que celle des points-lignes sur l axe de même rang (mathématiquement, on dira que les valeurs propres non nulles de XX' sont identiques à celles de X'X.) Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition. Dans la pratique, il suffit de réaliser un seul ajustement; à partir de celui-ci, on obtient l autre. On réalise en général l'ajustement de plus faible coût, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calculée en fonction des axes factoriels du nuage des points-ligne : j u j Cette formule permettra ultérieurement d'interpréter la représentation simultanée des villes et des variables (lignes et colonnes du tableau). Il est clair que le nuage de points-variable n'est pas centré. Il arrive que tous les points-variables soient situés du même côté par rapport à l origine sur le premier axe. Alain Morineau Page 19 DeeNov

20 On peut voir que, dans le cas d une analyse normée, la coordonnée d une variable sur un axe coïncide avec la corrélation de cette variable avec la composante principale (projection des individus sur l axe factoriel de même rang): j cor( x j, ) Cette formule joue un rôle important pour l'interprétation des résultats. Elle met en relation les représentations des points-lignes avec les représentations des points-colonnes. Une corrélation élevée indique que la disposition des individus sur l'axe factoriel est semblable à l'ordonnance des individus selon la variable (la corrélation unité signifierait que la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable. b - Facteur de taille Dans certains cas, la première composante principale nait de la forte corrélation entre les variables actives. La première composante se situe alors au milieu du faisceau des variables actives. Cette situation peut s interprêter de la façon suivante. D une façon générale, si une valeur est forte pour une variable, les valeurs sont fortes pour l ensemble des variables. C est la généralité de cette observation sur l ensemble du tableau qui constitue dans ce cas la structure la plus forte des données et engendre le premier facteur. C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue. Ce résultat est assez fréquent en ACP. Dans ce cas, la matrice de corrélations des variables ordonnées selon leur projection sur ce facteur, présente une structure particulière: corrélations élevées près de la diagonale et décroissantes quand on s éloigne de la diagonale (on obtient une sériation des corrélations). c - Les matrices implicites des distances Les matrices des distances existent mais on ne les calcule pas explicitement. Les lignes sont situées dans un espace usuel où la distance se mesure par une formule classique. Dans le cas de l'analyse normée: d p x ij x i' j (i,i' ) s j j1 Alain Morineau Page 0 DeeNov

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q 1 Codes linéaires Un code de longueur n est une partie de F n q. Un code linéaire C de longueur n sur le corps ni F q est un sous-espace vectoriel de F n q. Par défaut, un code sera supposé linéaire. La

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

X-ENS PSI - 2009 Un corrigé

X-ENS PSI - 2009 Un corrigé X-ENS PSI - 009 Un corrigé Première partie.. Des calculs élémentaires donnent χ A(α) = χ B(α) = X X + et χ A(α)+B(α) = X X + 4α + 4 On en déduit que Sp(A(α)) = Sp(B(α)) = {j, j } où j = e iπ 3 Sp(A(α)

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

ANALYSE DES DONNEES. Cours 2 ème partie

ANALYSE DES DONNEES. Cours 2 ème partie IV. Analyse Factorielle des Correspondances Multiples IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p /9 ANALYSE DES DONNEES Cours 2 ème partie Le but

Plus en détail

PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE

PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE 1 PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE Cette première partie se divise en cinq chapitres : Le chapitre 1 donne quelques généralités sur l'état cristallin. Le chapitre est consacré aux calculs dans

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

Programme de mathématiques TSI1

Programme de mathématiques TSI1 Programme de mathématiques TSI1 1. PROGRAMME DE DÉBUT D ANNÉE I. Nombres complexes et géométrie élémentaire 1. Nombres complexes 1 2. Géométrie élémentaire du plan 3 3. Géométrie élémentaire de l espace

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Angles orientés et trigonométrie

Angles orientés et trigonométrie Chapitre Angles orientés et trigonométrie Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Trigonométrie Cercle trigonométrique. Radian. Mesure d un angle orienté, mesure principale.

Plus en détail

Utiliser les propriétés Savoir réduire un radical savoir +,-,x,: Utiliser les propriétés des puissances Calculer avec des puissances

Utiliser les propriétés Savoir réduire un radical savoir +,-,x,: Utiliser les propriétés des puissances Calculer avec des puissances ARITHMETIQUE 1 C B A Numération Ecrire en lettres et en chiffres Poser des questions fermées autour d un document simple (message, consigne, planning ) Connaître le système décimal Déterminer la position

Plus en détail

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois 61 UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC SPSS pour Windows Dominique Desbois INRA-ESR Nancy et SCEES 4 avenue de Saint-Mandé, 75570 Paris Cedex 1 Fax : +33 1 49 55 85 00 E-mail

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Calculs approchés d un point fixe

Calculs approchés d un point fixe M11 ÉPREUVE COMMUNE DE TIPE 2013 - Partie D TITRE : Calculs approchés d un point fixe Temps de préparation :.. 2 h 15 minutes Temps de présentation devant les examinateurs :.10 minutes Dialogue avec les

Plus en détail

L addition et la multiplication en binaire

L addition et la multiplication en binaire Objectifs : Leçon A1-1 : L addition et la multiplication en binaire OS 1 - Exécuter en binaire une opération arithmétique de base. OS 2 - Représenter un nombre entier relatif. OS 3 - Mettre en œuvre un

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE 1. OBJECTIFS DE L'ETUDE STATISTIQUE Le traitement statistique des données a été effectué par le Professeur A. ALBERT du Centre Interdisciplinaire de Statistique

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Épreuve pratique de mathématiques Printemps 2009. Descriptifs. (Page vide)

Épreuve pratique de mathématiques Printemps 2009. Descriptifs. (Page vide) Épreuve pratique de mathématiques Printemps 2009 Descriptifs (Page vide) Sujet 001 Épreuve pratique de mathématiques Descriptif Étude d une fonction dépendant d un paramètre Étant donné une fonction dépendant

Plus en détail

Forces et Interactions

Forces et Interactions Février 2013 Cours de physique sur les Forces et les Interactions page 1 1 Objectifs Forces et Interactions Le but de ce cours est d'introduire la notion de force et d'étudier la statique, c'est-à-dire

Plus en détail

D'UN THÉORÈME NOUVEAU

D'UN THÉORÈME NOUVEAU DÉMONSTRATION D'UN THÉORÈME NOUVEAU CONCERNANT LES NOMBRES PREMIERS 1. (Nouveaux Mémoires de l'académie royale des Sciences et Belles-Lettres de Berlin, année 1771.) 1. Je viens de trouver, dans un excellent

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows

Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows 57 Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows Dominique DESBOIS INRA-ESR Nancy et SCEES 4 avenue de Saint-Mandé, 75570 Paris Cedex 12. Fax : +33 1 49 55 85 11 Mel :

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Fonctions logiques élémentaires

Fonctions logiques élémentaires Fonctions logiques élémentaires II. Systèmes binaires et algèbre de oole ctuellement, alors que les ordinateurs analogiques sont encore du domaine de la recherche, les informations traitées par les systèmes

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Cours de mathématiques - Alternance Gea

Cours de mathématiques - Alternance Gea Cours de mathématiques - Alternance Gea Anne Fredet 11 décembre 005 1 Calcul matriciel Une matrice n m est un tableau de nombres à n lignes( et m colonnes. 1 0 Par exemple, avec n = et m =, on peut considérer

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Géométrie dans l espace Produit scalaire et équations

Géométrie dans l espace Produit scalaire et équations Chapitre 11. 2ème partie Géométrie dans l espace Produit scalaire et équations Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES 2ème partie Produit scalaire Produit scalaire

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

1 - PRESENTATION GENERALE...

1 - PRESENTATION GENERALE... Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Représentation géométrique d un nombre complexe

Représentation géométrique d un nombre complexe CHAPITRE 1 NOMBRES COMPLEXES 1 Représentation géométrique d un nombre complexe 1. Ensemble des nombres complexes Soit i le nombre tel que i = 1 L ensemble des nombres complexes est l ensemble des nombres

Plus en détail

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS? PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS? Pierre Baumann, Michel Émery Résumé : Comment une propriété évidente visuellement en dimensions deux et trois s étend-elle aux autres dimensions? Voici une

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES 4 mars 1996 FRANCAIS Original : RUSSE COMMISSION DE STATISTIQUE et COMMISSION ECONOMIQUE POUR L'EUROPE CONFERENCE DES STATISTICIENS EUROPEENS OFFICE STATISTIQUE DES COMMUNAUTES EUROPEENNES (EUROSTAT) ORGANISATION

Plus en détail

Sujet. calculatrice: autorisée durée: 4 heures

Sujet. calculatrice: autorisée durée: 4 heures DS SCIENCES PHYSIQUES MATHSPÉ calculatrice: autorisée durée: 4 heures Sujet Approche d'un projecteur de diapositives...2 I.Questions préliminaires...2 A.Lentille divergente...2 B.Lentille convergente et

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation SEP 2B juin 20 12 Guide méthodologique de calcul du coût d une Sommaire Préambule 3 Objectif et démarche 3 1 Les objectifs de la connaissance des coûts 4 2 Définir et identifier une 5 Calculer le coût

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

Les calculatrices, téléphones, tablettes, ordinateurs et autres appareils électroniques similaires, ainsi que les documents sont interdits.

Les calculatrices, téléphones, tablettes, ordinateurs et autres appareils électroniques similaires, ainsi que les documents sont interdits. Les calculatrices, téléphones, tablettes, ordinateurs et autres appareils électroniques similaires, ainsi que les documents sont interdits 1 La qualité de la rédaction est un facteur important dans l appréciation

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Induction électromagnétique

Induction électromagnétique Induction électromagnétique Sommaire I) Théorie de l induction électromagnétique..2 A. Introduction 2 B. Notion de force électromotrice 3 C. Loi de Faraday..5 D. Quelques applications.7 Spire circulaire

Plus en détail

RESULTATS de MESURES et PRECISION

RESULTATS de MESURES et PRECISION Licence de physique, parcours Physique appliquée aux Sciences de la Vie et de la Planète Année 2005-2006 RESULTATS de MESURES et PRECISION Fascicule à lire avant de commencer les Travaux Pratiques Sommaire

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail