1 - PRESENTATION GENERALE...

Dimension: px
Commencer à balayer dès la page:

Download "1 - PRESENTATION GENERALE..."

Transcription

1 Contenu PREAMBULE... 2 INTRODUCTION PRESENTATION GENERALE... 4 Qualité et optimalité AGREGATION AUTOUR DE CENTRES MOBILES LES BASES DE L'ALGORITHME TECHNIQUES CONNEXES CLASSIFICATION HIERARCHIQUE DISTANCES ET INDICES D AGREGATION Critères d agrégation Critère de Ward Comparaison des critères d agrégation ALGORITHME DE CLASSIFICATION ELEMENTS DE VOCABULAIRE STRATEGIE DE CLASSIFICATION MIXTE COMPLEMENTARITE CLASSES ET PLANS FACTORIELS LES CARTES DE KOHONEN LE PRINCIPE L ALGORITHME D APPRENTISSAGE DIFFICULTES ET LIMITATIONS NOS REFERENCES ANNEXES ANNEXE A CONVERGENCE DE L'ALGORITHME DES CENTRES MOBILES ANNEXE B SAUT MINIMAL ET ARBRE DE LONGUEUR MINIMALE Alain Morineau Page 1 DeeNov

2 Préambule Ce document, téléchargeable sur le site illustre les différents aspects des méthodes de classification, leurs fondements, les caractéristiques techniques et pratiques, les domaines d application et les règles d interprétation. Il constitue aussi une introduction à l utilisation de la classification et comporte les principaux développements techniques. On trouvera une présentation détaillée des méthodes dans nos ouvrages cités en référence. Ils ont servi de base à cette présentation : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques. Ces manuels contiennent les références précises correspondant aux repères bibliographiques indiqués dans ce tutoriel. Introduction Le contexte La classification fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu en Ces techniques d exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. La classification est une branche de l'analyse des données et du Data mining qui a donné lieu à des publications nombreuses et diversifiées. Les ouvrages spécialisés (notamment, en langue française, les deux tomes du traité d'analyse des données de Benzécri, 1973) contiennent en général d'importantes considérations historiques et de rigoureux développements formels sur la notion de classification. Nous nous bornerons ici aux principes de base des méthodes les plus largement utilisées. Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d exécuter des algorithmes souvent lourds et le désir de s'affranchir d hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Alain Morineau Page 2 DeeNov

3 Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles" afin de les approcher visuellement. Les techniques de classification Les techniques de classification automatique sont destinées à produire des groupements de lignes ou de colonnes d'un tableau. Il s'agit le plus souvent d'objets ou d'individus (les lignes) décrits par un certain nombre de variables ou de caractères (les colonnes). Ces groupements peuvent se faire par agglomération progressive des éléments deux à deux (comme cela se fait en classification hiérarchique), ou par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes (méthode itérative des centres mobiles). On présentera une méthode d un autre type, les cartes de Kohonen, affiliée aux réseaux de neurones, produisant une partition dont les classes sont positionnées par voisinage sur un plan. Alain Morineau Page 3 DeeNov

4 1 - Présentation générale Les circonstances d'utilisation de la classification sont sensiblement les mêmes que celles des méthodes d'analyse factorielle descriptive : l'utilisateur se trouve face à un tableau rectangulaire de valeurs numériques. Ce tableau peut être un tableau de valeurs numériques continues (valeur de la variable j pour l'individu i, à l'intersection de la ligne i et de la colonne j du tableau), un tableau de contingence (croisant deux partitions d'une même population), ou encore un tableau de présence-absence (valeurs 0 ou 1 selon que tel individu ou objet possède tel caractère ou attribut). Dans certaines applications, l'utilisateur peut disposer d'un tableau carré symétrique de similarités ou de distances. Le recours aux techniques de classification automatique est soustendu par quelques idées générales concernant le champ d'observation. On suppose que certains regroupements doivent exister, ou au contraire on exige que certains regroupements soient effectués. Autrement dit, on ne se satisfait pas d'une visualisation plane et continue des associations statistiques et l'on manifeste, implicitement ou explicitement, un intérêt pour la mise en évidence de classes d'individus ou de caractères. Alain Morineau Page 4 DeeNov

5 Les représentations synthétiques se manifestent soit sous la forme de partitions des ensembles étudiés (lignes ou colonnes du tableau analysé), soit sous la forme de hiérarchie de partitions que nous définirons de façon plus précise ultérieurement. Quelquefois, il s'agira d'arbres au sens de la théorie des graphes, arbres dont les sommets sont les objets à classer. Enfin on pourra rechercher des classes empiétantes ou simplement mettre en évidence des zones à forte densité, laissant de nombreux individus ou caractères non classés. A une même famille de résultats correspond parfois des démarches et des interprétations différentes. Il peut s'agir de découvrir une partition ayant une existence réelle (cette existence étant conjecturée avant l'analyse statistique ou étant révélée à l'issue des calculs) ou l'on veut au contraire utiliser les partitions produites comme des outils ou des intermédiaires de calculs permettant une exploration des données. Pour l'essentiel, les techniques de classification font appel à une démarche algorithmique et non aux calculs formalisés usuels. Alors que les valeurs des composantes des axes factoriels, par exemple, sont la solution d'une équation pouvant s'écrire sous une forme très condensée (même si sa résolution est complexe), la définition des classes ne se fera qu'à partir d'une formulation algorithmique: une série d'opérations est définie de façon récursive et répétitive. Alain Morineau Page 5 DeeNov

6 Il en découle que la mise en œuvre de la plupart des techniques de classification ne nécessite que des notions mathématiques relativement élémentaires. Il existe plusieurs familles d'algorithmes de classification : les algorithmes conduisant directement à des partitions comme les méthodes d'agrégation autour de centres mobiles; les algorithmes ascendants (ou encore agglomératifs) qui procèdent à la construction des classes par agglomérations successives des objets deux à deux, et qui fournissent une hiérarchie de partitions des objets; enfin les algorithmes descendants (ou encore divisifs) qui procèdent par dichotomies successives de l'ensemble des objets, et qui peuvent encore fournir une hiérarchie de partitions. Alain Morineau Page 6 DeeNov

7 On se limitera ici aux deux premières techniques de classification : - les groupements peuvent se faire par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes et en affectant de façon itérative ces éléments. Il s'agit des techniques d'agrégation autour de centres mobiles, apparentées à la méthode des "nuées dynamiques", ou méthode "k-means", qui sont particulièrement intéressantes dans le cas des grands tableaux. - les groupements peuvent se faire par agglomération progressive des éléments deux à deux. C'est le cas de la classification ascendante hiérarchique qui est présentée ici suivant plusieurs critères d'agrégation. Nous envisagerons d'une part la technique "du saut minimal" (single linkage) équivalente, d'un certain point de vue, à la recherche de l'arbre de longueur minimale, et d'autre part la technique d'agrégation "selon la variance", intéressante par la compatibilité de ses résultats avec certaines analyses factorielles. Ces techniques présentent des avantages différents et peuvent être utilisées conjointement. Il est ainsi possible d'envisager une stratégie de classification basée sur un algorithme mixte, particulièrement adapté au partitionnement d'ensembles de données comprenant des centaines de milliers d'individus à classer. Un des avantages des méthodes de classification est de créer des éléments qui sont des groupements d individus qui se ressemblent (les classes) souvent plus faciles à décrire et interpréter que les axes factoriels. Enfin, la pratique montre que l'utilisateur a intérêt à Alain Morineau Page 7 DeeNov

8 utiliser de façon conjointe les méthodes factorielles et les méthodes de classification. Qualité et optimalité Pourquoi tant de méthodes et tant de variantes pour regrouper des objets? Le problème de créer une partition en classes à partir d un ensemble fini d objets a la particularité d avoir un nombre (presque) infini de solutions. Quelque soient les critères utilisés, les distances et autres paramètres, il n y aura jamais la certitude d avoir atteint la solution «la meilleure» Alain Morineau Page 8 DeeNov

9 2 - Agrégation autour de centres mobiles Bien qu'elle ne fasse appel qu'à un formalisme limité et que son efficacité soit dans une large mesure attestée par les seuls résultats expérimentaux, la méthode de classification autour de centres mobiles est probablement la technique de partitionnement la mieux adaptée actuellement aux vastes recueils de données ainsi que la plus utilisée pour ce type d'application. Produisant des partitions des ensembles étudiés, elle est utilisée aussi bien comme technique de description et d'analyse que comme technique de réduction, généralement en association avec des analyses factorielles et d'autres méthodes de classification. L'algorithme peut être imputé principalement à Forgy (1965), bien que de nombreux travaux (parfois antérieurs : Thorndike, 1953), le plus souvent postérieurs (MacQueen, 1967; Ball and Hall, 1967) aient été menés parallèlement et indépendamment pour introduire des variantes ou des généralisations. Cette méthode peut être considérée comme un cas particulier de techniques connues en France sous le nom de nuées dynamiques (Diday, 1971). Elle est particulièrement intéressante pour les gros fichiers numériques car les données sont traitées en lecture directe : le tableau des données, stocké sur une mémoire auxiliaire, est lu plusieurs fois de façon séquentielle, sans encombrer de zones importantes dans la mémoire centrale de l'ordinateur. La lecture directe permet également d'utiliser au mieux les particularités du codage des Alain Morineau Page 9 DeeNov

10 données et la nature de la formule de distance utilisée pour réduire le coût des calculs. 2.1 Les bases de l'algorithme Soit un ensemble I de n individus à partitionner, caractérisés par p caractères ou variables. On suppose que l'espace R p supportant les n points-individus est muni d'une distance appropriée notée d (par exemple la distance euclidienne usuelle si les variables sont continues, ou la distance du 2 si elles sont nominales). On désire constituer au maximum q classes. Les étapes de l'algorithme sont illustrées par la figure cidessous. Étape 0 : On détermine q centres provisoires de classes (par exemple, par tirage pseudo-aléatoire sans remise de q individus dans la population à classifier, selon une préconisation de MacQueen). Les q centres : C 1,,Ck,,Cq induisent une première partition P 0 de l'ensemble des individus I en q classes : I 1,, Ik,, Iq Ainsi l'individu i appartient à la classe I k 0 s'il est plus proche de C k 0 que de tous les autres centres (Les classes sont alors délimitées dans l'espace par les cloisons polyédrales convexes formées par les plans médiateurs des segments joignant tous les couples de centres). Étape 1: On détermine q nouveaux centres de classes : Etc C 1 1,,Ck 1,,Cq 1 en prenant les centres de gravité des classes qui viennent d'être obtenues : I 1,, Ik,, Iq Ces nouveaux centres induisent une nouvelle partition P 1 de I construite selon la même règle que pour P 0. La partition P 1 est formée des classes notées : I 1 1,, Ik 1,, Iq 1 Alain Morineau Page 10 DeeNov

11 Étape m: On détermine q nouveaux centres de classes : C 1 m,,ck m,,cq m en prenant les centres de gravité des classes qui ont été obtenues lors de l'étape précédente, I 1 m 1,, Ik m 1,,Iq m 1 Ces nouveaux centres induisent une nouvelle partition P m de l'ensemble I formée des classes : I 1 m,,ik m,, Iq m C 0 1 C 0 2 Tirage au hasard des centres C 1 0 et C2 0 I 0 1 I 0 2 Constitution des classes I 1 0 et I2 0 C 1 1 C 1 I I 1 2 Nouveaux centres C 1 1 et C2 1 et nouvelles classes I 1 1 et I2 1 I 2 1 C 2 1 C 2 2 I 2 2 Nouveaux centres C 1 2 et C2 2 et nouvelles classes I 1 2 et I2 2 Les étapes de l'algorithme des centres mobiles Alain Morineau Page 11 DeeNov

12 Le processus se stabilise nécessairement comme on le montre en annexe. L'algorithme s'arrête soit lorsque deux itérations successives conduisent à la même partition, soit lorsqu'un critère convenablement choisi (par exemple, la mesure de la variance intraclasses ou inertie intra- classe) cesse de décroître de façon sensible, soit encore parce qu'un nombre maximal d'itérations a été fixé a priori. Remarque Théorème de Huygens : I.tot = I.inter + I.intra Noter que la partition obtenue dépend généralement du choix initial des centres. On améliore la solution en menant simultanément deux ou trois partitions indépendantes que l on croise ensuite. En croisant par exemple deux partitions en 10 classes, on crée une nouvelle partition qui aura au plus 100 classes (certaines peuvent être vides). Alain Morineau Page 12 DeeNov

13 Les individus qui se retrouvent dans chacune d elles se sont retrouvés deux fois dans une même classe, ce qui préjuge d une partition croisée plus «robuste» vis-à-vis de l arbitraire des centres initiaux des classes. Il restera à mener une procédure de regroupement des classes croisées pour définir une partition finale (voir plus loin la procédure de classification mixte). 2.2 Techniques connexes Il existe de nombreux algorithmes dont le principe général est voisin de l'algorithme d'agrégation autour de centres mobiles mais qui en diffèrent cependant sur certains points. Pour des informations plus détaillées sur les techniques d'agrégation autour des centres mobiles, on pourra consulter les ouvrages de Benzécri (1973) et Anderberg (1973). Ainsi, dans la technique des nuées dynamiques (Diday, 1972, 1974), les classes ne sont pas caractérisées par un centre de gravité, mais par un certain nombre d'individus à classer, dénommés "étalons", qui constituent alors un "noyau" ayant pour certaines utilisations un meilleur pouvoir descriptif que des centres ponctuels. Ce formalisme a permis plusieurs généralisations de la méthode. La méthode dite des k-means (k-moyennes) introduite par MacQueen (1967) commence également par un tirage pseudo-aléatoire de centres ponctuels. Cependant la règle de calcul des nouveaux centres n'est pas la même. On n'attend pas d'avoir procédé à la réaffectation de tous les individus pour modifier la position des centres : chaque réaffectation d'individus entraîne une modification de la position du Alain Morineau Page 13 DeeNov

14 centre correspondant. En une seule itération, cette procédure peut ainsi donner une partition de bonne qualité. Mais celle-ci dépendra de l'ordre des individus sur le fichier, ce qui n'est pas le cas pour la technique exposée précédemment. 3 - Classification hiérarchique Les principes généraux communs aux diverses techniques de classification ascendante hiérarchique (notée souvent CAH) sont également très simples. Il est difficile de leur trouver une paternité car ces principes relèvent plus du bon sens que d'une théorie formalisée. Les exposés les plus systématiques et les plus anciens sont peut-être ceux de Sokal et Sneath (1963), puis de Lance et Williams (1967). Pour une revue synthétique, voir l article général de Gordon (1987). Le principe de l'algorithme consiste à créer, à chaque étape, une partition obtenue en agrégeant deux à deux les éléments les plus proches. On désignera ici par élément à la fois les individus ou objets à classer eux-mêmes et les regroupements d'individus générés par l'algorithme. Il y a différentes manières de considérer le nouveau couple d'éléments agrégés, d'où un nombre important de variantes de cette technique. Alain Morineau Page 14 DeeNov

15 Classification hiérarchique : ascendante (agglomérative) et descendante (divisive) L'algorithme ne fournit pas une partition en q classes d'un ensemble de n objets mais fournit une hiérarchie de partitions, se présentant sous la forme d'arbres appelés également dendrogrammes et contenant n - 1 partitions. L'intérêt de ces arbres est qu'ils peuvent être utilisés pour donner une idée du nombre de classes existant effectivement dans la population. Dendrogramme (ou arbre hiérarchique) et partition par coupure de l arbre Chaque coupure d'un arbre fournit une partition. Cette partition aura d'autant moins de classes et des classes d'autant moins homogènes que l'on coupe l arbre plus haut. Alain Morineau Page 15 DeeNov

16 3.1 Distances et indices d agrégation On suppose que l'ensemble des individus à classer est muni d'une distance (il s'agira parfois simplement d'une mesure de dissimilarité ; dans ce cas, l'inégalité triangulaire d(x,y) d(x,z) + d(y,z) n'est pas exigée). Ceci ne suppose pas que les distances soient toutes calculées en même temps : il faut pouvoir les calculer ou les recalculer à partir des coordonnées des points-individus, celles-ci devant être accessibles rapidement. On peut calculer ainsi une matrice de distances entre tous les individus deux à deux. Critères d agrégation Une fois constitué un groupe d'individus, il est nécessaire ensuite de savoir évaluer une distance entre un individu et un groupe, et par la suite une distance entre deux groupes. Ceci revient à définir une stratégie de regroupements des éléments, c'est-à-dire se fixer des règles de calcul des distances entre groupements disjoints d'individus. Ces règles sont appelées critères (ou indices) d'agrégation. La distance entre ces groupements pourra en général se calculer directement à partir des distances des différents éléments impliqués dans le regroupement. Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroupés en un seul élément noté h, on peut définir la distance de ce groupement à z par la plus petite distance des divers éléments de h à z : d(h,z) = Min {d(x,z), d(y,z) } Cette distance s'appelle le saut minimal (single linkage) (Sneath, 1957 ; Johnson, 1967) et constitue un critère d'agrégation. On peut également définir la distance du saut maximal (ou diamètre) en prenant la plus grande distance des divers éléments de h à z : d(h,z) = Max {d(x,z), d(y,z) } Une autre règle simple et fréquemment employée est celle de la distance moyenne ; pour deux objets x et y regroupés en h : d(h,z) {d(x,z) d(y, z)} 2 Alain Morineau Page 16 DeeNov

17 Plus généralement, si x et y désignent des sous-ensembles disjoints de l'ensemble des objets, ayant respectivement n x et n y éléments, h est alors un sous-ensemble formé de n x + n y éléments et on définit la distance entre l ensemble h et un élément z par : Critère de Ward {n x d(x,z) n y d(y,z)} d(h,z) n x n y Considérons deux sous-ensembles ou classes A et B, de tailles na et nb, de centres ga et gb. Lorsqu'on remplace deux classes A et B par leur réunion, on montre que la diminution de l'inertie interclasse (et donc l augmentation de l inertie intraclasse) est égale à: nn A B d 2 ( g A, gb) n( n n ) A B Alain Morineau Page 17 DeeNov

18 La méthode de Ward consiste à choisir à chaque regroupement le couple de classes qui minimise l augmentation de l inertie intraclasse. Comparaison des critères d agrégation L agrégation selon le lien minimum a l inconvénient de produire des «effets de chaîne» (les objets s agrègent l un après l autre au groupe déjà constitué), mais déforme peu si on reconstitue les similarités à partir de l arbre. L agrégation selon le lien maximum présente l inconvénient de déformer beaucoup les similarités. La méthode de Ward est particulièrement adaptée lorsque la classification est effectuée après une analyse factorielle, les objets à classer étant repérés par leurs coordonnées sur les premiers axes factoriels (on obtient directement le carré de la distance en additionnant les carrés des coordonnées). De plus le critère d inertie mis en œuvre dans la méthode de Ward la rend particulièrement compatible avec les analyses factorielles pour une utilisation complémentaire des approches. 3.2 Algorithme de classification L'algorithme fondamental de classification ascendante hiérarchique se déroule de la façon suivante : Étape 1 : il y a n éléments à classer (qui sont les n individus); Étape 2 : on construit la matrice de distances entre les n éléments et l'on cherche les deux plus proches, que l'on agrège en un Alain Morineau Page 18 DeeNov

19 nouvel élément. On obtient une première partition à n-1 classes; Étape 3 : on construit une nouvelle matrice des distances qui résultent de l'agrégation, en calculant les distances entre le nouvel élément et les éléments restants (les autres distances sont inchangées). On se trouve dans les mêmes conditions qu'à l'étape 1, mais avec seulement (n-1) éléments à classer et en ayant choisi un critère d'agrégation. On cherche de nouveau les deux éléments les plus proches, que l'on agrège. On obtient une deuxième partition avec n-2 classes et qui englobe la première; Etc..... Étape m : on calcule les nouvelles distances, et l'on réitère le processus jusqu'à n'avoir plus qu'un seul élément regroupant tous les objets et qui constitue la dernière partition. Nous illustrons cette procédure en prenant comme objets à classer cinq points Etape 1 Etape 2 Etape Etape 4 Etape 5 Agglomération progressive de 5 points Les regroupements successifs peuvent être représentés par un arbre ou dendrogramme, comme le montre la figure où l'on a porté en ordonnée les valeurs des indices (ou encore distances) correspondant aux différents niveaux d'agrégation. Alain Morineau Page 19 DeeNov

20 Arbre hiérarchique et éléments de vocabulaire 3.3 Eléments de vocabulaire Quelques remarques vont nous permettre d'introduire les notions et la terminologie habituellement utilisées en classification hiérarchique. Le fonctionnement de l'algorithme nous montre que les distances n'interviennent que par les inégalités qui existent entre elles. Le même arbre (à une dilatation près des ordonnées) aurait été obtenu à partir d'un simple classement des couples d'objets dans l'ordre des distances croissantes. Un tel classement s'appelle une ordonnance (une préordonnance s'il y a des distances égales). Dans ce cas on tracera conventionnellement l'arbre avec des niveaux équidistants. La famille H des parties de l'ensemble I des objets construite à partir d'algorithmes ascendants forme ce que l'on appelle une hiérarchie. Cette famille a pour propriété de contenir l'ensemble tout entier (I H) ainsi que chacun des objets pris isolément (i I => {i} H). Les autres couples de parties h, h' de H sont alors soit disjointes, soit incluses l'une dans l'autre. En effet lors du fonctionnement de l'algorithme, chaque fois qu'une classe se forme à partir d'éléments disjoints, elle est elle-même considérée comme un nouvel élément, donc strictement incluse dans une classe ultérieure (voir la figure). Les objets ou individus (1, 2, 3, 4, 5) sont les éléments terminaux de l'arbre (ou de la hiérarchie). Les classes 6, 7, 8, 9 sont les nœuds de l'arbre : ce sont des classes issues de regroupements de deux éléments (terminaux ou non) numérotés à la suite des éléments terminaux et dont chacune détermine une nouvelle partition. On Alain Morineau Page 20 DeeNov

21 appelle arbitrairement aîné et benjamin, les deux éléments groupés constituant un nœud (voir la figure). On a une hiérarchie indicée si à toute partie h de la hiérarchie est associée une valeur numérique v(h) 0 compatible avec la relation d'inclusion au sens suivant: si h h' alors v(h) < v(h') La hiérarchie de la figure est indicée de façon naturelle par les valeurs des distances correspondant à chaque étape d'agrégation (ces distances sont portées en ordonnées). L'indice est la distance déterminant le regroupement. En "coupant" l arbre par une droite horizontale (voir la figure), on obtient une partition, d'autant plus fine que la coupure est proche des éléments terminaux. Si par exemple l'indice est supérieur à 4 et inférieur à 9, on obtient une partition en deux classes {1,3,4} et {2,5}. Si l indice vaut 3, on obtient trois classes {1,3}, {4} et {2,5}. Une hiérarchie permet donc de fournir une chaîne de n partitions emboitées ayant de 1 à n classes. Alain Morineau Page 21 DeeNov

22 4 Stratégie de classification mixte Principaux avantages et inconvénients des deux familles de classification, les partitions et les arbres hiérarchiques : L'algorithme de classification actuellement le mieux adapté au partitionnement des gros ensembles de données est un algorithme mixte procédant en quatre phases: a) Partitionnement initial en quelques dizaines de classes (par une technique du type "nuées dynamiques" ou "k-means") b) Agrégation des classes obtenues L'agrégation hiérarchique est assez coûteuse si elle s'applique à des dizaines de milliers d'individus, c'est pourquoi il est utile de réduire la dimension du problème en opérant un regroupement préalable en quelques dizaines de classes (50 ou 100 par exemple) c) Choix du nombre de classes par coupure de l'arbre (en général après une inspection visuelle) et optimisation de la partition obtenue par réaffectations (centres mobiles) d) Caractérisation statistique des classes Une fois les individus regroupés en classes, il est facile d'obtenir une description automatique de ces classes: on peut en effet, pour les variables numériques comme pour les Alain Morineau Page 22 DeeNov

23 variables nominales, calculer des statistiques d'écarts entre les valeurs internes à la classe et les valeurs globales; on peut également convertir ces statistiques en valeurs-tests et opérer un tri sur ces valeurs-test. On obtient finalement, pour chaque classe, les modalités et les variables les plus caractéristiques. Présentation schématique : Alain Morineau Page 23 DeeNov

24 5 - Complémentarité classes et plans factoriels Les techniques de classification fournissent un éclairage des données différent de celui des techniques factorielles: il y a complémentarité entre les deux approches. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections sur les plans factoriels. De plus, il est plus facile de décrire des sousensembles d individus (les classes) qu'un continuum spatial (les plans factoriels). La démarche fondée sur les représentations graphiques a en effet deux graves inconvénients: 1) Les visualisations sont limitées à deux, ou en général à très peu de dimensions, alors que le nombre d'axes significatifs peut souvent atteindre en pratique 8 ou 10, parfois plus. 2) Ces visualisations peuvent inclure des milliers de points, et donner lieu à des graphiques chargés ou illisibles. Il faut donc à ce stade se tourner vers d autres méthodes pour compléter, alléger et clarifier la présentation des résultats. L'utilisation conjointe de la classification automatique et des analyses factorielles permet de remédier à ces lacunes. Lorsqu'il y a trop de points sur un graphique, il paraît utile de procéder à des regroupements en familles homogènes. Les algorithmes utilisés pour ces regroupements fonctionnent de la même façon, que les points soient situés dans un espace à deux ou à dix dimensions. Autrement dit, l'opération va présenter un double intérêt: allégement des sorties graphiques d'une part, prise en compte de la dimension réelle du nuage de points d'autre part. La notion de classe est intuitive (groupes d'individus les plus semblables possibles). La description des classes fait appel à des classements de libellés en clair et donc faciles à lire, ces classements étant fondés sur de simples comparaisons de pourcentages ou de moyennes. Alain Morineau Page 24 DeeNov

25 Mais ce sont les méthodes factorielles qui permettent de visualiser les positions relatives des classes dans l'espace, et aussi de mettre en évidence certaines variations continues ou certaines dérives dans cet espace qui auraient pu être masquées par la discontinuité des classes. Les deux techniques sont donc complémentaires, et se valident mutuellement. Alain Morineau Page 25 DeeNov

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

6. Les différents types de démonstrations

6. Les différents types de démonstrations LES DIFFÉRENTS TYPES DE DÉMONSTRATIONS 33 6. Les différents types de démonstrations 6.1. Un peu de logique En mathématiques, une démonstration est un raisonnement qui permet, à partir de certains axiomes,

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

chapitre 4 Nombres de Catalan

chapitre 4 Nombres de Catalan chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C

Plus en détail

D'UN THÉORÈME NOUVEAU

D'UN THÉORÈME NOUVEAU DÉMONSTRATION D'UN THÉORÈME NOUVEAU CONCERNANT LES NOMBRES PREMIERS 1. (Nouveaux Mémoires de l'académie royale des Sciences et Belles-Lettres de Berlin, année 1771.) 1. Je viens de trouver, dans un excellent

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Exercices de dénombrement

Exercices de dénombrement Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

BACCALAUREAT GENERAL MATHÉMATIQUES

BACCALAUREAT GENERAL MATHÉMATIQUES BACCALAUREAT GENERAL FEVRIER 2014 MATHÉMATIQUES SERIE : ES Durée de l épreuve : 3 heures Coefficient : 5 (ES), 4 (L) 7(spe ES) Les calculatrices électroniques de poche sont autorisées, conformement à la

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

5 ème Chapitre 4 Triangles

5 ème Chapitre 4 Triangles 5 ème Chapitre 4 Triangles 1) Médiatrices Définition : la médiatrice d'un segment est l'ensemble des points équidistants des extrémités du segment (cours de 6 ème ). Si M appartient à la médiatrice du

Plus en détail

Nombre de marches Nombre de facons de les monter 3 3 11 144 4 5 12 233 5 8 13 377 6 13 14 610 7 21 15 987 8 34 16 1597 9 55 17 2584 10 89

Nombre de marches Nombre de facons de les monter 3 3 11 144 4 5 12 233 5 8 13 377 6 13 14 610 7 21 15 987 8 34 16 1597 9 55 17 2584 10 89 Soit un escalier à n marches. On note u_n le nombre de façons de monter ces n marches. Par exemple d'après l'énoncé, u_3=3. Pour monter n marches, il faut d'abord monter la première. Soit on la monte seule,

Plus en détail

Journal officiel de l'union européenne

Journal officiel de l'union européenne 20.5.2014 L 148/29 RÈGLEMENT DÉLÉGUÉ (UE) N o 528/2014 DE LA COMMISSION du 12 mars 2014 complétant le règlement (UE) n o 575/2013 du Parlement européen et du Conseil en ce qui concerne les normes techniques

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping Chapitre V : La gestion de la mémoire Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping Introduction Plusieurs dizaines de processus doivent se partager

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Les algorithmes de base du graphisme

Les algorithmes de base du graphisme Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation ) DÉRIVÉES I Nombre dérivé - Tangente Eercice 0 ( voir animation ) On considère la fonction f définie par f() = - 2 + 6 pour [-4 ; 4]. ) Tracer la représentation graphique (C) de f dans un repère d'unité

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

La persistance des nombres

La persistance des nombres regards logique & calcul La persistance des nombres Quand on multiplie les chiffres d un nombre entier, on trouve un autre nombre entier, et l on peut recommencer. Combien de fois? Onze fois au plus...

Plus en détail

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE Le cours de la première année concerne les sujets de 9ème et 10ème années scolaires. Il y a bien sûr des différences puisque nous commençons par exemple par

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Coefficients binomiaux

Coefficients binomiaux Probabilités L2 Exercices Chapitre 2 Coefficients binomiaux 1 ( ) On appelle chemin une suite de segments de longueur 1, dirigés soit vers le haut, soit vers la droite 1 Dénombrer tous les chemins allant

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

OPTIMISATION À UNE VARIABLE

OPTIMISATION À UNE VARIABLE OPTIMISATION À UNE VARIABLE Sommaire 1. Optimum locaux d'une fonction... 1 1.1. Maximum local... 1 1.2. Minimum local... 1 1.3. Points stationnaires et points critiques... 2 1.4. Recherche d'un optimum

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Carl-Louis-Ferdinand von Lindemann (1852-1939)

Carl-Louis-Ferdinand von Lindemann (1852-1939) Par Boris Gourévitch "L'univers de Pi" http://go.to/pi314 sai1042@ensai.fr Alors ça, c'est fort... Tranches de vie Autour de Carl-Louis-Ferdinand von Lindemann (1852-1939) est transcendant!!! Carl Louis

Plus en détail