VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES
|
|
|
- Vincent Chagnon
- il y a 10 ans
- Total affichages :
Transcription
1 VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES Patrick Rousset 1,2 et Christiane Guinot 3 1 CEREQ, Service Informatique 10 place de la Joliette Marseille cedex 2 SAMOS, Université de Paris1, 90 rue de Tolbiac Paris 3 CE.R.I.E.S., 20 rue Victor Noir, Neuilly sur Seine cedex RESUME L algorithme de Kohonen a la particularité de fournir une méthode de classification couplée avec une représentation appelée carte de Kohonen qui traduit la topologie entre les classes. De nombreux outils visuels d aide à l interprétation de cette classification, par exemple à partir d une variable qualitative exogène ou endogène, prennent pour support cette carte afin de tenir compte du voisinage entre les classes. Dans cet article, nous proposons un outil qui visualise la distance entre toutes les classes et permet de rendre compte de la structure intrinsèque du nuage de points. L algorithme de Kohonen devient ainsi le support d une nouvelle technique d analyse de données multidimensionnelles intégrant des représentations graphiques. En particulier, sa carte associée peut être un support de visualisation ou de comparaison de plusieurs classifications d une même base de données (par exemple résultant des méthodes de segmentation et de classification hiérarchique). Cette méthode non linéaire peut ainsi suppléer le couple classique analyse factorielle-classification quand ce dernier n est pas satisfaisant. La carte de Kohonen peut aussi être perçue comme la représentation d une surface passant par les centres des classes associées. L algorithme de Kohonen fournit alors une technique d ajustement et de représentation du nuage de points.
2 Mots clés : Algorithmes d auto-organisation, analyse de données, cartes de Kohonen, classification, représentation de données, réseau de neurones. SUMMARY The Kohonen s self-organising map (SOM) is a classification algorithm whose associated map is a representation of the result reflecting the topology between classes. Many visual tools designed to help the interpretation are based on this map in order to take into account the neighbourhood structure between classes, for example one represents exogenous or endogenous qualitative variable effects on the classification. A new tool visualises distances between all the classes and so permits to show the data intrinsic structure. The SOM becomes then a multidimensional data analysis method which products some representations. In particular, the associated map permits to visualise or compare any classification on the same data set (for example resulting of clustering and segmentation methods). So, this non linear method can be used instead of the classical combination factorial analysis classification when this last one is not satisfying. The Kohonen map can be also considered as the representation of a surface which joins the Kohonen classes centroïds. The SOM is then a new technique of data set adjustment associated with a representation. Keywords: classification, data set visualisation, Kohonen maps, multivariate data analysis, neural networks, self organising maps
3 1. Introduction La représentation de l'information fournie par les méthodes de classification est souvent peu satisfaisante. Un outil visuel qui permettrait à la fois de désigner les classes voisines entre elles et de comprendre la disposition de ces classes dans l'espace d'entrée pourrait améliorer fortement l'interprétation des classifications. Il permettrait par exemple de travailler confortablement sur un nombre de classes important ou de superposer l'information issue de deux classifications complémentaires, par exemple provenant de deux approches différentes telles que regroupement ou discrimination. Actuellement, coupler une méthode de classification avec une analyse factorielle est très souvent utilisé (Wong 1982, Lebart 1995), mais le phénomène d'écrasement dû aux projections sur les plans factoriels rend ces représentations insatisfaisantes et leur interprétation risquée. La classification par l'algorithme de Kohonen (Kohonen 1993, Kohonen 1995, Cottrell 1998) offre l'originalité de proposer une visualisation de la structure de voisinage entre les classes. Il est de plus intéressant de noter que contrairement à la représentation obtenue avec le couple analyse factorielle-classification, celle produite par l algorithme de Kohonen est conçue pour optimiser l'exploitation visuelle des propriétés de l'algorithme, c est-à-dire sa notion de voisinage entre les classes. Plusieurs utilisations des cartes de Kohonen ont été proposées pour aider à l interprétation de la classification (Cottrell 1997, Rousset 1999), malheureusement elles ne permettent pas de visualiser la structure de cette carte dans l'espace d'entrée. Ceci est très regrettable quand on veut utiliser les cartes de Kohonen comme outil d'analyse de données (Blayo 1991, Cottrell 1995, Rousset 1999) et particulièrement pour représenter le nuage de points. Un outil capable de visualiser les distances entre toutes les classes, et pas seulement les classes voisines, peut résoudre ce problème et permettre d'exploiter les cartes de Kohonen à la fois pour résumer les données et - 3 -
4 représenter le nuage de points. Les cartes de Kohonen, complétées par cet outil de visualisation des distances entres les classes, deviennent donc une technique d analyse et de représentation de données capable de se substituer aux plans de l'analyse factorielle lorsque ceux-ci ne donnent pas satisfaction. On peut, en particulier, l utiliser pour représenter le résultat de classifications issues d autres méthodes et situer les classes des différentes classifications les unes par rapport aux autres dans l espace d entrée. En effet, si les cartes de Kohonen n ont été conçues initialement que pour optimiser la représentation de la classification de Kohonen, on peut espérer qu'elles soient également efficaces pour représenter des classifications issues d'autres méthodes qui utilisent la même distance. A titre d'exemple, on propose de superposer l'information de deux classifications de la même base de données, toutes deux faites avec la distance euclidienne, à partir de deux approches différentes. La première approche est une classification hiérarchique de type Ward qui fournit un rassemblement des individus semblables pour chaque niveau de regroupement, la deuxième est une approche de type discriminante qui aboutit à un arbre de segmentation. Ces deux approches ont été utilisées sur les données d'une étude menée au CE.R.I.E.S. dont l'objectif était de proposer une typologie de la peau humaine saine reposant sur un petit nombre de caractéristiques cutanées pertinentes (Guinot 1997, Chavent 1999). Les données ont été recueillies entre avril et mai 1996, sur 212 femmes volontaires d'ile-de-france présentant une peau apparemment saine et d'âge compris entre 20 et 50 ans. Ces données résultent d'un examen médical appréciant 17 caractéristiques de la peau de la joue, évaluées sur des échelles qualitatives. Ces caractéristiques cutanées peuvent être visuelles comme «l aspect gras de la peau» ou encore «la couleur jaune de la peau». Elles peuvent également être tactiles comme «la sensation rêche au toucher» ou encore «l incapacité à rosir même après un léger pincement». Ces variables sont toutes binaires ou ordinales
5 Après avoir présenté les cartes de Kohonen comme outil d analyse puis de représentation des données et les avoir utilisées pour comparer plusieurs classifications, nous préciserons de nouvelles directions en vue de les exploiter pour fournir de nouveaux types d ajustements des nuages de points, en particulier par des surfaces non linéaires, qui pourraient être visualisés par les représentations graphiques que nous présentons ici. 1. Représentation grâce au couple analyse factorielle-classification Une méthode classique de représentation des résultats d'une classification consiste à coupler celle-ci avec une analyse factorielle. La projection de tous les individus sur les plans principaux s'effectue en pointant ceux-ci avec un symbole qui indique leur classe d'affectation. Cette méthode, très utilisée, présente néanmoins les inconvénients dus aux projections. En effet, en utilisant cette technique, on explique la classification à partir d'un espace vectoriel plus petit que celui qui a été utilisé pour construire la classification. Il y a donc un problème de représentativité de la projection qui se traduit graphiquement par un phénomène d'écrasement bien connu. Si l'espace de projection ne concentre pas toute l'information qui a déterminé les classes, l'interprétation des proximités entre les classes risque d'être erronée. En fait, cette méthode est plus fiable quand on veut expliquer les axes principaux par les classes, ce qui n'est pas l'objectif ici. (Ajout figure 1) Pour illustrer ces phénomènes, on a projeté les individus répartis dans les classes issues de la classification hiérarchique avec la distance de Ward dans notre exemple de typologie de la peau humaine saine (figure 1a). Le premier axe principal distingue les classes 2 # et 6 % des autres classes vers les valeurs négatives et le second axe les classes 1 ) et 5 +. Si cette technique est une aide intéressante pour visualiser le positionnement des classes - 5 -
6 sur le plan, on peut néanmoins constater que cette projection superpose la classe 3 ' avec les classes 1 ) et 2 #. De plus, les classes 1 ) et 6 % qui apparaissent loin des autres sur ce plan ne le sont pas nécessairement dans l'espace complet. Le même type de difficulté est rencontré pour la classification issue de la segmentation (figure 1b). Dans le cas particulier où l on veut comparer deux classifications C 1 et C 2, on peut traduire leur croisement par un tableau de contingence. Une identité des deux classifications créé alors un tableau où seule la diagonale est non nulle (à une permutation des colonnes près). Dans le cas contraire, la projection sur le plan factoriel peut constituer une aide pour distinguer deux phénomènes distincts possibles. Le premier est le cas où une classe c de C 1 se répartit en deux classes voisines dans l espace de C 2 et le second est celui où c se divise en deux classes distantes dans l espace. Dans le deuxième cas, on conclut à une divergence entre les deux approches méthodologiques. Mais le problème des projections peut ici aussi fausser notre perception de la situation. (ajout tableau 1) Dans notre exemple sur la typologie de la peau humaine saine, le tableau 1, construit à partir du croisement entre les classes de la classification hiérarchique (appelées classes) et celles de la segmentation (appelées groupes) constitue un support pour évaluer la cohérence entre les deux approches. Il fait apparaître une similarité d ensemble visible sur la diagonale. Néanmoins, les classes 3 ', 1 ) et 2 # se répartissent respectivement entre les trois ensembles de groupes «1 ), 2 # et 4!», «1 ), 2 # et 3 '» et «5 + et 6 %». Ceci pose le problème de savoir si la classe 3 ' est constituée de trois sous groupes ou si les groupes 1 ), 2 # et 4! sont suffisamment proches pour avoir contribué à la constitution d une classe 3 ' homogène. On constate que la projection sur le premier plan principal (figures 1a et 1b) ne permet pas de répondre à cette question
7 3. Classification de Kohonen et la carte associée On s'intéresse dans ce chapitre à l'algorithme de Kohonen comme outil de classification adapté à toutes les distances. Dans la suite pour éviter les ambiguïtés on attribuera le préfixe k à ce qui concerne cette technique (par exemple k-classes). Les caractéristiques de cet algorithme d'auto-organisation non supervisé le rapprochent de la famille des algorithmes de nuées dynamiques, en particulier son nombre de classes est fixé au départ. Il est même identique à l'algorithme de Lloyd (Lloyd 1982) dans la phase finale de son apprentissage (appelé "apprentissage à 0 voisin"). Le résultat de l apprentissage est la détermination de U vecteurs appartenant à l enveloppe convexe des données et appelés vecteurs codes. Ces vecteurs constituent un résumé de l information contenue dans la base des données. A chaque individu est affecté le vecteur code le plus proche au sens de la distance sur l espace des données. Deux individus associés au même vecteur code sont regroupés dans une même classe. On définit ainsi U k-classes dont les représentants dans l espace des données sont les vecteurs codes associés. On peut noter que lorsque l'on fait tendre la durée de la dernière phase de l'apprentissage (à 0 voisin) vers l'infini, le vecteur code tend vers le centre de la k-classe, c est-à-dire son barycentre. Cet algorithme est associé à un ensemble de U unités disposées en réseau pour constituer la carte appelée carte de Kohonen. Chaque unité est affectée à un vecteur code et représente sur la carte la k-classe associée. Ces unités ont une disposition sur la carte qui traduit la proximité entre les vecteurs codes associés. Deux unités voisines sur la carte correspondent à deux vecteurs codes voisins au sens de la distance définie sur l espace des données. La structure du réseau est libre, nous présenterons le cas particulier d'une grille carrée où les unités voisines d'une unité u 0 sont : au rayon 0 l'unité u 0 elle-même, au rayon 1 le carré de 9 unités centré sur u 0, au rayon 2 le carré de 25 unités centré sur u 0. Ce type de - 7 -
8 représentation permet de visualiser certaines caractéristiques de la k-classification. Elle offre aussi l'avantage de contrôler visuellement si les propriétés d'une k-classe s'étendent à ses voisines. Par exemple, on peut montrer graphiquement l'effet d'une variable qualitative Q ayant participé ou non à la construction de la k-classification en insérant dans chaque unité de la carte un camembert dont chaque tranche représente la fréquence d'une modalité de la variable Q dans la k-classe associée à cette unité. (ajout figure 2) La figure 2a représente la caractérisation de chaque k-classe à partir de la caractéristique cutanée «couleur jaune de la peau» dans le cadre de notre exemple sur la typologie de la peau humaine saine. Les unités étant numérotées par ordre croissant de gauche à droite et de haut en bas, on distingue aisément que la présence de cette caractéristique (matérialisée par les parts sombres des camemberts) est une particularité des individus affectés aux deux régions de k-classes voisines unités 1, 2 et 8 et unités 28, 34, 35, 41, 42, 48 et 49, la région 7,14, 21 étant mixte. L'inconvénient majeur de cette représentation est que les unités sont représentées à distances égales ce qui n'est pas le cas de leurs vecteurs codes associés dans l'espace des données. On perd ainsi toute idée de la structure du nuage de points. Dans l exemple de la typologie de la peau humaine saine, cela se traduit par une incapacité à voir sur la carte si les deux régions caractérisées par la présence «d une couleur jaune de la peau» en haut à gauche et en bas à droite sont proches ou éloignées dans l espace des données. Ce problème de la visualisation de la structure de l espace des données va être abordé dans la section suivante
9 4. Visualisation de la structure du nuage de points par une représentation de la distance entre les centres de classes Pour visualiser la structure du nuage de points, ou plus modestement l importance de la proximité entre les k-classes, une première idée (Cottrell Rousset 1997, Rousset 1999) consiste à regrouper les vecteurs codes par une nouvelle classification, par exemple de type hiérarchique avec la distance de Ward. On appelle les nouvelles classes macro-classes. Un niveau de gris est affecté derrière chaque camembert à chaque macro-classe pour les distinguer sur la carte. En pratique, quand on applique cette technique, on constate le plus souvent que les macro-classes confirment la topologie de voisinage en regroupant des k- classes voisines sur la carte. Sur l exemple de la typologie de la peau humaine saine (figure 2b), la macro-classe située dans l angle en haut à gauche (indiquée par le deuxième niveau de gris) regroupe un nombre de k-classes (4) beaucoup plus petit que celle localisée dans l angle en bas à gauche (indiquée par le troisième niveau de gris) (8). De plus, comme sur la figure 2a présentée dans la section 3, il n est toujours pas possible de conclure que les angles en haut à gauche et en bas à droite qui sont tous deux constitués d individus présentant une peau de «couleur jaune» sont éloignés ou correspondent à des k-classes proches. Si la technique des macro-classes augmente notre connaissance de la structure de la carte dans l'espace des données, comme le montre la figure 2b, il est indispensable à ce stade de visualiser la distance entre les vecteurs codes. Une première représentation a été proposée qui visualise la distance entre les vecteurs codes de deux unités voisines (Cottrell de Bodt 1996). Il s'agit de tracer un bord blanc séparant deux unités voisines d'une épaisseur proportionnelle à la distance entre les vecteurs codes associés. Cette méthode appliquée à l'exemple de la typologie de la peau humaine saine augmente notre connaissance de la - 9 -
10 structure en montrant quand deux macro-classes séparent une grande population homogène ou quand elles isolent de petites populations atypiques. Mais cette représentation, qui ne prend en compte que les distances entre les k-classes voisines, ne permet pas d'expliquer pourquoi les grandes distances ne coïncident pas forcement avec des changements de macro-classes. Dans l exemple de la typologie de la peau humaine saine (figure 2c), on peut noter un fossé qui sépare les deux macro-classes (indiquées par le troisième niveau de gris et en gris foncé) à droite du reste de la carte. Mais on peut relever également que la distance entre les vecteurs codes des unités 35 et 41 qui appartiennent à la même macro-classe (troisième niveau de gris) est parmi les plus grandes. De plus, il n est toujours pas possible de conclure si les individus répartis dans les angles en haut à gauche et en bas à droite sont proches ou non. Il est donc nécessaire de représenter la distance entre toutes les k-classes, c est-à-dire U² mesures. On présente maintenant une méthode qui consiste à affecter, sur la carte de Kohonen, à chaque couple de k-classes u et u' un niveau de gris qui est d'autant plus foncé que la distance entre leurs vecteurs codes est importante (4 niveaux de gris possibles). La couleur de la case numérotée u' du u ème cadre correspond à la distance d(u,u'). Cette représentation permet de conserver la structure de voisinage des cartes de Kohonen tout en indiquant la distance entre les centres des k-classes et nous fournit une aide visuelle satisfaisante pour comprendre la structure de l'espace des données. Les grilles étant numérotées par ordre croissant de gauche à droite et de haut en bas, dans l'exemple de la typologie de la peau humaine saine, la figure 2d nous montre sur la première grille en haut à gauche que les unités proches de l unité 1 (en blanc) sont d une part les trois unités ( 2, 8 et 9, premier niveau de gris) qui l entourent et qui forment avec elle la première macro-classe et d autre part les unités 42 et 49 dans l angle en bas à droite (premier niveau de gris). On peut donc maintenant conclure que les deux groupes de k-classes (en haut à gauche et en bas à droite) qui sont chacun caractérisé par la présence «d une couleur jaune de la peau» sont
11 voisins, ce qui n était visible dans aucune des précédentes représentations. Au delà de la visualisation par la première grille du repliement de la carte dû au rapprochement des angles «haut à gauche» et «bas à droite» de la carte, on peut remarquer que cette représentation des distances met aussi en évidence les phénomènes qui sont déjà apparus avec les précédentes représentations. En particulier, sur les grilles du bord droit, par exemple les grilles 27 et 28, on retrouve l éloignement du bord droit du reste de la carte signalé dans le précédent paragraphe avec en plus la nuance due à l exception de l angle «bas à droite» qui se rapproche de l angle «haut à gauche» et du bas de la carte, ce qui n était pas visible précédemment. 5. Représentation d'une classification quelconque sur une carte de Kohonen Dans cette section le résultat de l'algorithme de Kohonen est perçu comme un résumé de l'espace des données en U points de l'espace et les différentes cartes présentées dans les sections 2 et 3 comme une visualisation du nuage de points. Il est donc naturel pour résoudre notre objectif initial d utiliser ces cartes pour représenter les résultats d une classification (non nécessairement de type Kohonen). Le choix de la distance pour construire la carte étant libre, on considère qu elle est cohérente avec celle utilisée pour la classification. On construit une variable qualitative Q qui à chaque individu de l'espace des données associe le numéro de sa classe. On peut faire la cartographie de cette variable comme présenté dans la section 3 (figure 2a) et ainsi localiser les différentes classes sur la carte. Les cartes de la section 4 (figures 2b et 2d) permettent de situer les vecteurs codes dans l espace et donc de connaître la proximité entre les classes. On peut concevoir que plusieurs classifications associées à des distances cohérentes soient chacune adaptée à une base de données et il est donc intéressant de pouvoir comparer les classifications grâce à leur représentation sur la carte. Dans l'exemple de la typologie de la peau humaine saine, on a une première classification de type
12 hiérarchique avec la distance de Ward (en 6 classes) et une deuxième classification obtenues grâce à une méthode de segmentation (en 6 groupes également). Pour ne pas mélanger les deux rôles de l algorithme de Kohonen que sont la classification et la représentation des données, nous ne considérerons volontairement pas ici la classification de Kohonen comme une troisième approche (à nombre de classes fixé). (ajout figure 3) Les différentes représentations des deux classifications de la peau humaine saine (figures 3a à 3d) permettent de localiser les 6 classes et les 6 groupes sur la carte alors que la carte des distances (figure 2d) permet des les situer dans l espace des données. Les figures 3a à 3d visualisent la probabilité empirique pour un individu d une classe k ou d un groupe k d être situé dans la région de l espace résumée par l unité i (figures 3c et 3d), et celle d un individu situé dans l espace des données autour du vecteur code de l unité i d être classé dans la classe k ou le groupe k (figures 3a et 3b). En effet, on note n ik le nombre d individus de la classe k (respectivement groupe k) associés à l unité i, n i. le nombre d individus associés à l unité i et n.k le nombre d individus affectés à la classe k (respectivement le groupe k). Sur la figure 2b décrite au premier paragraphe de la section 4, la part du camembert associée au k ème niveau de gris situé dans l unité i représente n n ik i.. Sur les figures 3c et 3d, la longueur du batonnet l histogramme associé au k ème niveau de gris et situé dans l unité i représente de la même façon n n ik. k. On rappelle que la couleur de fond indique les unités que l on peut regrouper au sens des macro-classes. Comme la carte des distances permet de repérer les vecteurs codes les uns par rapport aux autres dans l espace des données et que l on vient de voir comment identifier les individus concentrés autour de ces points, on peut situer les classes ou les groupes les uns par rapport aux autres. En particulier, on a vu que le bord de
13 droite s écarte du reste de la carte excepté l angle bas à droite. A partir des figures 3a, 3b, 3c, 3d, on constate que le bord gauche correspond aux classes 6, 3 et 2 (respectivement les groupes 2, 5 et 6). On conclut donc que les classes 6 et 2 sont loin des classes 1, 4 et 5. De plus, seule la classe 3 située sur l angle bas à droite se rapproche de ces trois classes (de la classe 1 via l angle bas droite et des classes 4 et 5 via l angle haut à gauche). On distingue aussi les individus de la classe 3 qui sont situés dans l angle haut à gauche et sont donc affectés par la segmentation aux groupes 2 ou 4 et ceux situés dans l angle bas à droite et donc répartis entre les groupes 1 et 2. En conclusion, la répartition des individus de la classe 3 dans trois groupes 1, 2 et 4 s explique par la proximité entre les groupes 1 et 2 (angle bas droite) et entre les groupes 2 et 4 (angle haut gauche), en particulier l hypothèse de la proximité entre les groupes 1 et 4 est écartée. D une façon plus générale, la différence entre les deux approches se traduit par la traduction du rapprochement des angles haut gauche et bas droite de la carte. La classification l identifie comme une classe unique alors que la segmentation considère que l angle haut gauche est le prolongement du bord haut, et respectivement sue l angle bas droite est le prolongement du bord bas. 6. Perspectives (ajout figure 4) Quand on trace sur un plan factoriel, déterminé à partir de la base de données, les vecteurs codes en reliant ceux dont les k-classes associées sont voisines, on obtient une représentation du type de la figure 4a pour l exemple de la typologie de la peau humaine. Les liens ainsi constitués déterminent des parallélépipèdes qui génèrent une surface qui passe par les U points définis par l algorithme de Kohonen (figure 4b). La représentation du nuage de points par l ensemble des cartes de Kohonen présentées dans les sections 3, 4 et 5 devient ainsi également une visualisation de cette surface ainsi que de toute surface ajustant le nuage de
14 points et passant par les U points. On a ainsi le moyen de résumer le nuage de points par une surface avec un outil spécifique pour la représenter,en particulier adapté à sa non linéarité. 7. Conclusion On a présenté une méthode de visualisation de données à partir des cartes de Kohonen qui est une substitution possible à celles de la famille des représentations linéaires quand celles-ci ne sont pas satisfaisantes. Elle apparaît plus adéquate à certaines utilisations comme la représentation graphique des résultats d une classification pour constituer un support de comparaison visuel de différentes classifications. Elle permet ainsi de confronter différentes approches qui peuvent être contradictoires ou complémentaires. Cette méthode de visualisation de données ouvre aussi la perspective de pouvoir ajuster un nuage de points par des surfaces non linéaires tout en ayant des représentations graphiques de celles-ci. Remerciements Les auteurs remercient le professeur E. Tschachler pour ses encouragements et toute l'équipe du CE.R.I.E.S. pour leur contribution aux données et en particulier J. Latreille, F. Morizot et I. Le Fur
15 Références Blayo F. and Demartines P. (1991). Data analysis: how to compare Kohonen neural networks to other techniques? In Proceedings of IWANN 91, pages , Springer Verlag, Berlin. Chavent M., Guinot C., Lechevallier Y. et Tenenhaus M. (1999). Méthodes divisives de classification et segmentation non supervisée : Recherche d une typologie de la peau humaine saine. Revue de Statistique Appliquée, XLVII, Cottrell M. and Ibbou S. (1995). Multiple Correspondence Analysis of a crosstabulations matrix using the Kohonen algorithm. In Proceedings of ESANN 95, M. Verleysen (Eds), pages 27-32, D Facto, Bruxelles. Cottrell M. and de Bodt E. (1996). A Kohonen Map Representations to Avoid Misleading Interpretations. In Proceedings of ESANN 96, M. Verleysen (Ed.), pages , D Facto, Bruxelles. Cottrell M. and Rousset P. (1997). A powerful Tool for Analysing and Representing Multidimensional Quantitative and Qualitative Data. In Proceedings of IWANN'97, pages , Springer Verlag, Berlin. Cottrell M., Fort J.C., Pagès G. (1998). Theorical aspects of the SOM algorithm, Neuro Computing, 21, pages Cottrell M., Gaubert P., Letremy P. and Rousset P. (1999). Analyzing and representing multidimensional quantitative and qualitative data : Demographic study of the Rhône valley
16 The domestic consumption of the Canadian families. E. Oja and S. Kaski (Eds), pages 1-14, Elsevier, Amsterdam. Guinot C, Tenenhaus M., Dubourgeat M., Le Fur I., Morizot F. et Tschachler E. (1997). Recherche d une classification de la peau humaine saine : méthode de classification et méthode de segmentation. Actes des XXIX e Journées de Statistique de la SFdS, pages Kohonen T. (1993). Self-organization and Associative Memory. 3 ed., Springer Verlag, Berlin. Kohonen T. (1995). Self-Organizing Maps. Springer Series in Information Sciences Vol 30, Springer Verlag, Berlin. Lebart L., Morineau M. et Piron M. (1995). Statistique exploratoire multidimensionnelle. Dunod, Paris. Lloyd S.P. (1982). Least squares quantization in PCM. IEEE Transactions on Information Theory, IT-28, 2, Rousset P. (1999). Application des algorithmes d auto-organisation à la classification et à la prévision. Thèse de doctorat, Université Paris I, pages Wong M.A. (1982). A hybrid clustering method for identifying high density clusters. J. Amer. Statist. Assoc., 77,
17 Tableau 1 Répartition des sujets dans les classifications résultant des deux approches. Tableau de contingence croisant les classes issues des deux classifications. Les effectifs sont exprimés en pourcentage du nombre total d individus Classification hiérarchique (distance de Ward) Classification issue de la segmentation Groupe 1 ) Groupe 5 + Groupe 2 # Groupe 3 ' Groupe 4! Groupe 6 % Classe 1 ) 14,2% 0,5% 2,4% 8,5% 0,5% Classe 2 # 12,7% 6,6% Classe 3 ' 3,3% 8% 4,3% Classe 4! 0,9% 0,9% 2,8% 15,1% 2,4% Classe ,3% Classe 6 % 0,5% 5,2%
18 (a) (b) FIGURE 1 Projection sur le premier plan principal résultant d une analyse en composantes principales : (a) Individus représentés par le code de leurs classes issues de la classification hiérarchique avec la distance de Ward (classe 1 ); classe 2 #; classe 3 '; classe 4!; classe 5 +; classe 6 %) (b) Individus représentés par le code de leurs groupes issus de la segmentation (groupe 1 ); groupe 2 #; groupe 3 '; groupe 4!; groupe 5 +; groupe 6 %)
19 (a) (b) (c) (d) FIGURE 2 Caractérisation de la classification de Kohonen par une variable qualitative endogène ou exogène, unités numérotées par ordre croissant de gauche à droite et de haut en bas (a) Fréquence des individus présentant la caractéristique «couleur jaune de la peau», en clair caractéristique absente, en sombre caractéristique présente (b) Représentation des macro-classes ajoutée à la carte précédente, (solutions du regroupement au niveau 6 d une classification de type Ward sur les 49 vecteurs codes) Exemple : 33% des individus de cette classe ont la peau de couleur jaune code couleur des macro-classes Visualisation des distances entre les centres des classes de Kohonen : (c) Représentation des distances entre les vecteurs codes voisins deux à deux (d) Représentation des distances entre tous les vecteurs codes, grilles numérotées par ordre croissant de gauche à droite et de haut en bas code couleur représentant les distances
20 (a) (b) (c) (d) FIGURE 3 La contingence du croisement des k-classes obtenues avec l algorithme de Kohonen avec celles issues d une autre classification effectuée sur la même base de donnée est projetée sur la carte de Kohonen afin d intégrer la topologie entre les classes. La Contingence est exprimée en pourcentage de l effectif des k-classes : les classes (a) ou groupes (b) sont indiqués par la couleur des camemberts. (a) Caractérisation des k-classes par les classes issues de la classification hiérarchique avec la distance de Ward de la même base de données (b) Caractérisation des k-classes de Kohonen par les groupes issus de la segmentation La Contingence est exprimée en pourcentage de l effectif de chaque classe (c) ou de chaque groupe (d): les classes ou groupes sont indiqués par la couleur des bâtonnets. (c) Répartition des classes issues de la classification hiérarchique avec la distance de Ward dans les k-classes (d) Répartition des groupes issus de la segmentation dans les k-classes
21 (a) (b) FIGURE 4 Projection sur des plans de la surface générée à partir à la fois des centres de classes de l algorithme de Kohonen et des liens de voisinages entre eux. Pour une question de lisibilité, seuls les liens entre 4 voisins sont représentés : (a) Projection de la surface sur le premier plan principal (b) Surimpression du bord de la carte entrait plein (en pointillé pour les bords cachés par la surface)
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Visualizing Start-up Firm Trajectories on Kohonen Maps
Visualizing Start-up Firm Trajectories on Kohonen Maps D. François 1, M. Biga Diambeidou 2, B. Gailly 2, V. Wertz 1, M. Verleysen 3 Université catholique de Louvain 1 Machine Learning Group CESAME, av.
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Exemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Classification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
SIG ET ANALYSE EXPLORATOIRE
SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information
Annexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Optimisation de la compression fractale D images basée sur les réseaux de neurones
Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A [email protected]
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL
COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication
Fonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS
ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN
Once the installation is complete, you can delete the temporary Zip files..
Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une
INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE
INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans
- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel
Planifier le projet > Identifier les étapes > Organiser le projet > Identifier les étapes - Le Diagramme de Gantt > Organiser le projet - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier
ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection
ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data
7. Exemples de tests pour détecter les différents troubles de la vision.
7. Exemples de tests pour détecter les différents troubles de la vision. 7.1 Pour la myopie (mauvaise vue de loin) : Test de vision de loin Sur le mur d un pièce, fixez l illustration ci-dessous que vous
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement
Agenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
modélisation solide et dessin technique
CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir
Traitement numérique de l'image. Raphaël Isdant - 2009
Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture
Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur
Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur I- Ouverture d une nouvelle feuille de travail Fichier / Nouveau (ou ctrl + N) Indiquer dans la fenêtre qui s ouvre
Fête de la science Initiation au traitement des images
Fête de la science Initiation au traitement des images Détection automatique de plaques minéralogiques à partir d'un téléphone portable et atelier propose de créer un programme informatique pour un téléphone
1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position
Plan du cours : Le problème : naviguer efficacement une structure de données Ce qui ne marche pas Ce qui marche : les de Huet Exemples Comment dériver des pour tout type de données Pour en savoir plus
Les algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
1 - PRESENTATION GENERALE...
Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...
Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00
Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00 HFFv2 1. OBJET L accroissement de la taille de code sur la version 2.0.00 a nécessité une évolution du mapping de la flash. La conséquence de ce
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Introduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?
Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Nathalie LEPINE GREMAQ, Université de Toulouse1, 31042 Toulouse, France GRAPE, Université Montesquieu-Bordeaux
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Les parcs de logements et leur occupation. dans l Aire Urbaine de Lille et sa zone d influence. Situation 2005 et évolution 1999-2005
Les parcs de logements et leur occupation dans l Aire Urbaine de Lille et sa zone d influence Situation 2005 et évolution 1999-2005 Décembre 2008 Le territoire d étude 2 Agence de développement et d urbanisme
Classification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
LE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS
Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS Mémento Ouvrir TI-Nspire CAS. Voici la barre d outils : L insertion d une page, d une activité, d une page où l application est choisie, pourra
5Visualisation. pièges à. éviter... de données : e-book : Visualisation & Ergonomie. Page 1 / 30. Partagez cet e-book :
Page 1 / 30 5Visualisation de données : éviter... pièges à Partagez cet e-book : Page 2 / 30 Depuis des décennies, nous utilisons des graphiques pour mieux interpréter les données métiers. Toutefois, même
a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :
a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN
INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX
TABLE DES MATIERES Livret Utilisateur Excel 2007 Niveau 2 INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX... 4 Les tableaux croisés dynamiques... 4 Création d un tableau croisé... 5 Comparer des
Etude comparative de différents motifs utilisés pour le lancé de rayon
Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul
Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8
Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8 Christine TURCK 1 * et **, Christiane WEBER**, Dominique THOME*
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Exercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Modélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Enjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière
Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière Ronan SYMONEAUX, Isabelle MAITRE, Frédérique JOURJON UMT VINITERA- Laboratoire GRAPPE
UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178
Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain
Chapitre 1 Régime transitoire dans les systèmes physiques
Chapitre 1 Régime transitoire dans les systèmes physiques Savoir-faire théoriques (T) : Écrire l équation différentielle associée à un système physique ; Faire apparaître la constante de temps ; Tracer
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Quels polygones sont formés par les milieux des côtés d un autre polygone?
La recherche à l'école page 13 Quels polygones sont formés par les milieux des côtés d un autre polygone? par d es co llèg es n dré o ucet de Nanterre et Victor ugo de Noisy-le-rand enseignants : Martine
Intelligence Economique - Business Intelligence
Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit
TRAVAUX DE RECHERCHE DANS LE
TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.
Les enseignes spécialisées et l intégration du marketing sensoriel dans l approche multicanale de leur distribution. Fanny NOYELLE Année Universitaire 2007 / 2008 ESUPCOM Lille Directeurs de mémoire :
IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB
IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB Ce document, écrit par des animateurs de l IREM de Besançon, a pour objectif de présenter quelques unes des fonctions du logiciel Scilab, celles qui sont spécifiques
UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
Disparités entre les cantons dans tous les domaines examinés
Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi federal da statistica Swiss Federal Statistical Office EMBARGO: 02.05.2005, 11:00 COMMUNIQUÉ DE PRESSE MEDIENMITTEILUNG
3615 SELFIE. http://graffitiresearchlab.fr HOW-TO / GUIDE D'UTILISATION
3615 SELFIE http://graffitiresearchlab.fr HOW-TO / GUIDE D'UTILISATION Hardware : Minitel Computer DIN FM545 45 connector (http://www.gotronic.fr/art-fiche-din-fm545-4747.htm) Cable Arduino compatible
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Pourquoi utiliser des visuels et des logiciels de présentation?
Pourquoi utiliser des visuels et des logiciels de présentation? Jacques Lanarès 3 fonctions principales Mémorisation Compréhension Renforcer Attention Les visuels peuvent faciliter la mémorisation : En
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Sillage Météo. Notion de sillage
Sillage Météo Les représentations météorologiques sous forme d animation satellites image par image sont intéressantes. Il est dommage que les données ainsi visualisées ne soient pas utilisées pour une
REVISION DE LA DIRECTIVE ABUS DE MARCHE
REVISION DE LA DIRECTIVE ABUS DE MARCHE Principaux changements attendus 1 Le contexte La directive Abus de marché a huit ans (2003) Régimes de sanctions disparates dans l Union Harmonisation nécessaire
La construction du temps et de. Construction du temps et de l'espace au cycle 2, F. Pollard, CPC Bièvre-Valloire
La construction du temps et de l espace au cycle 2 Rappel de la conférence de Pierre Hess -Démarche de recherche: importance de se poser des questions, de chercher, -Envisager la démarche mentale qui permet
Forge. Présentation ( )
( RetourListeFichesParThèmes ) Forge Présentation Définition Objectifs Services fournis, fonctions disponibles Services en ligne d hébergement de projets La solution des logiciels intégrés pour le déploiement
Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1
Trajectoires individuelles d'exposition aux psychotropes au cours de la grossesse et partitionnement en fonction du profil d'exposition : utilisation des K-means pour données longitudinales Caroline Hurault-Delarue
Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
TEXT MINING. 10.6.2003 1 von 7
TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre
Le Dessin Technique.
Jardin-Nicolas Hervé cours 1 / 9. Modélisation et représentation d un objet technique. La modélisation et la représentation d un objet sont deux formes de langage permettant de définir complètement la
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10
PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION
Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)
Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2) Les indications ci-dessous ont pour objectif de guider la personnalisation
WEB page builder and server for SCADA applications usable from a WEB navigator
Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB WEB page builder and server for SCADA applications usable from a WEB navigator opyright 2007 IRAI Manual Manuel
Recherche dans un tableau
Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
CHAPITRE VIII : Les circuits avec résistances ohmiques
CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On
Extrait du site de l'oseo (ex.anvar) http://www.anvar.fr/projlanc.htm. Reste à déterminer les points incontournables
Extrait du site de l'oseo (ex.anvar) http://www.anvar.fr/projlanc.htm Notez que vous trouverez les fiches citées à chaque étape sur le site (Normalement, les liens ont été conservés et fonctionnent) Reste
CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS
CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS Nazih Selmoune (*), Zaia Alimazighi (*) [email protected], [email protected] (*) Laboratoire des systèmes
Folio Case User s Guide
Fujitsu America, Inc. Folio Case User s Guide I N S T R U C T I O N S This Folio Case is a stylish, lightweight case for protecting your Tablet PC. Elastic Strap Pen Holder Card Holders/ Easel Stops Figure
