INTERPRÉTATION DES RÉSULTATS DE SVM
|
|
- Chrystelle St-Louis
- il y a 8 ans
- Total affichages :
Transcription
1 INTERPRÉTATION DES RÉSULTATS DE SVM Thanh-Nghi Do & François Poulet {dothanh ESIEA Recherche 38, rue des Docteurs Calmette et Guérin Parc Universitaire de Laval-Changé Laval Résumé : Nous présentons une méthode d'interprétation graphique des résultats de SVM. Un prétraitement permet de ner un sous-ensemble de dimensions en utilisant un SVM norme-1 avec un noyau linéaire. Cette réduction du nombre de dimensions se fait sans perte de précision pour la classification. Ensuite on utilise des techniques graphiques de visualisation de données multidimensionnelles pour pouvoir interpréter les résultats de la classification par SVM. Nous montrons l'efficacité de notre approche sur des ensembles de données bio-médicale ayant un très grand nombre (jusqu'à plusieurs dizaines de milliers) de dimensions. Mots-clés : Séparateur à Vaste Marge, interprétation de résultats, visualisation d information, grand nombre de dimensions, de dimensions, réduction de dimensions. Abstract : We present a graphical method to graphically interpret the SVM results. A preprocessing step is used to select a subset of the original dimensions of the data set with a linear kernel 1-norm SVM algorithm. This feature selection method does not reduce the classification accuracy. Then we use visualisation methods to interpret the SVM results. We illustrate our approach efficiency on biomedical datasets having very large (up to several ten thousands) number of dimensions. Index Terms : Support Vector Machine, result interpretation, information visualization, high dimensional datasets, feature selection, dimensionality reduction. 1. Introduction Les SVM (Support Vector Machine ou Séparateurs à Vaste Marge) (Vapnik, 1995) sont une méthode récente de classification supervisée. Ils ont pour objectif de rechercher le meilleur hyperplan (w,b) de séparation des données en deux classes. Le plan est représenté par le vecteur de l ensemble de ses coefficients w et le scalaire b. La classification d un nouvel individu x est donnée par sa position par rapport à l'hyperplan, c'est-à-dire le signe de w.x b. On peut utiliser différents types de fonctions de noyau (d autres formes de frontières) comme une fonction polynômiale de degré d, sigmoïdale ou RBF (Radial Basis Function). Les SVM ont montré leur efficacité dans de nombreux domaines d applications comme la reconnaissance de chiffres manuscrits, la classification de textes ou la bioinformatique (Guyon, 1999) et ce même sur des ensembles de données de très grandes dimensions (Poulet et Do, 2003). Mais leurs résultats ne sont pas facilement interprétables, les seules informations fournies sont en général soit les vecteurs support sans aucune autre indication soit les coefficients de l'hyperplan de séparation (et éventuellement le taux de bonne classification). L utilisateur sait qu il peut classifier de manière efficace ses données grâce à l'hyperplan de séparation mais il est par exemple très difficile d expliquer ce qui fait qu'un individu est dans la classe +1 plutôt que dans la classe 1. Des méthodes permettant l'interprétation des résultats de SVM sont donc indispensables. Une première méthode de visualisation des résultats de SVM a été proposée par (Caragea et al, 2001). Elle effectue la projection en 2D des vecteurs support à l'aide d'un algorithme de Grand Tour. Une seconde méthode a été proposée par (Poulet, 2002) utilisant une série de projections 2D
2 "scatter-plot matices" montrant à la fois les individus et les intersections du plan de séparation avec les matrices 2D. Une évolution fut ensuite de ne plus représenter que les individus à l' aide toujours d' une série de projections 2D mais avec un histogramme des individus classés en fonction de leur distance à l' hyperplan de séparation (Poulet, 2003). Cette dernière évolution est une visualisation relativement pertinente des résultats mais ne peut pas être utilisée lorsque l' ensemble de données possède un grand nombre de dimensions (colonnes de la base de données). Nous proposons ici un outil permettant à l utilisateur de visualiser la marge de séparation du SVM dans le cas d' ensembles de données ayant un grand nombre de dimensions (jusqu' à plusieurs dizaines de milliers). L approche utilise en prétraitement un algorithme de SVM norme-1 pour ner un sous-ensemble de dimensions (sans altérer le taux de bonne classification), puis des techniques graphiques interactives de visualisation sont utilisées pour visualiser les résultats du SVM. Nous évaluons ce travail sur des ensembles de données bio-médicales ayant un très grand nombre de dimensions. Le paragraphe 2 décrit la de dimensions en utilisant un algorithme de SVM norme-1 et les résultats expérimentaux obtenus sur des ensembles de données ayant un grand nombre de dimensions. Le paragraphe 3 présente notre outil de visualisation des résultats des SVM avant la conclusion et les extensions futures de ce travail. 2. Sélection d'un sous ensemble de dimensions Le but de cette étape de prétaitement des données est de réduire le nombre de dimensions (colonnes de la base de données) d' un ensemble de données sans pour autant perdre trop d' information. On cherche donc à éliminer les dimensions qui n' apportent que peu (ou pas) d' information pour la classification. Pour ce faire, nous utilisons un algorithme particulier de SVM, le SVM norme-1 avec un noyau linéaire (Fung et Mangasarian, 2002). En résumé, cet algorithme cherche le meilleur hyperplan de séparation en maximisant la marge et minimisant les erreurs. Pour cela, il cherche à minimiser la norme-1 de l' hyperplan (au lieu de la norme-2 de l' hyperplan dans le cas des SVM standards). C' est un algorithme très efficace pour ner un sous-ensemble de dimensions. Les résultats obtenus par le SVM norme-1 sont comparables avec ceux obtenus par les SVM standards, la particularité de cet algorithme de SVM norme-1 est qu' il donne un hyperplan de séparation avec la plupart des coefficients nuls. Les dimensions correspondant aux coefficients nuls sont supprimées. L ensemble du programme est écrit en C/C++ sous IRIX (station SGI-O2) et Linux (PC). Pour évaluer ce travail, nous présentons les résultats obtenus sur des ensembles de données bio-médicales ayant un très grand nombre de dimensions provenant du Kent Ridge Bio-medical Dat Set Repository (Jinyan & Huiqing, 2002). Nous avons utilisé le programme SVMLight (Joachims, 2002) avec un noyau linéaire pour classifier les données dans le cas où toutes les dimensions sont traitées. Les ensembles de données utilisés sont décrits dans le tableau 1. classes nb. individus nb. dimensions protocole de test AML-ALL Leukemia trn 34 tst Breast trn 19 tst Colon Tumor Leave-1-out Lung trn 149 tst Ovarian Leave-1-out Tableau 1 Description des ensembles de données
3 AML-ALL Leukemia Breast Colon Tumor Lung Ovarian précision classe +1 précision classe -1 précision 100% 95% 85,71% 92,86% 94,12% 94,12% 91,67% 83,33% 57,14% 57,14% 78,95% 73,68% 95,45% 86,36% 97,5% 92,5% 96,77% 90,32% 100% 100% 96,27% 98,51% 96,64% 98,66% 100% 100% 100% 100% 100% 100% (13 dim) (13 dim) Tableau 2 Performance en terme de taux de précision Les résultats obtenus après avoir né les dimensions sont comparés avec ceux obtenus une classification sur l ensemble des dimensions. Les résultats concernant le taux de précision sont donnés dans le tableau 2 (les meilleurs résultats sont en caractères gras). On remarque que pour tous les ensembles de données traités sauf un, les résultats sont meilleurs lorsque l' on utilise un sousensemble de dimensions plutôt que l' ensemble complet de dimensions. Il est intéressant aussi de constater que le nombre de dimensions utilisées est réduit de manière très significative : par exemple sur Breast on passe de dimensions à 10 dimensions sans perte de précision (c' est même l' inverse qui se produit puisque le taux de précision est amélioré de 5%) et sur AML- ALL Leukemia, on passe de 7129 à 5 dimensions (soit une diminution d' un facteur 1400) en conservant exactement le même taux de précision. Figure 1 Visualisation des indivus mal classifiés les plus proches de la marge
4 3. Visualisation des résultats de SVM Sur l' exemple de la figure 1, la partie gauche représente la distribution des points en fonction de leur distance à l' hyperplan de séparation, avec en positif, les points bien classés et en négatif les points mal classés, la couleur représentant la classe. La partie droite représente les projections 2D des points sur toutes les paires possibles d' attributs, l' une de ces matrices étant reproduite à une échelle plus grande dans la partie inférieure droite de l' outil (sur la figure 1 c' est la dernière matrice de la première colonne). Lorsque l' on ne les barres de l' histogramme dans la partie gauche (ici on a choisit les points mal classés les plus proches de l' hyperplan de séparation), ces points sont alors automatiquement nés dans les projections 2D. Comme on le voit dans la matrice 2D (coin inférieur droit de la figure 1), ces points forment presque une droite. Cela signifie que l' hyperplan de séparation des deux classes est presque perpendiculaire à la matrice 2D. Donc seulement deux attributs interviennent dans la position de l' hyperplan. Ces deux attributs sont ceux selon lesquels la projection est effectuée. On est alors capable d' interpréter le résultat du SVM : ce sont les attributs i et j qui font qu' un individu appartient à la classe +1 ou 1. Sur l' exemple de la figure 1, on peut même être encore plus précis : on remarque que les points nées (les mal classés les plus proches de l' hyperplan) forment une droite verticale, cela signifie que seul l' attribut représenté sur l' axe des x joue un rôle dans l' appartenance à la classe. Par contre, on ne peut pas tirer de conclusion aussi immédiate lorsque les points correspondant aux individus les plus proches de l' hyperplan sont répartis dans la matrice 2D. En effet dans ce cas, il se peut très bien que les 2 attributs n' influent pas sur la classe, comme il est possible qu' ils influent sur la classe (mais avec la combinaison d' autre(s) attribut(s)). plan dim dist. plan dim-4 dim-2 Distribution des données Vue 3D Figure 2 - Visualisation du résultats de SVM sur l ensemble de données Lung 4. Conclusion-perspectives Nous avons présenté un algorithme permettant de visualiser les résultats de la classification effectuée par un SVM dans le cas d' ensembles de données ayant un nombre élevé de dimensions. Il utilise un algorithme de SVM norme-1 en prétraitement pour réduire de manière significative le nombre de dimensions à prendre en compte dans les phases suivantes. Cette réduction du nombre de
5 dimensions se fait sans perte d' information pertinente pour la classification comme l' ont montré les résultats présentés sur les ensembles de données bio-médicales. Une fois la classification eefectuée, les résultats sont visualisés sous forme graphique pour mettre en évidence les attributs importants pour l' appartenance à telle ou telle classe. Les extensions de ces travaux sont nombreuses. Tout d' abord la visualisation de la distribution des individus par rapport à l' hyperplan peut se généraliser à d' autres types de frontières (comme par exemple une coupe dans un arbre de décision). Ensuite d' autres types de représentations graphiques (par exemples des coordonnées parallèles ou des matrices 3D) peuvent être liés à l' histogramme représentant la distribution des individus à la place ou en plus des matrices 2D. Bibliographie [1] Caragea D., Cook D., Honavar V., Gaining Insights into Support Vector Machine Pattern Classifiers Using Projection-Based Tour Method, in proc. of KDD' 2001 Workshop on Visual Data Mining. [2] Fung, G., and Mangasarian, O. (2002) A Feature Selection Method for Support Vector Machine Classification, Data Mining Institute Technical Report 02-03, Computer Sciences Department, University of Wisconsin, Madison, USA. [3] Guyon, I. (1999) Web Page on SVM Applications, SVM/applist.html. [4] Jinyan, L., Huiqing, L. (2002) Kent Ridge Bio-medical Dat Set Repository, sg/gedatasets. [5] Joachims, T. (2002) SVM-Light : Support Vector Machine, /svm_light/. [6] Poulet F. (2002) Cooperation between automatic algorithms, interactive algorithms and visualization tools for Visual Data Mining, in proc. of VDM@ECML/PKDD' 02, the 2 nd International Workshop on Visual Data Mining, Helsinki, Finland. [7] Poulet, F. (2003) Visualisation des résultats de SVM, Actes de SFC 03, X e Rencontres de la Société Francophone de Classification, Neuchâtel, Suisse, pp [8] Poulet, F., Do, T-N. (2003) Mining Very Large Datasets with SVM Algorithms, in O. Camp, J. Filipe, S. Hammoudi, M. Piattini Eds., Enterprise Information Systems V, Kluwer, [9] Vapnik, V. (1995) The Nature of Statistical Learning Theory, Springer-Verlag, New York.
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailAmélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailSélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr
Plus en détailphysicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178
Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain
Plus en détailReconnaissance de gestes : approches 2D & 3D
Reconnaissance de gestes : approches 2D & 3D Maher Mkhinini et Patrick Horain Institut Mines-Télécom/Télécom SudParis Département Électronique et Physique, 9 rue Charles Fourier, 91011 Evry, France Email
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailLe nouveau visage de la Dataviz dans MicroStrategy 10
Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailE-Gen : traitement automatique des offres d emploi
591 E-Gen : traitement automatique des offres d emploi Rémy Kessler 1, 2, Marc El-Bèze 1 1 Laboratoire Informatique d Avignon, BP 1228 F-84911 Avignon Cedex 9 FRANCE 2 AKTOR Interactive Parc Technologique
Plus en détailNe cherchez plus, soyez informés! Robert van Kommer
Ne cherchez plus, soyez informés! Robert van Kommer Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2 Le contexte
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailOnce the installation is complete, you can delete the temporary Zip files..
Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une
Plus en détailLe Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs
Le Futur de la Visualisation d Information Jean-Daniel Fekete Projet in situ INRIA Futurs La visualisation d information 1.Présentation 2.Bilan 3.Perspectives Visualisation : 3 domaines Visualisation scientifique
Plus en détailLaboratoire d Automatique et Productique Université de Batna, Algérie
Anale. Seria Informatică. Vol. IX fasc. 2 Annals. Computer Science Series. 9 th Tome st Fasc. 2 La sélection de paramètres d un système industriel par les colonies de fourmis Ouahab Kadri, L. Hayet Mouss,
Plus en détailLa carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA Jean-Daniel.Fekete@inria.fr www.aviz.
La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA Jean-Daniel.Fekete@inria.fr www.aviz.fr Quelques exemples 1 La campagne de Russie de Napoléon
Plus en détailEntreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Plus en détailTRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Plus en détailTechniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Plus en détailINTERNET : OUTIL DE COOPERATION INTER-UNIVERSITAIRE UNE NOUVELLE FORME DE COOPERATION, NATIONALE ET INTERNATIONALE,
INTERNET : OUTIL DE COOPERATION INTER-UNIVERSITAIRE UNE NOUVELLE FORME DE COOPERATION, NATIONALE ET INTERNATIONALE, ENTRE FILIERES D ENSEIGNEMENT Michel Buffa, Maître de Conférences en Informatique buffa@unice.fr,
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailBILAN du projet PEPS 1 EOLIN (Eolien LMI INSA)
BILAN du projet PEPS 1 EOLIN (Eolien LMI INSA) Lab. de Math de l INSA de ROUEN FR CNRS 3335 et EA 3226 PLAN 1. Introduction 2. Bilan scientifique 3. Bilan financier 4. Conclusion 1 Introduction Le projet
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailVISUALISATION DE NUAGES DE POINTS
ARNAUD BLETTERER MULTI-RÉSOLUTION 1/16 VISUALISATION DE NUAGES DE POINTS MULTI-RÉSOLUTION AU TRAVERS DE CARTES DE PROFONDEUR Arnaud Bletterer Université de Nice Sophia Antipolis Laboratoire I3S - Cintoo
Plus en détailCommande Prédictive des. Convertisseurs Statiques
Commande Prédictive des Convertisseurs Statiques 1 Classification des méthodes de commande pour les convertisseurs statiques Commande des convertisseurs Hystérésis MLI Cde Linéaire Fuzzy Logic Sliding
Plus en détailExo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.
Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailPost-processing of multimodel hydrological forecasts for the Baskatong catchment
+ Post-processing of multimodel hydrological forecasts for the Baskatong catchment Fabian Tito Arandia Martinez Marie-Amélie Boucher Jocelyn Gaudet Maria-Helena Ramos + Context n Master degree subject:
Plus en détailLe Traitement Automatique des Langues en France à l ère du Big Data
TAL = Ordinateur & Langue Vers une myriadisation des (micro)-données et des traitement Le Traitement Automatique des Langues en France à l ère du Big Data À l aube d un révolution technologique Patrick
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailForthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
Plus en détailUtilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailUtilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association
Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association Gwenael Bothorel, Mathieu Serrurier, Christophe Hurter To cite this version: Gwenael Bothorel, Mathieu
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailParallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. benjamin.auder@math.u-psud.fr
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailFolio Case User s Guide
Fujitsu America, Inc. Folio Case User s Guide I N S T R U C T I O N S This Folio Case is a stylish, lightweight case for protecting your Tablet PC. Elastic Strap Pen Holder Card Holders/ Easel Stops Figure
Plus en détailOptimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h
Télécom Physique Strasbourg Master IRIV Optimisation et programmation mathématique Professeur Michel de Mathelin Cours intégré : 20 h Programme du cours d optimisation Introduction Chapitre I: Rappels
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailExo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
Plus en détailLamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Plus en détailExploration de données multimédia par réalité virtuelle
Exploration de données multimédia par réalité virtuelle S Aupetit N Monmarché C Guinot G Venturini M Slimane Laboratoire d Informatique, École Polytechnique de l Université de Tours, 64, Avenue Jean Portalis,
Plus en détailOrdonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative
Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative Y. Houbad, M. Souier, A. Hassam, Z.Sari Laboratoire d automatique Tlemcen Faculté de technologie, Université Abou
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailProgrammation Linéaire - Cours 1
Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.
Plus en détailInstructions Mozilla Thunderbird Page 1
Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et
Plus en détailMANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION
Ficep Group Company MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION KEEP ADVANCING " Reach your expectations " ABOUT US For 25 years, Steel Projects has developed software for the steel fabrication industry.
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailApplication des courbes ROC à l analyse des facteurs pronostiques binaires
Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre
Plus en détailNous désirons tout mettre en œuvre pour découvrir le travail d enseignant et surtout, améliorer nos
L A P P R E N T I S S A G E E N P R O F O N D E U R Présenté par : Michael Lafontaine, CGA, M. Fisc. Bruce Lagrange, CA, M. Sc. Patricia Michaud, CA, MBA Francis Belzile, CA, M. Fisc. Janie Bérubé, CA,
Plus en détailREMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE
Plus en détailInstitut français des sciences et technologies des transports, de l aménagement
Institut français des sciences et technologies des transports, de l aménagement et des réseaux Session 3 Big Data and IT in Transport: Applications, Implications, Limitations Jacques Ehrlich/IFSTTAR h/ifsttar
Plus en détailIntegrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project
Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project L enseignement intégré de la musique: Un défi pour l enseignement et la formation des enseignants
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailRicco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Plus en détailL offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence
L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant
Plus en détailUNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU
Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris
Plus en détailIntroduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014
Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne
Plus en détailUne méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,
Plus en détailModélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Plus en détailDétection des deux roues motorisés par télémétrie laser à balayage
MEsure du TRAfic des deux-roues MOTOrisés pour la sécurité et l évaluation des risques Détection des deux roues motorisés par télémétrie laser à balayage Séminaire de mi parcours 11 mai 2012 CETE Normandie
Plus en détailRAPID 3.34 - Prenez le contrôle sur vos données
RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux
Plus en détailGestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?
Gestion des références bibliographiques Comment simplifier la gestion des références bibliographiques? Objectifs de la formation Créer votre base de données personnelle de références bibliographiques.
Plus en détailBusiness-Insight Company Presentation
Brussel, March 1, 2013 Business-Insight Company Presentation The Business-Insight company creates the latest state-of-the-art softwares in the domain of predictive datamining. Predictive datamining techniques
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailExemple d application en CFD : Coefficient de traînée d un cylindre
Exemple d application en CFD : Coefficient de traînée d un cylindre 1 Démarche générale Avec Gambit Création d une géométrie Maillage Définition des conditions aux limites Avec Fluent 3D Choix des équations
Plus en détailLes Grandes Tendances d Investissement Informatique en 2011/ 2012. Rachel Hunt
Les Grandes Tendances d Investissement Informatique en 2011/ 2012 Rachel Hunt Un retour a la croissance pour l investissement informatique Croissance de 3 a 5% en 2011/12 La croissance est tirée par les
Plus en détailTHÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.
École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par
Plus en détailFormula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailApplication de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailThéorèmes de Point Fixe et Applications 1
Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des
Plus en détailLa cryptographie du futur
La cryptographie du futur Abderrahmane Nitaj Laboratoire de Mathématiques Nicolas Oresme Université de Caen, France nitaj@math.unicaen.fr http://www.math.unicaen.fr/~nitaj Résumé Sans nous rendre compte,
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailGUIDE UTILISATEUR SYSTEMES CCTV
GUIDE UTILISATEUR SYSTEMES CCTV 2SECURE 3 chemin des mules 13124 PEYPIN www.2secure.fr - 1 - SOMMAIRE : 1 ACCEDER / SORTIR D UN MENU :...3 2 VISUALISER UN ENREGISTREMENT SUR LE DVR :...3 3 SAUVEGARDER
Plus en détailT. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5
Modélisation de la performance et optimisation d un algorithme hydrodynamique de type Lagrange-Projection sur processeurs multi-cœurs T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet
Plus en détailCaroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1
Trajectoires individuelles d'exposition aux psychotropes au cours de la grossesse et partitionnement en fonction du profil d'exposition : utilisation des K-means pour données longitudinales Caroline Hurault-Delarue
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailL écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détailUNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
Plus en détailValorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software
Valorisez vos actifs logiciels avec Rational Asset Manager Jean-Michel Athané, Certified IT Specialist IBM Rational Software 13 Qu est-ce qu un actif logiciel (Software Asset)? Un asset est une collection
Plus en détailINTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE
I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES
Plus en détail