TANAGRA : un logiciel gratuit pour l enseignement et la recherche
|
|
|
- Géraldine Jobin
- il y a 10 ans
- Total affichages :
Transcription
1 TANAGRA : un logiciel gratuit pour l enseignement et la recherche Ricco Rakotomalala ERIC Université Lumière Lyon 2 5, av Mendès France Bron [email protected] Résumé. TANAGRA est un logiciel «open source» librement accessible sur le web, il tente de concilier deux types d utilisation. D une part, en proposant une interface suffisamment conviviale, il est accessible aux utilisateurs nonspécialistes qui veulent effectuer des études sur des données réelles. D autre part, en définissant une architecture simplifiée à l extrême, les efforts de développement portent sur l essentiel, à savoir la mise au point et l intégration d algorithmes de fouille de données, les chercheurs peuvent ainsi mener des expérimentations sur les méthodes. Dans cet article, nous présentons les principales fonctionnalités du logiciel en essayant de le positionner sur l échiquier des (très) nombreux logiciels diffusés actuellement. 1 Introduction TANAGRA est un logiciel gratuit de DATA MINING destiné à l enseignement et à la recherche, diffusé sur internet ( Il implémente une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de l apprentissage automatique et des bases de données. Sa principale originalité est qu il tente de concilier une utilisation «néophyte» et «experte». Son premier objectif est d offrir aux étudiants et aux experts d autres domaines (médecine, bio-informatique, marketing, etc.) une plate-forme facile d accès, respectant les standards des logiciels actuels, notamment en matière d interface et de mode de fonctionnement, il doit être possible d utiliser le logiciel pour mener des études sur des données réelles. Le second objectif est de proposer aux chercheurs une architecture leur facilitant l implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces algorithmes. TANAGRA se comporte alors plus comme une plateforme d'expérimentation qui leur permettrait d'aller à l'essentiel en leur épargnant toute la partie ingrate de la programmation de ce type d'outil, notamment la gestion des données. Point très important à nos yeux, la disponibilité du code source est un gage de crédibilité scientifique, elle assure la reproductibilité des expérimentations publiées par d autres chercheurs et, surtout, elle permet la comparaison et la vérification des implémentations. TANAGRA n'intègre pas en revanche tout ce qui fait la puissance des outils commerciaux du marché : multiplicité des sources de données, accès direct aux entrepôts de
2 TANAGRA données et autres datamarts, interactivité des traitements avec des outils de visualisation sophistiqués. Ces outils, aussi séduisants et utiles soient-ils dans le cadre d études sur des données réelles, imposent des standards de développement autrement plus élaborés avec une forte proportion du code source destiné à la gestion des données et de l interface. Nous avons voulu justement nous éloigner autant que possible de cet écueil en définissant sciemment une architecture simplifiée afin que le rapport code de calcul sur code de gestion soit le plus élevé possible tout en préservant un minimum d ergonomie. Dans cet article, nous présentons dans la section 2 l architecture du logiciel et ses principales fonctionnalités. Dans la section suivante, nous tenterons de positionner TANAGRA face aux très nombreux outils de fouille de données existants. Enfin, dans la 4 ème et dernière section, nous conclurons en évoquant les enjeux de la diffusion du logiciel. 2 Fonctionnement et principales fonctionnalités 2.1 Organisation des traitements TANAGRA s inscrit dans le paradigme actuel de la filière ou diagramme de traitements : les séquences d opérations appliquées sur les données sont visualisées à l aide d un graphe. Chaque nœud représente un opérateur de fouille de données, soit de modélisation, soit de transformation, il est donc susceptible de produire de nouvelles données (les projections sur un axe factoriel par exemple). Nous le désignons également sous le terme de composant en référence au vocabulaire utilisé dans les outils de programmation visuelle. L arête reliant deux nœuds représente le flux des données vers l opérateur suivant. Ce mode de représentation qui est le standard actuel des logiciels de fouille de données autorise, par rapport aux logiciels pilotés par menus, la définition d enchaînement d opérations sur les données, tout en affranchissant l utilisateur, par rapport aux outils fonctionnant avec un langage de script, l apprentissage d un langage de programmation. Dans TANAGRA, seul la représentation arborescente est autorisée, la source de données à traiter est unique. La fenêtre principale du logiciel est subdivisée en trois grandes zones (Figure 1) : (a) un dessous la série des composants disponibles, ils sont regroupés en catégories ; (b) sur la gauche, le diagramme de traitements, représentant l analyse courante ; (c) dans le cadre de droite, l affichage des résultats consécutifs à l exécution de l opérateur sélectionné. Il est bien sûr possible de sauvegarder, soit sous un format binaire, soit sous la forme d un fichier texte, la séquence d instructions le programme en quelque sorte -- définie par un utilisateur. Seuls le programme est sauvegardé, les résultats ne le sont pas. Le format texte permet à un utilisateur avancé de le manipuler directement afin de définir un nouveau diagramme de traitements. 2.2 Accès aux données Enjeu très important s il en fut, l accès aux données a été réellement simplifié. En effet, seuls les fichiers texte avec séparateurs tabulation sont acceptés, les données manquantes ne sont pas gérées. Lors de l importation, les données sont automatiquement recodées, deux
3 Ricco Rakotomalala types de variables sont reconnus : les variables continues, codées en flottant simple précision (4 octets par valeur), et les variables discrètes où 255 modalités sont acceptées (1 octet par valeur). Après recodage, l ensemble des données est chargé en mémoire centrale, il est dès lors aisé de calculer les capacités théoriques du logiciel en fonction de la mémoire disponible. 2.3 Algorithmes de traitement FIG. 1 : La fenêtre principale de TANAGRA A l instar de tous les logiciels de recherche, toutes les méthodes de traitement de données sont dûment référencées. Le code source étant accessible, il est de plus possible pour tout un chacun de vérifier l implémentation réalisée. Les algorithmes sont regroupés en grandes familles, certains peuvent être discutables mais il ne nous semblait pas approprié de trop multiplier les catégories. Grosso modo, nous distinguerons deux grandes super-familles, à savoir les algorithmes d obédience statistique : statistique descriptive, statistique inférentielle, analyse de données et économétrie ; et les algorithmes issus des publications en apprentissage automatique et bases de données : filtrage d individus et de variables, apprentissage supervisé, règles d association. Nous ne revendiquons nullement la pertinence du découpage choisi, il fallait à la fois composer avec la pratique des utilisateurs et une ergonomie plus ou moins heureuse.
4 TANAGRA FIG. 2 : Un exemple de résultats d induction d arbres de décision au format HTML Un composant représente un algorithme de traitement de données. Les composants ont pour point commun de prendre en entrée des données en provenance du composant qui le précède ; de procéder à des calculs donnant lieu à un affichage des résultats sous forme de page HTML (Figure 2); ils sont le plus souvent paramétrables ; et enfin, ils transmettent aux composants en aval les données en y ajoutant parfois des données produites localement, les prédictions par exemple pour les méthodes supervisées. La possibilité d enchaîner des méthodes d apprentissage à travers le diagramme de traitements est un atout indéniable, en effet, il rend aisé la combinaison des méthodes sans avoir pour autant à se lancer dans l apprentissage d un langage de script (Figure 3). La plupart des logiciels commerciaux du marché, même ceux qui disposent à l origine d un langage de programmation, proposent aujourd hui ce mode de représentation qui fait référence. FIG. 3 : Un diagramme de traitements implémentant : une sélection de variables, une analyse des correspondances sur les variables sélectionnées, une analyse discriminante sur les axes factoriels, une évaluation par validation croisée
5 Ricco Rakotomalala 2.4 Performances TANAGRA est développé avec le langage de programmation DELPHI. Une version gratuite du compilateur est disponible sur le site de BORLAND. Le programme est donc compilé, il est distribué tel quel, son exécution ne nécessite aucune bibliothèque supplémentaire. En revanche, il ne fonctionne que sous Windows. La principale faiblesse du logiciel réside dans l obligation de charger, sous forme recodée, la totalité des données en mémoire. Un fichier de d observations avec 1000 variables exclusivement continues occupe approximativement 382 Mo en mémoire centrale. On peut relativiser ce goulot d étranglement en ce qui concerne les fichiers usuellement rencontrés. Un PC de bureau doté de 512 Mo de mémoire vive par exemple peut traiter directement l ensemble des clients d une grande banque régionale pour un ciblage marketing. En revanche, traiter l ensemble des transactions journalières d une enseigne de grande distribution en chargeant les données en mémoire paraît inconcevable. En ce qui concerne le temps de traitement, pour donner un ordre d idées sur l implémentation, la création d un arbre de décision avec la méthode ID3 de Quinlan sur le fichier «Forest CoverType» du serveur UCI (Hettich et Bay 1999) comportant individus et 56 variables (les 10 variables continues ont été discrétisées), est réalisée en 9 secondes sur un Pentium 4 à 3 Ghz fonctionnant sous Windows L arbre final comporte 927 feuilles. 3 Tanagra et les logiciels de fouille de données L offre de logiciels de fouille de données est pléthorique. Malheureusement pour les chercheurs, ces offres sont le plus souvent le fait d entreprises commerciales et, très souvent, les algorithmes implémentés ne sont ni documentés, ni référencés, rendant très difficile la publication d articles. TANAGRA s inscrit dans la lignée des plates-formes d expérimentations ouvertes qui se sont rapidement répandues depuis le début des années 90. On peut citer rapidement les bibliothèques IND (Buntine 1991), ou encore MLC++ (Kohavi et Sommerfield 2002). A l heure actuelle, le projet WEKA (Witten et Frank 2000) est certainement celui qui nous a le plus inspiré. Si ces références, pour la plupart en provenance de la communauté de l apprentissage automatique, semblent assez récentes, il ne faut pas perdre de vue que mutualiser des algorithmes de traitement de données a été depuis très longtemps mis en place dans la communauté des statisticiens, sous forme de code FORTRAN ou de scripts de haut niveau. TANAGRA fait suite à plusieurs projets développés au sein de notre laboratoire depuis plusieurs années. Le plus connu d entre eux a été le projet SIPINA (Zighed et al. 1992) piloté par D. Zighed depuis une vingtaine d années. Nous avons intégré en cours de route le développement de la version 2.5 en 1994, puis nous avons été le principal maître d œuvre de la version recherche dont l implémentation a réellement commencé en Au-delà de la disponibilité de l outil sur le web ( et des contacts
6 TANAGRA que nous avons pu nouer avec de nombreux chercheurs dans le monde, cette plate-forme nous a beaucoup servi pour développer nos propres expérimentations qui ont donné lieu à des publications. SIPINA était avant tout dédié à l apprentissage supervisé, il nous est apparu au fil du temps que son architecture n était plus adaptée, notamment parce qu il n était pas possible d enchaîner automatiquement des méthodes de construction et de sélection automatique de variables. De plus, il était nécessaire pour chaque méthode ajoutée de définir une interface de visualisation spécifique. TANAGRA a donc intégré dès le départ les spécifications adéquates pour dépasser ces limitations qui étaient devenues contraignantes. 4 Conclusion TANAGRA est avant tout destiné à la recherche, en ce sens nous nous engageons à ce que le logiciel soit toujours gratuit et le code source accessible. Le choix de la licence ne fut pas aisé, le concept de logiciel libre, aussi séduisant soit-il, laissait la porte ouverte à l appropriation commerciale de l outil par de tierces personnes, avec des contraintes de publications de codes certes, mais difficile à faire respecter. Notre premier enjeu aujourd hui est d assurer la diffusion du logiciel afin qu il soit utilisé dans différents domaines, les retours de ces utilisateurs nous permettent d affiner les fonctionnalités du logiciel, améliorant ainsi son efficacité. Depuis le début de l année 2004, nous comptons une vingtaine de visiteurs par jour sur notre site web. Notre second objectif est de fédérer les bonnes volontés pour élargir la bibliothèque des méthodes de fouille de données. Ce deuxième objectif est un peu plus délicat, seuls quelques chercheurs dans l entourage proche de notre laboratoire l ont réellement réalisé à ce jour. Références Buntine W. (1991), About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September Hettich, S., Bay S. (1999). The UCI KDD Archive [ Irvine, CA: University of California, Department of Information and Computer Science. Kohavi R., Sommerfield D. (2002), MLC++. In Will Klosgen and Jan M. Zytkow, editors, Handbook of Data Mining and Knowledge Discovery, chapter , pages Oxford University Press, Witten I., Frank E. (2000), Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco, Zighed D., Auray J.P., Duru G. (1992), SIPINA : Méthode et logiciel, Lacassagne, Summary TANAGRA is an open source software available on the web. It tries to reconcile two kinds of users. On the one hand, non-specialists can use the soft, which proposes a userfriendly GUI. On the other hand, a simplified architecture makes it possible to the researchers to concentrate their efforts on the development and the evaluation of new data mining algorithms. In this paper, we present the main functionalities of this new data mining software.
Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
Jade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Arbres de Décision. 1 Introduction
Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : [email protected] Résumé Après avoir détaillé les points clés de la
Améliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN [email protected] [email protected] 2001 Sommaire
AGROBASE : un système de gestion de données expérimentales
AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.
MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»
MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1
Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
BIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Outils pour les réseaux de neurones et contenu du CD-Rom
Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.
Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) IFT702 Planification en intelligence artificielle
Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) PLANIFICATION DE TÂCHES DANS MS PROJECT IFT702 Planification en intelligence artificielle Présenté à M. Froduald KABANZA
IBM Tivoli Monitoring, version 6.1
Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments
Organiser le disque dur Dossiers Fichiers
Ce document contient des éléments empruntés aux pages d aide de Microsoft Organiser le disque dur Dossiers Fichiers Généralités La connaissance de la logique d organisation des données sur le disque dur
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
[email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,
Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 [email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Présentation du logiciel
Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Application de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN E-MAILING
CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN E-MAILING Durée : 3J / 21H Formateur : Consultant expert en PAO et Web-marketing. Groupe de : 4 max Formation au web marketing Objectifs : Mettre en oeuvre des
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.
Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail. Comment exploiter au mieux l ensemble de vos indicateurs? Avec la solution agile Pilot4IT Tableau de
Comment gérer toutes mes tâches logicielles d automatisation dans un seul environnement?
Comment gérer toutes mes tâches logicielles d automatisation dans un seul environnement? Avec Totally Integrated Automation Portal : un seul environnement de développement intégré pour toutes vos tâches
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Les technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Construire des plug-ins pour SAS Management Console SAS 9.1
Construire des plug-ins pour SAS Management Console SAS 9.1 Janvier 2005 Sommaire 1 INTRODUCTION... 3 1.1 OBJECTIFS... 3 1.2 PERIMETRE... 3 2 LES COMPOSANTS DE SAS MANAGEMENT CONSOLE... 4 3 LA CONSTRUCTION
Business Intelligence avec SQL Server 2012
Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Une solution performante dédiée aux PMI couvrant l essentiel des besoins de contrôle et gestion de production.
1 Une solution performante dédiée aux PMI couvrant l essentiel des besoins de contrôle et gestion de production. La gestion au rythme de votre production : un outil accessible aux PMI TemPPro E.S. est
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, [email protected]
Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, [email protected] ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise
SITE WEB E-COMMERCE ET VENTE A DISTANCE
Développement d une application JAVA EE SITE WEB E-COMMERCE ET VENTE A DISTANCE PLAN PROJET Binôme ou monôme (B/M): M Nom & Prénom : AIT NASSER Btissam Email : [email protected] GSM : Organisme
Projet de développement
Projet de développement Introduction à Eclipse Philippe Collet Licence 3 MIAGE S6 2012-2013 http://miageprojet2.unice.fr/index.php?title=user:philippecollet/projet_de_développement_2012-2013 Plan r Application
Logiciel Libre Cours 3 Fondements: Génie Logiciel
Logiciel Libre Cours 3 Fondements: Génie Logiciel Stefano Zacchiroli [email protected] Laboratoire PPS, Université Paris Diderot 2013 2014 URL http://upsilon.cc/zack/teaching/1314/freesoftware/
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x
WysiUpStudio CMS professionnel pour la création et la maintenance évolutive de sites et applications Internet V. 6.x UNE SOLUTION DE GESTION DE CONTENUS D UNE SOUPLESSE INÉGALÉE POUR CRÉER, MAINTENIR ET
Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business
Révision d avril 2012 Fiche Produit Plateforme de sauvegarde en marque blanche Kiwi Business La solution Kiwi Business a été spécialement conçue pour répondre aux besoins les plus exigeants en termes de
Générer du code à partir d une description de haut niveau
Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Introduction à la Fouille de Données (Data Mining) (8)
Introduction à la Fouille de Données (Data Mining) (8) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2008 Introduction à la fouille
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab notre compétence d'éditeur à votre service créée en juin 2010, Scilab enterprises propose services et support autour
Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume
Studio HERITIER Emmanuelle PERSYN Elodie SCHMUTZ Amandine SCHWEITZER Guillaume Cours R Présentation projet 10/10/2013 Introduction RStudio est une interface créé par JJ Allaire Elle est sortie le 11 Février
L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités
Bureau Virtuel L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités Que ce soit par la communication, par les échanges ou par la collaboration,
GPC Computer Science
CYCLE ISMIN P2015 GPC Computer Science P LALEVÉE [email protected] @p_lalevee A3.01 0442616715 C YUGMA [email protected] A3.01 0442616715 01/09/2014 Présentation GPC CS - Ph. Lalevée - C Yugma 1 Scolarité Site
Vérifier la qualité de vos applications logicielle de manière continue
IBM Software Group Vérifier la qualité de vos applications logicielle de manière continue Arnaud Bouzy Kamel Moulaoui 2004 IBM Corporation Agenda Analyse de code Test Fonctionnel Test de Performance Questions
CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU
CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière
Service On Line : Gestion des Incidents
Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée
S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle
S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle 842 - La segmentation de la clientèle 843 - Les actions personnalisées utilisation des procédures de consultation
Forthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million
XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras [email protected] Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?
DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre
Mise à jour Apsynet DataCenter
Mise à jour Apsynet DataCenter Dans le cadre de sa stratégie d évolution produit, Apsynet propose à ses clients sous contrat de maintenance une mise à jour majeure annuelle. Celle-ci peut être complétée
Présentations personnelles. filière IL
Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute
Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement
Cursus Outils & Développement Vous êtes Consultant, Chef de Projets, Directeur des Systèmes d Information, Directeur Administratif et Financier, Optez pour les «formations Produits» Nous vous proposons
Visual Paradigm Contraintes inter-associations
Visual Paradigm Contraintes inter-associations Travail de Bachelor d'informaticien de gestion Partie C Présentation de Visual Paradigm 1 Présentation de Visual Paradigm For UML L objet du travail de Bachelor
Guide d exploration de base de données de IBM SPSS Modeler 15
Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette
CRM PERFORMANCE CONTACT
CRM PERFORMANCE CONTACT PREMIUM 3ème génération Un concentré de haute technologie pour augmenter de 30 % vos rendez-vous Le Vinci, 2 place Alexandre Farnèse 84000 Avignon Tél : + 33 (0)4 90 13 15 88 Télécopie
Survol des nouveautés
Maîtrisez la conception de sites Web en toute simplicité WebExpert est un puissant logiciel d'édition Web qui vous permet de concevoir et de gérer des sites Web, de façon professionnelle en toute simplicité.
Le nouveau visage de la Dataviz dans MicroStrategy 10
Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités
Plateforme de capture et d analyse de sites Web AspirWeb
Projet Java ESIAL 2A 2009-2010 Plateforme de capture et d analyse de sites Web AspirWeb 1. Contexte Ce projet de deuxième année permet d approfondir par la pratique les méthodes et techniques acquises
5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles
5. Excel 2010, le tableur collaboratif Avec Excel 2010, modéliser sa pensée avec des chiffres et prendre les décisions qui s imposent devient plus simple quel que soit le nombre de données que vous manipulez
Documentation d information technique spécifique Education. PGI Open Line PRO
Documentation d information technique spécifique Education PGI Open Line PRO EBP Informatique SA Rue de Cutesson - ZA du Bel Air BP 95 78513 Rambouillet Cedex www.ebp.com Equipe Education : 01 34 94 83
ISTEX, vers des services innovants d accès à la connaissance
ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions
Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.
Méthode de Test Pour WIKIROUTE Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. [Tapez le nom de l'auteur] 10/06/2009 Sommaire I. Introduction...
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Perspectives pour l entreprise. Desktop Cloud. JC Devos IBM IT Architect [email protected]. 2010 IBM Corporation
Perspectives pour l entreprise Desktop Cloud JC Devos IBM IT Architect [email protected] Principe technique Disposer d un poste de travail virtuel accessible par la plupart des terminaux disponibles Ce
REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit
v 1.0.0 PD 20 mars 2008 Mouvements d arrivée / départ de personnels Description produit Fonctionnalités L application Gestion des mouvements d arrivée / départ de Requea permet la gestion collaborative
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.
Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite. Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs, relations,
Formation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes
HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.
Notre alliance, Votre atout. HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. C est de cette philosophie qu est née notre partenariat avec la société toulousaine (31) Bewise,
1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7
Sommaire 1-Introduction 2 1-1- BPM (Business Process Management)..2 1-2 J-Boss JBPM 2 2-Installation de JBPM 3 2-1 Architecture de JOBSS JBPM 3 2-2 Installation du moteur JBoss JBPM et le serveur d application
L informatique en BCPST
L informatique en BCPST Présentation générale Sylvain Pelletier Septembre 2014 Sylvain Pelletier L informatique en BCPST Septembre 2014 1 / 20 Informatique, algorithmique, programmation Utiliser la rapidité
Introduction aux concepts d ez Publish
Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
VISUAL GESATEL. La gestion commerciale n a jamais été aussi facile!
La gestion commerciale n a jamais été aussi facile! LES AVANTAGES Transformation de tous vos documents au format PDF, HTML, WORD, EXCEL. Envoi direct de tous vos documents via Internet. Récupérez sans
Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language
Unified Modeling Language UML Salima Hassas Version Cycle de vie du logiciel Client Besoins Déploiement Analyse Test Conception Cours sur la base des transparents de : Gioavanna Di Marzo Serugendo et Frédéric
Communiqué de Lancement
Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft
Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein
Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs
Alcatel OmniPCX Office
Alcatel OmniPCX Office Livre blanc Alcatel PIMphony dynamise la gestion de la relation client des PME Livre blanc, Alcatel PIMphony dynamise les solutions CRM des PME Alcatel 2004 page 1 Alcatel OmniPCX
Moderniser. le système d information et le portefeuille applicatif. www.bull.com
Moderniser le système d information et le portefeuille applicatif L évolution technologique des plates-formes, l ouverture du système d information et la modernisation du portefeuille applicatif sont des
Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA
Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide
Programme des formations Gamme automates
Programme des formations Gamme automates MODULO 2 MOD2.1 MOD2.2 MOD2.3 MODULO 5 MOD5.1 MOD5.2 MOD5.3 MODUWEB VISION MOW.1 MOW.2 Automates EY-MODULO 2 Généralités MOD2.1 Objectifs Connaître la constitution
Rapport de stage. Développement d un logiciel de vidéoconférence : Enjeux 3. Guillaume DOTT 2009
Rapport de stage Développement d un logiciel de vidéoconférence : Enjeux 3 Guillaume DOTT 2009 Maître de stage : Louis Poulette Tutrice : Marie-Paule Muller Remerciements Je tiens à remercier toute l équipe
Techniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, [email protected] 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Once the installation is complete, you can delete the temporary Zip files..
Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une
LOGICIEL DE GESTION DE LABORATOIRE ALPHA LABO
LOGICIEL DE GESTION DE LABORATOIRE ALPHA LABO mobile Multilingue satisfait vos clients production accrue Avec CDI accéder à l excellence Entreprise enregistrée au registre de commerce N RC/YAO/2012/B/234
Londres 1854 Des problèmes (re)connus Faire plus avec moins Tendances et défis «BYOD» WIN INTUNE «Nouveaux paradigmes» «Big Data» «Cloud» Windows Server Gestion Sys. Center Identité & Virt CLOUD OS Microsoft
