Un logiciel open source pour l enseignement et la recherche



Documents pareils
Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Spécificités, Applications et Outils

Ce document décrit la démarche à suivre pour installer les outils de développement et compiler le projet TANAGRA.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Création d installateurs pour Windows avec InnoSetup

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Gestion du projet pour qu'il soit pérenne et collaboratif

Introduction au Data-Mining

Évaluation des logiciels et autres réalisations

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

données en connaissance et en actions?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La classification automatique de données quantitatives

11 Février 2014 Paris nidays.fr. ni.com

Introduction au Data-Mining

Outils pour les réseaux de neurones et contenu du CD-Rom

Introduction à la B.I. Avec SQL Server 2008

Publications, ressources, liens, logiciels,

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

InstallShield 2014 FICHE TECHNIQUE. Création de programmes d installation pour Microsoft Windows

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

La nouvelle plateforme communautaire dédiée à l enseignement en ligne

Agenda de la présentation

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Rapport de Stage Christopher Chedeau 2 au 26 Juin 2009

Big Data et Graphes : Quelques pistes de recherche

Quel que soit L élève - Il est valorisé par l utilisation d un outil technologique haut de gamme - Il peut travailler seul et à son rythme.

Guide d exploration de base de données de IBM SPSS Modeler 15

Analyse de grandes bases de données en santé

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Les Licences Libres Ouverture et Protection des Logiciels. Plan

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Introduction à la Fouille de Données (Data Mining) (8)

Competence Management System (Système de Gestion de Compétences)

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Une solution opensource d'affichage dynamique - XIBO

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Fouillez facilement dans votre système Big Data. Olivier TAVARD

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

< Atelier 1 /> Démarrer une application web

Projet en nouvelles technologies de l information et de la communication

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Développement d outils de navigation hypermédia (images) pour dispositifs mobiles (Android)

La plate-forme d'outils collaboratifs de l'i.e.m.n.

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Logiciel Libre Cours 9 Modèles Économiques

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Migration du pack office Planification, préparation, déploiement et formation

Rapport de certification ANSSI-CSPN-2010/07. KeePass Version 2.10 Portable

Demande de transformation de la formation qualifiante TEMIR : Technicien En Maintenance Informatique et Réseaux en diplôme d université (DU)

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

CARPE. Documentation Informatique S E T R A. Version Août CARPE (Documentation Informatique) 1

Rapport de Synthèse. Création d un Générateur de modèle PADL pour le langage C++ Sébastien Colladon

Compte-rendu N 04 Réunion du 19/12/14

Note de synthèse. Développement web sur le CMS Prestashop. Stage du 17 mai au 25 juin Entreprise decoratzia.com 15 rue Erlanger Paris

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Tutoriel code::blocks

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

Stratégie de sécurité grâce au logiciel libre. Frédéric Raynal Cédric Blancher

PRESENTATION RESSOURCES. Christian Dupaty BTS Systèmes Numériques Lycée Fourcade Gardanne Académie d Aix Marseille

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Big Data et Graphes : Quelques pistes de recherche

Communiqué de Lancement

Configuration Matérielle et Logicielle AGORA V2

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Programme formation pfsense Mars 2011 Cript Bretagne

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

openarchitectureware & transformation de modèle Yannick Lizzi Architecte Logiciel itemis France Mail: lizzi@itemis.de

A. Présentation. LanScanner2006

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Formation GISEH Module rédacteur 7, 9 juin 5, 12 juillet 2011

TP1. Outils Java Eléments de correction

Alpha PRIMO 58 boulevard baron du Marais Roanne / / contact@alphaprimo.fr

Projet de développement

Logiciel de gestion des équipements de test MET/TEAM. NOUVEAU logiciel convivial de gestion des ressources d étalonnage par navigateur

Comment créer des rapports de test professionnels sous LabVIEW? NIDays 2002

Dessin assisté par ordinateur en lycée professionnel

Projet de développement. Introduction à Eclipse. Application à votre projet. Philippe Collet. Organisation. Cours 1 : principes généraux - svn

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

PRÉSENTATION DE LOGICIELS DE GESTION DE RÉFÉRENCES BIBLIOGRAPHIQUES

CRM PERFORMANCE CONTACT

Principales failles de sécurité des applications Web Principes, parades et bonnes pratiques de développement

Scratch : programmation objet facile pour tous

Présentation Alfresco

ISTEX, vers des services innovants d accès à la connaissance

Transcription:

Un logiciel open source pour l enseignement et la recherche Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 http://chirouble.univ-lyon2.fr/~ricco/tanagra/ 1 sur 23

PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution et droits 4. Participer au développement 5. Utiliser le logiciel TANAGRA 6. Conclusions et perspectives 2 sur 23

3 sur 23

Objectifs Les logiciels de DATA MINING Le vrai filon de l ECD : les logiciels de Data Mining Essayer une recherche «data mining software sur Google» : # 40,000 références Sur la page «http://www.kdnuggets.com/software/suites.html» : 7 / 8 commerciaux L opposition «commercial» - «recherche» Interface graphique et fonctionnalités utilisatrices Mode console et code source libre, installation folklorique Véhiculer le dynamisme du labo SIPINA 695 références sur Goggle #4 e-mails par semaine à propos de SIPINA Articles et études en coopération avec d autres chercheurs 4 sur 23

Objectifs Spécifications du logiciel TANAGRA A qui s adresse TANAGRA? Un logiciel pour l enseignement : le profil «chargé d études» Les cours, explication des méthodes, outil pédagogique Les études «réelles» - les «dossiers» - les chercheurs des autres domaines (cf. tutoriaux études de cas) Une plate-forme pour la recherche : le chercheur en DATA MINING Plate-forme d expérimentation Tester des méthodes et comparer les résultats Modularité et accès au code Programmer ses propres méthodes (cf. tutoriaux évaluation des méthodes) Un outil pédagogique pour l apprentissage de la programmation Spécifications et conception de ce type de logiciel - Apprendre par l exemple Connaître les outils et les bibliothèques types (cf. page web outils et bibliothèques) 5 sur 23

Objectifs «Open Source»? Valider le code = valider les publications Comparer les résultats Lecture du code par d autres chercheurs (ex. du text mining par SD) Reproduire «exactement» les expérimentations (ex. tirage aléatoire) Comparer les implémentations Comparer les interprétations d un même problème (ex. Bayesien naïf, boosting) Optimiser le code avec différentes versions Outil ouvert = Outil vivant Introduire ses propres algorithmes Discuter sur la base de prototypes et d évolutions Monter et partager des bibliothèques types (ex. générateur de nombres aléatoires, fonctions de répartitions, pourquoi pas des bibliothèques de DATA MINING? ) 6 sur 23

7 sur 23

Logiciel TANAGRA Fonctionnalités d un logiciel de DATA MINING Accès et préparation des données Accéder à un fichier / une BD Rassembler des sources différentes Méthodes de Fouille de données Lancer les calculs avec différents algorithmes Bibliothèque de méthodes Enchaîner les traitements Faire coopérer les méthodes sans programmer Évaluer les connaissances Validation croisée, etc. Exploiter les sorties Rapports, visualisation interactive, etc. 1/5 ++/5 4/5 ++/5 2/5 Logiciels commerciaux Prototypes de recherche Appliquer/exploiter les modèles Modèles en XML, code C, DLL compilées Prédiction directe sur de nouveaux fichiers 0/5 TANAGRA 8 sur 23

Logiciel TANAGRA Mode de fonctionnement Chaîne de traitements Résultats Palette de composants 9 sur 23

Logiciel TANAGRA Accès aux données Fichier texte (séparateur tabulation) Chargement en mémoire 500.000.000 individus théoriques 250.000 individus max pour les règles d association EZDL 500.000.000 variables théoriques Variables continues codées SINGLE Variables discrètes codées BYTE (255 modalités max) Quelques éléments sur les performances COVTYPE 581.102 ind x 55 var (discrètes) : 240 sec WAVEFORM 100.000 ind x 22 var (21 continues) : 20 sec Formats de sauvegarde Que sauvegarder? La description du traitement - Pas les résultats Nécessité de ré-exécuter à la prochaine ouverture Formats Binaire : intègre les données rapidité (covtype = 1,5 sec) Textuel (fichier INI) : script basique souplesse 10 sur 23

Logiciel TANAGRA Les méthodes Les grandes familles aux affaires Méthodes statistiques Visualisation Description Analyses factorielles Apprentissage non-supervisé (structuration) Apprentissage supervisé (prédiction - explication) Évaluation de l apprentissage supervisé Régression Association L enchaînement des méthodes 11 sur 23

Logiciel TANAGRA Les sorties Privilégier le format HTML Sortie texte = minimum de code Formatage HTML reconnu par tous les logiciels Édition de rapports sans code supplémentaire 12 sur 23

13 sur 23

Distribution et licence Site http://chirouble.univ-lyon2.fr/~ricco/tanagra/ Accès au logiciel Qu est-ce qui est disponible? Setup Documentation des méthodes et didacticiels Code source Documentation du code source (cf. le site) Qui protéger? Les utilisateurs : ne pas soustraire un logiciel déjà proposé Les chercheurs : publier à partir d un code vérifiable Les développeurs : garder la propriété de son développement Licence Comment protéger? Inspiration : GPL et OpenSource.org Principaux points : TANAGRA toujours gratuit Devoir de citation Code toujours accessible librement Développeur module = propriétaire module Module introduit = Module non soustrayable (cf. le fichier de licence) 14 sur 23

15 sur 23

Développer Le modèle d organisation 16 sur 23

Développer TM LComponent TMLCom pspvasses Predecessor i Successeur TM LCom pspvlearning Familles de composants MLCompSupervised MetaSpvL TM LCompM etaspvlearning TM LCom pfactanalys is TMLCom plocaldata TMLCom pis TMLCom pdataset TMLCom pfc TMLCom pfs TMLCom psd TM LCom passocrule TM LCompRegression TM LCompClustering 17 sur 23

Développer Ajouter un composant 18 sur 23

Développer Les outils de développement Points communs? (1) Gratuits (2) Si possible accès au sources (3) Compatibles KYLIX (cf. le site) Type d'outil Outil Caractéristiques Compilateur Borland Delphi 6 passage KYLIX aisé? Bibliothèque de calcul ATHANOR Calcul matriciel, optimisation, nombres aléatoires Bibilothèque de classes EZDSL Table de hachage, tableau de bits Bibliothèque graphique LMD SE à remplacer par JEDI Parser XML XML Parser Lecture et v alidation d'un fichier XML Visionneuse HTML HTML Lite Affichage rapide page WEB (string) 19 sur 23

20 sur 23

Utiliser TANAGRA Quelques scénarios d utilisation 1. Données, régression et sorties HTML (autompg) 2. Comparer deux algorithmes supervisés, K-ppv et ID3 (heart) 3. Un exemple de régularisation pour la LDA (wave) 4. Caractérisation d un clustering (vote) 5. Performances et capacités de calcul (covtype) 21 sur 23

22 sur 23

Conclusions Un support pour les cours Ne plus dépendre du bon vouloir des dinosaures Un outil que l étudiant peut reprendre en stage et en entreprise Un outil pour les publications à venir Monter les expérimentations Discuter des implémentations Diffuser - documenter Obtenir le maximum de retour Perspectives Déboguer 3-4 mois minimum Ajouter des fonctionnalités «utilisateurs» Exécution batch Format XML du fichier de sauvegarde : script Ajouter / tester des nouvelles méthodes Cela dépend de la recherche et des idées 23 sur 23