Didacticiel - Etudes de cas. Traitement sur un gros fichier de données : importation et construction d un arbre de décision avec la méthode ID3.



Documents pareils
Procédure d installation de Pervasive.SQL V8 client/serveur dans un environnement windows 2008 server

Comment installer un client Rivalis Devis factures

Rapports d activités et financiers par Internet. Manuel Utilisateur

AVEC LIVE TRADER, VISEZ PLUS HAUT POUR VOS INVESTISSEMENTS

Procédure d installation des logiciels EBP sous environnement ESU4. Serveur SCRIBE ou Windows

1 INSTALLATION DU LOGICIEL CGVCAM Télécharger et installer le logiciel Démarrer le logiciel 5 2 PRESENTATION DU LOGICIEL CGVCAM 5

CUOMO PC Route d Oron Lausanne 021/

Fiche technique rue de Londres Paris Tél. : Mail : contact@omnikles.com

Travaux pratiques Détermination de la capacité de stockage des données

INSTALLATION ET PRISE EN MAIN

Grain Tracker Manuel d'utilisation

Procédure d installation des logiciels EBP sous environnement MAGRET

Single User. Guide d Installation

Pour une première installation : suivre la procédure en page 5 à 9 Pour une mise à jour : suivre la procédure page 5, 6, 10 et 11

Utiliser une clé USB

Préconisations Techniques & Installation de Gestimum ERP

Competence Management System (Système de Gestion de Compétences)

WinReporter Guide de démarrage rapide. Version 4

Mes documents Sauvegardés

Accès au Serveur de PAIE «SPV» par INTERNET Paramétrage du poste de travail «Windows»

Active CRM. Solution intégrée de téléprospection. 04/10/2011

INSTALLATION MONOSITE

réduisez la facture électrique

Installation de TeamLab sur un serveur local Ce guide est destiné aux utilisateurs ayant des connaissances de base en administration Windows

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

GESTION DE L'ORDINATEUR

Tropimed Guide d'installation

Ces deux machines virtuelles seront installées sous VMWARE WORKSTATION.

cbox VOS FICHIERS DEVIENNENT MOBILES! POUR ORDINATEURS DE BUREAU ET PORTABLES WINDOWS ÉDITION PROFESSIONNELLE MANUEL D UTILISATION

Tutorial créer une machine virtuell.doc Page 1/9

Transférer une licence AutoCAD monoposte

CONDITIONS DE SYSTÈME REQUISES

Paramétrage de pools d'applications sous IIS 6.0

Recommandations techniques

Utilisation d une tablette numérique

I) INTRODUCTION... 3 II) ENREGISTREMENT DE SON TYROS

AudiParc Recommandations IMPORTANTES. AudiParc Principe de fonctionnement. AudiParc Installation Déployement

Manuel utilisateur (Manuel_utilisateur_version pdf) Manuel Reprise des données (Manuel_Reprise_donnees_version

COSWIN MOBILE SERVEUR DE SYNCHRONISATION GUIDE D INSTALLATION

1. Présentation du TP

Certificats «CREDIT LYONNAIS Authentys Entreprise» Manuel utilisateur du support cryptographique

Documentation d information technique spécifique Education. PGI Open Line PRO

Installation de GFI Network Server Monitor

Cover heading. La configuration système requise pour. Maximizer CRM Les éditions Entreprise et Groupe. Cover introduction

Guide d installation UNIVERSALIS 2014

Windows 7, Configuration

Manuel d installation de Business Objects Web Intelligence Rich Client.

DOCUMENT D ACCOMPAGNEMENT POUR L INSTALLATION DU LOGICIEL ESTIMACTION

LOGICIEL DE SURVEILLANCE NUUO NOTICE

GUIDE D UTILISATION DU LOGICIEL DE TELE-MAINTENANCE. TEAM VIEWER Version 7.

Numérisation. Copieur-imprimante WorkCentre C2424

Instructions d installation de IBM SPSS Statistics pour Windows (mono-utilisateur)

Assistance à distance sous Windows

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

Manuel de programmation KX-TVM50 KX-TVM200. Système de Messagerie vocale. Nº de modèle

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

ABBYY Lingvo x3. Guide de l administrateur système ABBYY. Tous droits réservés.

SINUTRAIN. SINUMERIK Logiciel de formation et de programmation sur PC. Aperçu Octobre Valable du 1/10/2008 au 30/9/2009

Tarif Public. Sage BOB 30 Mode Licence

Sommaire. Systèmes d Exploitation Intégration Sage 100 Sage CRM Disponibilité Client Bases de données... 3

Universalis Guide d installation. Sommaire

RoomMate Guide de l'utilisateur

Introduction. Exigences système. Exigences matérielles

Guide d'installation rapide TFM-560X YO.13

Sharpdesk V3.3. Guide d installation Push pour les administrateurs système Version

Avira Version 2012 (Windows)

Avira System Speedup Informations de parution

Aide à l installation et à la migration en HelloDoc 5.60

Apprendre Java et C++ avec NetBeans

CAHIER DES CHARGES D IMPLANTATION

1 Description du phénomène. 2 Mode de diffusion effets dommageables

MANUEL D INSTALLATION

Pour connaître les dernières informations, consultez le site Internet du produit (

PHILA-Collector-USB-16Go Pour Windows & Android

Manuel d'installation de DVD MAKER USB2.0

MANUELS NUMÉRIQUES PROCÉDURE DE TÉLÉCHARGEMENT

Découvrez les Nouveautés Février 2010 du Catalogue PC Pack PRO

GUIDE D UTILISATION PARTICIPANT

Guide de l administrateur système ABBYY. Recognition Server 2.0

Guide d utilisation de la clé mémoire USB

Document de formation pour une solution complète d automatisation Totally Integrated Automation (T I A) MODULE A5 Programmation de la CPU 314C-2DP

Ladibug TM 2.0 Logiciel de présentation visuel d'image Manuel de l utilisateur - Français

Instructions relatives à l installation et à la suppression des pilotes d imprimante PostScript et PCL sous Windows, version 8

Guide utilisation SFR Sync. SFR Business Team - Présentation


But de cette présentation

INSTALLER LA DERNIERE VERSION DE SECURITOO PC

INSTALLATION DE LA CLÉ 3G+ UTILISATION VOTRE COMPTE CLIENT. Clé 3G+ Elle vous permet de connecter votre ordinateur aux réseaux haut débit mobile.

Manuel BlueFolder ADMINISTRATION

Ophcrack - Windows XP/Vista

Récupérer les documents stockés sur l ENTG

MANUEL D INSTALLATION DES PRE REQUIS TECHNIQUES SALLE DES MARCHES V.7

Manuel d utilisation de ndv 4

Comment obtenir des ebooks sur le Reader

1. Insérez le DVD de support dans le lecteur optique. L onglet Drivers (Pilotes) apparaîtra si l Exécution automatique est activée.

Créer un fichier PDF/A DÉPÔT ÉLECTRONIQUE

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

D-ViewCam V3.0 Video Management System

Transcription:

Objectif Traitement sur un gros fichier de données : importation et construction d un arbre de décision avec la méthode ID3. Une des principales nouveautés de ces dernières années est l évolution quasi-exponentielle du volume des fichiers que nous sommes emmenés à traiter. Il y a une dizaine d années encore, un tableau de 5000 observations avec 22 variables, les fameuses «ondes de Breiman», faisait figure de «gros fichier» au sein de la communauté de l apprentissage automatique. Aujourd hui, les fichiers connaissent une inflation plus que galopante avec, selon les domaines, une augmentation importante du nombre d observations (les bases marketing par exemple) et/ou du nombre de descripteurs (en bio-informatique par exemple, en réalité tous les domaines où les descripteurs sont générés automatiquement). La capacité à traiter les gros ensembles de données est un critère important de différenciation entre les logiciels de recherche et les logiciels commerciaux. Très souvent les outils commerciaux disposent de systèmes de gestion de données très performants, limitant la quantité de données chargée en mémoire à chaque étape du traitement. Les outils de recherche en revanche conservent toutes les données en mémoire, en les codant au mieux de manière à ce que l occupation mémoire ne soit pas prohibitive. Les limites sont donc clairement les capacités de la machine utilisée. Cette limitation constitue très certainement une barrière pour le traitement de gros fichiers. On se rend compte néanmoins qu avec l évolution actuelle des machines où, à moindre frais, on peut disposer d ordinateurs très performants, elle est sans cesse reculée. Avec une stratégie d encodage appropriée, nous pouvons faire tenir en mémoire et traiter facilement des fichiers de taille importante. Dans ce didacticiel, nous montrons comment, avec TANAGRA, importer un fichier de 581012 observations et 55 variables, puis construire un arbre de décision avec la méthode ID3. Notre machine est un PC tout à fait banal dont les caractéristiques ont été mesurées avec une version shareware de SISOFTWARE SANDRA. Il s agit d un CELERON 2.53 GHz avec 1 GB de mémoire RAM fonctionnant sous Windows XP SP2. Ces informations sont importantes car elles vous permettront de comparer les performances rapportées dans ce didacticiel avec ceux que vous obtiendrez sur votre propre machine. 04/03/2006 Page 1 sur 7

Fichier Le fichier COVTYPE contient 581102 observations, 54 descripteurs, tous discrets (ou discrétisés), la variable à prédire comporte 7 modalités. Le fichier texte associé occupe 62 Mo sur le disque dur. Traitement sur un gros fichier de données Importation des données Première étape toujours dans TANAGRA, créer un diagramme et importer les données (FILE / NEW). 04/03/2006 Page 2 sur 7

Nous validons en cliquant sur OK, nous observons alors le déroulement des opérations à l aide de la barre de progression. Lorsque les données sont toutes chargées, un résumé apparaît avec le temps de traitement (# 27 s) et l occupation mémoire des données après encodage (#31 MB). 04/03/2006 Page 3 sur 7

Sélection des variables Nous plaçons le composant DEFINE STATUS (utiliser le raccourci dans la barre d outils) dans le diagramme. L attribut CLASS est la cible (TARGET), tous les autres sont les descripteurs (INPUT). Construire d un arbre de décision avec ID3 Il nous faut alors définir la méthode d apprentissage. Nous voulons construire un arbre de décision avec la méthode ID3. Pour ce faire, nous procédons toujours en deux étapes : (1) placer le composant SPV LEARNING (onglet META SPV LEARNING) 04/03/2006 Page 4 sur 7

(2) puis nous insérons la méthode d apprentissage ID3 (onglet SPV LEARNING). Il ne reste plus qu à visualiser les résultats en cliquant sur VIEW du menu contextuel. 04/03/2006 Page 5 sur 7

L arbre comporte 927 feuilles, ce qui est assez considérable. Lorsqu un arbre atteint une telle taille, il est illusoire de vouloir interpréter les résultats. Plus intéressant dans le cadre de ce didacticiel est le temps de calcul. Nous déroulons l affichage de l arbre jusqu à atteindre la partie basse de la fenêtre. Nous observons alors les informations suivantes 1. Il a fallu 10 secondes pour construire un arbre de décision à partir d un fichier de 581102 observations et 54 descripteurs. De plus nous sommes loin de saturer les 1 GB de mémoire vive, dans le gestionnaire de tâche de WINDOWS, nous observons que TANAGRA alloue réellement 54 MB. Ce qui reste très raisonnable compte tenu de la taille du fichier que nous avons traité. 1 TANAGRA génère automatiquement un fichier DEBUGFILE.TXT qui trace toutes les opérations réalisées lors du traitement des données et les durées d exécution associées. Il est possible de le consulter. 04/03/2006 Page 6 sur 7

Conclusion Charger les données en mémoire pour effectuer les traitements est une stratégie simple simpliste -- qui permet d atteindre de bonnes performances en temps de traitement : construire un arbre de décision en 10 secondes sur un fichier de 581102 observations et 54 descripteurs est un résultat intéressant. Nous constatons que cette stratégie, a priori très pénalisante, s avère souvent réaliste compte tenu des caractéristiques des machines actuelles. L occupation mémoire reste contenue sur de gros ensembles de données pour peu que l on choisisse les bonnes structures de programmation. 04/03/2006 Page 7 sur 7