Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD
|
|
- Marguerite Leblanc
- il y a 8 ans
- Total affichages :
Transcription
1 Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24
2 Traitements pour la classification de textes Les données textuelles sont difficiles à gérer : 1 Les corpus sont volumineux, le vocabulaire est grand : - il faut des algorithmes rapides, - les données ne sont pas toujours stockables en mémoire. 2 La structure des phrases est difficile à gérer. 3 Les mots peuvent prendre plusieurs formes (pluriels...) 4 Les algorithmes de machine learning ont du mal sur des données de grande dimension Vincent Guigue Preprocessing & JAVA 2/24
3 Traitements pour la classification de textes Les données textuelles sont difficiles à gérer : 1 Les corpus sont volumineux, le vocabulaire est grand : - il faut des algorithmes rapides, - les données ne sont pas toujours stockables en mémoire. Perceptron, SVM (en version rapide), Naive Bayes... Boosting, Bagging 2 La structure des phrases est difficile à gérer. On supprime la structure... 3 Les mots peuvent prendre plusieurs formes (pluriels...) Plusieurs approches possibles... (cf plus loin) 4 Les algorithmes de machine learning ont du mal sur des données de grande dimension On cherche des heuristiques pour supprimer les mots inutiles. Vincent Guigue Preprocessing & JAVA 2/24
4 Sacs de mots Ne sachant pas prendre efficacement en compte la structure des phrases... On l élimine totalement! Un document devient alors un comptage des différents mots qui le composent : Représentation bag of words Soit V le vocabulaire et d un document : d N V NB : d est (presque toujours) un vecteur sparse, c est à dire composé essentiellement de 0. Vincent Guigue Preprocessing & JAVA 3/24
5 Sur un exemple (crédit Sergio Jimenez) Vincent Guigue Preprocessing & JAVA 4/24
6 Elimination du bruit : mots similaires Etant donnée la représentation en sac de mots, il est pénalisant de compter les occurrences de président et présidents dans deux cases séparées... Nous allons donc traiter les mots du textes pour les ramener à leurs radicaux : mangeait, mangera, mangeoire,... manger Lemmatisation : approche basée sur un dictionnaire efficace / il faut un dictionnaire... Exemple d outil : treetagger (gratuit, récupérable sur internet) Stemmatisation : approche statistique de suppression des suffixes rapide, facile à utiliser / parfois approximatif cf outils fournis dans le projet Vincent Guigue Preprocessing & JAVA 5/24
7 Traitements discriminants : réduction de la dimensionnalité Les algorithmes de machine learning sont mis en difficulté sur les problèmes de grandes dimensions... Nous cherchons donc à réduire la dimension des données : Heuristiques : Elimination des mots peu fréquents Elimination des mots courts (articles...) Elimination de tous les éléments inutiles a priori (chiffres...) Vincent Guigue Preprocessing & JAVA 6/24
8 Traitements discriminants Le codage tf-idf permet de faire apparaître les mots saillants, caractéristiques d un document. Soit le document d j tiré de l ensemble D, n i,j désigne le nombre d occurrences du mot t i dans d j : tf i,j = n i,j D k n, idf i = log k,j {d : t i d} tf i,j : fréquence de t i dans le document j. idf i : pourcentage des documents où t i apparaît (log de l inverse). On remplace le codage n i,j par le codage tf idf(i, j) = tf i,j idf i Vincent Guigue Preprocessing & JAVA 7/24
9 Traitements discriminants : sélection de variables Il est possible d utiliser des critères discriminants (donnant un score à chaque mot) pour choisir un sous-ensemble du dictionnaire sur lequel travailler. Parmi les classiques : Saillance : S tf idf (i) = j tf idf(i,j) {tf idf(i,j) 0} Odds ratio : S odds (i) = p i /(1 p i ) q i /(1 q i ) = p i (1 q i ) q i (1 p i ). (souvent utilisé en log). Où p i est la probabilité d observer le mot t i dans la classe 1 et q i est la probabilité d observer t i dans la classe 2. Vincent Guigue Preprocessing & JAVA 8/24
10 Présentation des données Données d apprentissage : <100:1:C> Quand je dis chers amis,... <100:2:C> D abord merci de cet <100:14:M> Et ce sentiment... Le format est le suivant : <ID-Discours :ID-phrase :Etiquette>, C Chirac, M Mitterrand Données de test, sans les étiquettes : <100:1> Quand je dis chers amis,... <100:2> D abord merci de cet Vincent Guigue Preprocessing & JAVA 9/24
11 Preprocessing de textes Données Outils Limites... Deuxième base de données (Pour s entrainer) Crédit : Sergio Jimenez Vincent Guigue Preprocessing & JAVA 10/24
12 Deuxième base de données (Pour s entrainer) Crédit : Sergio Jimenez Vincent Guigue Preprocessing & JAVA 11/24
13 Preprocessing de textes Données Outils Limites... Deuxième base de données (Pour s entrainer) Crédit : Sergio Jimenez Vincent Guigue Preprocessing & JAVA 12/24
14 Octave vs Weka Octave ne sait pas gérer une chaine de caractère Octave ne sait pas faire une boucle for Octave ne sait pas gérer des grosses masses de données Octave Octave est parfait pour comprendre comment fonctionne un algorithme et le tester, Octave est parfait pour tracer les courbes de résultats et faire des statistiques... Mais Octave ne peut pas traiter convenablement le problème qui nous intéresse maintenant. Weka propose des algorithmes plus efficaces et des pré-traitements pour le texte... Tout ne sera pas parfait mais c est une meilleure base de travail. Vincent Guigue Preprocessing & JAVA 13/24
15 Preprocessing de textes Données Outils Limites... Weka (téléchargement) Télécharger la version linux : nz/ml/weka/index_downloading.html Lancer le programme : java -Xmx1000M -jar weka.jar Lancer l explorer : Vincent Guigue Preprocessing & JAVA 14/24
16 Vincent Et hop Guigue : Preprocessing & JAVA 15/24 Weka chargement des données Weka accepte les.arff... Si vous avez un.arff : - Charger le fichier avec le bouton open (!) (par exemple essayez avec iris.arff) - Passer dans l onglet classify Choisir un modèle (régression logistique par exemple) Choisir un mode d évaluation
17 Weka chargement des données (2) Si vous avez un répertoire contenant des documents textes, weka sait faire l importation : Open puis choisir le répertoire Message d erreur choisir un importateur Choisir TextDirectoryLoader Et hop! Vincent Guigue Preprocessing & JAVA 16/24
18 Weka chargement des données (3) Si vous n avez rien de tout cela... Il faut créer un.arff Vincent Guigue Preprocessing & JAVA 17/24
19 Weka chargement des données (4) Vous devez maitriser un minimum d expression régulière ET/OU perl pour créer rapidement ce type de fichier file=corpusu.txt fileout=corpusupp.arff head -n5000 data/corpus.tache1.learn > $file #iconv -f latin1 -t utf8 data/corpus.tache1.learn > $file sed s/"//g;s/<.*c> /C "/g;s/<.*m>/m "/g;s/$/"/g $file > $fileout sed -i.bak president\ document_class document_content string\ \ document_class document_content C "Quand je dis chers amis, il ne s agit C "D abord merci de cet exceptionnel accu Vincent Guigue Preprocessing & JAVA 18/24
20 Passer aux sacs de mots Pour passer au sacs de mots, il faut utiliser un filtre Weka : Il faut bien comprendre les options car vous devrez jouer avec! Vincent Guigue Preprocessing & JAVA 19/24
21 Preprocessing de textes Données Outils Limites... Sacs de mots... Vincent Guigue Preprocessing & JAVA 20/24
22 Experiences comparatives Vincent Guigue Preprocessing & JAVA 21/24
23 Type de résultats à obtenir : Vincent Guigue Preprocessing & JAVA 22/24
24 Analyse qualitative Regarder les poids des mots du classifieur : annoying another any anyone anything anyway apparently attention audience audiences away awful Vincent Guigue Preprocessing & JAVA 23/24
25 Compatibilité du dictionnaire! Dès que l on a des ensembles d apprentissage et de test séparés, il faut synchroniser le dictionnaire : Ce n est pas prévu dans l interface! Il faut passer au code JAVA. Heureusement, la librairie est bien faite et bien documentée Exemple en ligne. Vincent Guigue Preprocessing & JAVA 24/24
MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.
DEPARTEMENTT D'INFORMATIQUE MEMOIRE Présenté par B ARIGOU Baya Naouel Pour obtenir LE DIPLOME DE MAGISTER Spécialitéé Informatique Option : Automatique Informatique Intitulé : DÉTECTION DE COURRIELS INDÉSIRABLES
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailMaster d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien
Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailRecherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus
1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailJanvier 2005. Entretien de l ordinateur
Janvier 2005 Entretien de l ordinateur Sommaire : Entretien de l ordinateur Suppression de fichiers inutiles Vérification des erreurs Défragmentation Sauvegarde des données N.B. : Cette aide a été réalisée
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailTP Bases de données réparties
page 1 TP Bases de données réparties requêtes réparties Version corrigée Auteur : Hubert Naacke, révision 5 mars 2003 Mots-clés: bases de données réparties, fragmentation, schéma de placement, lien, jointure
Plus en détailDeuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1
Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détail5. Apprentissage pour le filtrage collaboratif
686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,
Plus en détailUne ergonomie intuitive
Une ergonomie intuitive Les solutions de la ligne PME offrent une interface de travail proche des usages quotidiens en informatique. Leur ergonomie intuitive facilite la prise en main du logiciel. Une
Plus en détailDocumentation Suivi S.E.O
Documentation Suivi S.E.O Document : Projet : Documentation Outil de Suivi SEO myposeo Date : 18/02/15 Version : 1 G4interactive SAS 53, rue des deux communes 93100 Montreuil, France contact@myposeo.com
Plus en détailESPACE COLLABORATIF SHAREPOINT
Conseil de l Europe Service des Technologies de l Information ESPACE COLLABORATIF SHAREPOINT DOSSIER D UTILISATEUR 1/33 Sommaire 1. Présentation de SharePoint... 3 1.1. Connexion... 4 2. Les listes...
Plus en détailwww.imprimermonlivre.com
0 www.imprimermonlivre.com Composition d une couverture avec Word L objectif de ce guide est de vous proposer un mode opératoire pour créer une couverture avec Word. Nous vous rappelons toutefois que Word
Plus en détailInstaller Joomla. 2013 Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring
3 Installer Joomla Dans ce chapitre, nous procéderons au téléchargement et à l installation manuelle de Joomla, et nous expliquerons la configuration de base. Les captures d écran et les instructions font
Plus en détailManipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Plus en détailIntroduction à la présentation graphique avec xmgrace
Chapitre 6 Introduction à la présentation graphique avec xmgrace Contenu 6.1 Avant-propos....................... 71 6.2 Faire un simple graphe................. 72 6.3 Un graphe avec plusieurs courbes...........
Plus en détailSélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr
Plus en détail4. Les traces que je laisse avec mon ordinateur. Expression Ce que je dis. Audience Qui je connais
Maîtriser son identité numérique 1 1. Définition de l identité numérique 2. Je choisis ma photo et mon pseudo 3. Gérer son profil 4. Les traces que je laisse avec mon ordinateur Définition : 10 mn Photo
Plus en détailDUPLICATION DES DONNEES. Jeudi 19 avril 2012
DUPLICATION DES DONNEES Jeudi 19 avril 2012 Portables ou ordinateurs de bureau, bien souvent ceux-ci ne disposent que d un seul disque dur et pour les plus récents sont souvent partitionnés et recèlent
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailJADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailMapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailDidacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Plus en détailMagister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE
Plus en détailSOMMAIRE AIDE À LA CRÉATION D UN INDEX SOUS WORD. Service général des publications Université Lumière Lyon 2 Janvier 2007
SOMMAIRE 1) CRÉATION D UN INDEX SIMPLE 3 a) Étape 1 : Marquage des entrées d index (à l aide d un fichier de concordance) 3 Procédure d insertion du tableau 4 Saisie des entrées d index 5 Marquage automatique
Plus en détailGénérer du code à partir d une description de haut niveau
Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailWebSSO, synchronisation et contrôle des accès via LDAP
31 mars, 1er et 2 avril 2009 WebSSO, synchronisation et contrôle des accès via LDAP Clément Oudot Thomas Chemineau Sommaire général Synchronisation d'identités WebSSO et contrôle des accès Démonstration
Plus en détaile-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi
e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailQuick Start Installation de MDweb version 2.3
Quick Start Installation de MDweb version 2.3 Date : 2011.08.26 1. Quickstart Quick Start - Installation de MDweb version 2011 Installation Téléchargement et Installation des logiciels requis Déploiement
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailAnalyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein
Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs
Plus en détailQuelques conseils de sécurité informatique
Quelques conseils de sécurité informatique Configuration de WINDOWS... 1 Mises à jour de WINDOWS... 1 Création d un utilisateur restreint... 1 Création d un répertoire de vos données personnelles... 2
Plus en détailPronom de reprise : confusion entre nous et se
CONFUSION COHÉRENCE ENTRE NOUS TEXTUELLE ET SE 1 Reprise de l information Pronom de reprise : confusion entre nous et se Théorie Lorsqu un pronom reprend entièrement l antécédent, les deux éléments doivent
Plus en détailFormation Word/Excel. Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007
Formation Word/Excel Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007 1 Avant de débuter Qui suis-je? À qui s adresse cette présentation? Petit sondage
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailConfiguration de plusieurs serveurs en Load Balancing
Le serveur de communication IceWarp Configuration de plusieurs serveurs en Load Balancing Version 10.4 27 février 2013 Icewarp France / DARNIS Informatique i Sommaire Configuration de plusieurs serveurs
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailBULK SMS Envoi en masse d un message texte moyennant un téléphone mobile (GSM)
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Ecole Supérieure Privée d Ingénierie et de Technologie BULK SMS Envoi en masse d un message texte moyennant un téléphone mobile (GSM)
Plus en détailTUTORIEL Pearltrees www.cellie.fr 26/02/2015
TUTORIEL Pearltrees www.cellie.fr 26/02/2015 Introduction www.pearltrees.com est outil en ligne accessible gratuitement par une simple inscription et utilisable depuis ordinateurs et terminaux mobiles.
Plus en détailÉvaluation et optimisation de requêtes
Évaluation et optimisation de requêtes Serge Abiteboul à partir de tranparents de Philippe Rigaux, Dauphine INRIA Saclay April 3, 2008 Serge (INRIA Saclay) Évaluation et optimisation de requêtes April
Plus en détailInformatique industrielle A7-19571 Systèmes temps-réel J.F.Peyre. Partie I : Introduction
Informatique industrielle A7-19571 Systèmes temps-réel J.F.Peyre Partie I : Introduction Plan de la première partie Quelques définitions Caractéristiques communes des applications temps-réel Exemples d
Plus en détailPrésentation de Firefox
Présentation de Firefox A l ouverture la fenêtre ressemble a ceci. (A noter qu ici j ai ouvert la page d accueil GOOGLE) Firefox présente toutes les fonctionnalités de base d un navigateur comme Internet
Plus en détailSe débarrasser des emails indésirables
Se débarrasser des emails indésirables Qui ne reçoit pas fréquemment par mail des offres d'achats de médicaments, cigarettes ou de logiciels, quand ce n'est pas pour vanter des sites Internet pour adultes?
Plus en détailProgrammation sous QT
SN IR 1 2014-2015 Développement logiciel Programmation Objet Programmation sous QT Projet Alarme Domestique ~ TD n 6~ Conception et Tests Unitaires Date : mars 2015 Version : 3.2 Référence : TD6 Conception
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailBase de connaissances
Base de connaissances Base de connaissances DinkeyWeb et solutions Contact commercial : Tél. : 02 47 35 70 35 Email : com@aplika.fr Contact Technique : Tél. : 02 47 35 53 36 Email : support@aplika.fr Version
Plus en détailLES TOUT PREMIERS PAS
DESMODO, un logiciel de gestion d idées http://www.desmodo.net/ LES TOUT PREMIERS PAS Desmodo est un logiciel (libre) qui permet, entre autre, de visualiser et de synthétiser, de manière organisée, sous
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailTRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie
TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition
Plus en détailUtiliser un tableau de données
Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des
Plus en détailGestion collaborative de documents
Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,
Plus en détailTravaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation
Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des
Plus en détail«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris
«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris OBJECTIFS 1- Niveau et insertion dans la programmation 2-
Plus en détailUn logiciel pour aller plus loin dans la gestion de vos espaces. Mémo technique
Office Espace Un logiciel pour aller plus loin dans la gestion de vos espaces Mémo technique Dotée de fonctionnalités avancées, Office Espace a été développé pour les mairies et collectivités qui recherchent
Plus en détailChess Arbiter Pro (version Dames) Notice d utilisation
Chess Arbiter Pro (version Dames) Notice d utilisation Notice traduite et adaptée avec le concours de la Fédération Française de Jeu de Dames (FFJD) Aug2013 version 2.0 1 Tables des matières 1. CARACTERISTIQUES
Plus en détailTP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile
TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailIntroduction à HTML5, CSS3 et au responsive web design
1 Introduction à HTML5, CSS3 et au responsive web design Jusqu à une période récente, les sites web étaient conçus avec une largeur fixe de l ordre de 960 pixels, en espérant que les visiteurs en tirent
Plus en détailMANUEL D INSTALLATION D UN PROXY
MANUEL D INSTALLATION D UN PROXY Squid, SquidGuard, Dansguardian Dans ce guide on va détailler l installation et la configuration d une solution proxy antivirale en utilisant les outils ; squid, dansguardian,
Plus en détailEXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailVisual Paradigm Contraintes inter-associations
Visual Paradigm Contraintes inter-associations Travail de Bachelor d'informaticien de gestion Partie C Présentation de Visual Paradigm 1 Présentation de Visual Paradigm For UML L objet du travail de Bachelor
Plus en détailMise à jour Apsynet DataCenter
Mise à jour Apsynet DataCenter Dans le cadre de sa stratégie d évolution produit, Apsynet propose à ses clients sous contrat de maintenance une mise à jour majeure annuelle. Celle-ci peut être complétée
Plus en détailLES REPRESENTATIONS DES NOMBRES
LES CARTES A POINTS POUR VOIR LES NOMBRES INTRODUCTION On ne concevrait pas en maternelle une manipulation des nombres sans représentation spatiale. L enfant manipule des collections qu il va comparer,
Plus en détailRéalisation de cartes vectorielles avec Word
Réalisation de cartes vectorielles avec Word Vectorisation de la carte Après avoir scanné ou avoir récupéré un fond de carte sur Internet, insérez-la dans votre fichier Word : Commencez par rendre visible
Plus en détailINTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE
I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES
Plus en détailPRESENTATION. Parcours de formation à distance A destination des personnels en contrats aidés
PRESENTATION Parcours de formation à distance A destination des personnels en contrats aidés PARCOURS : apprentissage des principaux outils bureautiques (les fondamentaux) Contenus de la formation constitutifs
Plus en détailTypes d applications pour la persistance. Outils de développement. Base de données préexistante? 3 modèles. Variantes avec passerelles
Types d applications pour la persistance Université de Nice Sophia-Antipolis Version 0.9 28/8/07 Richard Grin Toutes les applications n ont pas une complexité qui nécessite une architecture n- tiers Ce
Plus en détailENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque
1 ENDNOTE X2 SOMMAIRE 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque 2. Manipuler une bibliothèque EndNote 2.1. La saisie
Plus en détailThe Grid 2: Manuel d utilisation
The Grid 2: Manuel d utilisation Bienvenue dans The Grid 2 Merci d avoir choisi The Grid 2! Ce guide va vous apprendre tout ce que vous devez savoir à propos de The Grid 2. Il vous guidera pas à pas pour
Plus en détailEclipse atelier Java
Eclipse atelier Java Table des matières 1. Introduction...2 2. Télécharger eclipse...3 3. Installer eclipse...3 4. Premier lancement d eclipse...3 5. Configurer eclipse pour faire du Java...5 6. Développer
Plus en détailFormation Actuaire Data Scientist. Programme au 24 octobre 2014
Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailInformatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis
Informatique & Systèmes de Communication Stages de 12 à 16 semaines aux Etats-Unis PROGAMME DES STAGES Depuis 2010, les stages en entreprise sont devenus obligatoires dans le cadre des études master. Les
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détail