Traitement automatique des messages courts par des approches de Fouille de Textes

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Traitement automatique des messages courts par des approches de Fouille de Textes"

Transcription

1 Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011

2 1. Introduction Problématique générale Comment regrouper automatiquement les documents textuels 2 Applications : Classer des données des Ressources Humaines (collaboration avec le LIA) Classer des documents administratifs bruités Classer des textes d opinion Classer des dépêches épidémiologiques, de catastrophes naturelles

3 SEMINAIRE Sud4Science Classification de messages courts (tweets, SMS) Quel(s) descripteur(s) choisir ou comment traiter les chaînes de caractères? 3

4 Projet LANGMA : exploiter de nouvelles formes de publication Intelligence collective et gestion des connaissances veille stratégique, sociétale, etc 4 Masse d informations Comment effectuer un tri efficace pour ne conserver que les informations pertinentes en fonction d une problématique? VSST'2010 4

5 Collaboration WebReport LIRMM - Animation de communautés - Equipes TEXTE et TATOO - Valorisation d'avis et - Traitement automatique de commentaires d'internautes et la langue consommateurs - Fouille de données (S. Bringay) Objectif: Développer un outil de veille stratégique pour détecter les informations avant même leur apparition dans les nouvelles des agences de presse 5 Application: Détection de catastrophes via les tweets VSST'2010 5

6 Essor du «micro-blogage» Twitter pour «micro-bloguer» : Dernières pensées, humeurs ou activités en 140 caractères Very heavy rain in Incheon; the tropical storm has arrived (http:// twitter.com/melbuckpitt/status/ ) There's a tropical storm here in the phils, its already raining hard! (http://twitter.com/bottle26/status/ ) 6 En 2010 : > 6M de tweets par jour et > 15 millions d'utilisateurs Produits en temps réel D ordre personnel (soirée) ou public (bouchon, séisme) API pour automatiser la recherche d information VSST'2010 6

7 Extraction automatique Tweets : des données spécifiques - Gros volumes de données - Mots différents des mots-clés d un «dictionnaire classique» Algorithmes efficaces, minimisant le nombre de passes à effectuer sur les données pour assurer le passage à l échelle Techniques d extraction automatique de descripteurs pertinents spécifiques aux tweets 7 VSST'2010 7

8 Processus de classification (1/8) Phase 1 : Acquisition d'un corpus. Phase 2 : Représentation du corpus. Phase 3 : Représentation vectorielle des thèmes. Phase 4 : Classification d une nouvelle dépêche 8 VSST'2010 8

9 Processus de classification (2/8) Phase 1 : Acquisition d'un corpus Textes homogènes sur le fond et la forme Phase 2 : Représentation du corpus Phase 3 : Représentation vectorielle des thèmes 9 Phase 4 : Classification d une nouvelle dépêche VSST'2010 9

10 Processus de classification (3/8) Phase 2 : Représentation du corpus Doc 1: Avec les développements technologiques importants du web, les travaux concernant la veille technologique sont importants Doc 2 : Le web joue donc un rôle essentiel. Phase 3 : Représentation vectorielle des thèmes 10 Phase 4 : Classification d une nouvelle dépêche VSST'

11 Processus de classification (4/8) Phase 2 : Représentation du corpus Prétraitements nécessaires : - Lemmatisation ou radicalisation - Suppression des mots outils 11 Représentation statistique des occurrences : - booléenne/fréquentielle - TF-IDF VSST'

12 Processus de classification (5/8) Phase 2 : Représentation du corpus La formule TF-IDF combine deux critères : - l'importance du terme pour un document (par TF) - le pouvoir de discrimination de ce terme (par IDF) 12 w ij = poids du terme Tj dans le document Di tf ij = fréquence du terme Tj dans le document Di N = nombre de documents dans la collection n = nombre de documents où le terme Tj apparaît au moins une fois VSST'

13 Processus de classification (6/8) Phase 3 : Représentation vectorielle des thèmes important s Inondation développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc important s Séisme développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc important s Avalanche développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc Phase 4 : Classification d une nouvelle dépêche VSST'

14 Processus de classification (7/8) Phase 4 : Classification d une nouvelle dépêche Nouveau tweet important s Inondation développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc important s Séisme développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc important s Avalanche développemen technologique web travaux concernan veille technologiqu joue ts s t e Rôle essentiels Doc Doc VSST'

15 Processus de classification (8/8) Phase 4 : Classification d une nouvelle dépêche Mesure de cosinus 15 VSST'

16 Evaluation de la classification (1/3) Identification des catastrophes naturelles 61 textes Thème quelconque 74 textes Catastrophe Corpus de test 74 textes Catastrophe Corpus d apprentissage 16 Précision = Nombre documents pertinents retrouvés / Nombre documents retrouvés Rappel = Nombre documents pertinents retrouvés / Nombre documents pertinents F-Score = 2*Précision*Rappel / (Précision + Rappel) VSST'

17 Evaluation de la classification (2/3) Identification des catastrophes naturelles 61 textes Thème quelconque Corpus de test 74 textes Catastrophe Corpus d apprentissage 17 S Rappel Précision F-Score VSST'

18 Evaluation de la classification (3/3) Identification des catastrophes naturelles : inondation (173 textes), tremblement de terre (454) marée noire (472), tempête (505), tornade (427) Classe Réelle /Classe Prédite Inondation Tremblement de Marée terre noire Tempête Tornade Inondation Tremblement de terre Marée noire Tempête Tornade VSST'

19 SEMINAIRE Sud4Science Classification de messages courts (tweets) Quel(s) descripteur(s) choisir ou comment traiter les chaînes de caractères 19

20 Motivations Utiliser des méthodes fondées sur les chaînes de caractères pour : Apporter des connaissances sémantiques (pour le regroupement de mots sémantiquement proches), Normaliser les textes (correction orthographique, etc.), Reconnaissance des langues, 20 Identification de plagiat (proximité de marques déposées à l'inpi), etc.

21 Suffixes/Préfixes (1/3) (1/8) But : vérifier qu'une chaîne de caractères Ch1 se retrouve : au début d'une chaîne de caractères Ch2 (préfixe) à la fin d'une chaîne de caractères Ch2 (suffixe) Exemples de similarités : Préfixe -> Ch1 = chat / Ch2 = chaton Suffixe -> Ch1 = suivre / Ch2 = poursuivre 21

22 Suffixes/Préfixes (2/3) Avantage : efficace sur certains domaines spécialisés, par exemple la médecine [Nakache et al. 2006] Les suffixes indicateurs d'états pathologiques : 'ite' pour désigner l'inflammation (pancréatite, appendicite, gastrite), 'algie' ou 'odynie' pour la douleur. 22 Les suffixes indicateurs de gestes techniques : 'centèse' signifie ponction, 'ectomie' est propre à l'ablation, 'plastie' la réparation.

23 Suffixes/Préfixes (3/3) Utilisation de ces connaissances (suffixes/préfixes) sur les chaînes de caractères comme connaissance du domaine Désuffixation pour améliorer les méthodes de classification Limite : chat / chateau! 23

24 Similarité entre chaînes de caractères (1/4) Il existe de nombreuses mesures de similarité, deux méthodes présentées ici. Première méthode (Edit Distance) : Distance d Edition (notée E) = somme minimale du coût des opérations qu'il faut effectuer pour transformer Ch1 en Ch2. 24 Opérations : suppression, insertion, remplacement

25 Similarité entre chaînes de caractères (2/4) Exemple : E(gréviste,grève) = 4 Mesure prenant en compte E : String Matching (SM) de (Maedche et Staab) : SM(Ch1,Ch2) = max[ 0; (min( Ch1, Ch2 )-E(Ch1,Ch2))/min( Ch1, Ch2 ) ] 25 SM(gréviste,grève) = max(0;(5-4)/5) = 0.2

26 Similarité entre chaînes de caractères (3/4) Seconde méthode : n-grammes de caractères Technique des n-grammes est utilisée pour calculer le nombre de n caractères consécutifs Généralement, la valeur de n varie entre 2 et 5 26 Exemple de tri-grammes : Ch1 = chat / Ch2 = chaton tr(ch1) = {cha, hat} tr(ch2) = {cha, hat, ato, ton}

27 Similarité entre chaînes de caractères (4/4) Mise en place de mesures fondées (mesure de Lin) sur les tri-grammes pour mesurer la proximité entre chaînes de caractères Applications : Classification : n-grammes de caractères, descripteurs moins sensibles au bruit (fautes dans les tweets/sms, erreurs des OCR (feuilles/teuilles), etc.) 27 Reconnaissance des langues

28 Conclusion Méthodes mixtes sont, en général, performantes (cf. projet PEPS RESENS mené avec Augusta Mela, Univ. Montpellier 3 [Mela et al., EGC 2011]) Nécessité d un compromis entre précision et rappel - Méthodes linguistiques => précision élevée - Méthodes statistiques => rappel élevé 28

29 Perspectives Questions ouvertes dans le cadre de Sud4Science : Quelle classification? (1ère partie de l exposé) Peut-on identifier des spécificités lexicales et/ ou syntaxiques des SMS? (2ème partie de l exposé) 29

Approches fondées sur les chaînes de caractères pour le Recherche d'information

Approches fondées sur les chaînes de caractères pour le Recherche d'information Approches fondées sur les chaînes de caractères pour le Recherche d'information Mathieu Roche Cours ECD (Recherche d'information et Langage Naturel) 2008/2009 Utilisation des informations sur les chaînes

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Sylvie Dalbin Assistance & Techniques Documentaires DocForum, Le 17 Novembre 2005 Déroulé de l'intervention (1) 1. Définition

Plus en détail

Utilisation de techniques de TAL pour le mapping de schemas

Utilisation de techniques de TAL pour le mapping de schemas Utilisation de techniques de TAL pour le mapping de schemas Mathieu Roche Equipe TAL, LIRMM, Université Montpellier 2 FORUM, mars 2006 1 PLAN Techniques terminologiques pour le mapping de schemas 1 ère

Plus en détail

LSA : les limites d'une approche statistique

LSA : les limites d'une approche statistique LSA : les limites d'une approche statistique Atelier «Fouille de Données Complexes» (FDC'6), 7 janvier 26 Mathieu Roche et Jacques Chauché Equipe TAL, LIRMM, Université Montpellier 2 Plan Motivations LSA

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

L apport de l analyse textuelle à la statistique d entreprise :

L apport de l analyse textuelle à la statistique d entreprise : L apport de l analyse textuelle à la statistique d entreprise : L exploitation de 10 ans de visites d entreprises par les DIRECCTE Nicolas CAVALLO JMS 2015 SESSION 3 : ANALYSE DES DONNÉES 1 er avril 2015

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Recherche et Extraction d'information Généralités

Recherche et Extraction d'information Généralités Recherche et Extraction d'information Généralités Mathieu Roche Cours ECDA 2014/2015 Plan Motivations Veille technologie Les défis Les méthodes en RI Généralités Les limites des approches actuelles Approches

Plus en détail

Veille technologique en télécommunications

Veille technologique en télécommunications Veille technologique en télécommunications Khalid EL HIMDI Ismail KASSOU Hamid MACHCHOUR 1 Techniques d analyse de contenus L analyse de contenus est au cœur de la gestion du cycle de vie de l information

Plus en détail

Les descripteurs linguistiques en fouille de textes

Les descripteurs linguistiques en fouille de textes Les descripteurs linguistiques en fouille de textes Application à la fouille de données d'opinion Mathieu Roche Équipe TEXTE, LIRMM, CNRS, Université Montpellier 2 Séminaire CENTAL Louvain-la-Neuve (Belgique)

Plus en détail

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA Introduction au TALN et à l ingénierie linguistique Isabelle Tellier ILPGA Plan de l exposé 1. Quelques notions de sciences du langage 2. Applications et enjeux du TAL/ingénierie linguistique 3. Les deux

Plus en détail

Panorama des outils de veille. Myriel Brouland I-Expo 17 Juin 2009

Panorama des outils de veille. Myriel Brouland I-Expo 17 Juin 2009 Panorama des outils de veille Myriel Brouland I-Expo 17 Juin 2009 1 La veille s est affirmée en tant que discipline : Elle s inscrit dans un démarche d optimisation du management de l information au sein

Plus en détail

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle?

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Daniel K. Schneider TECFA FPSE - Université de Genève daniel.schneider@unige.ch Unité de technologie de l'éducation Université

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Caractéristiques des traitements Approche identique pour les

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013

Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Sommaire 1. Editorial de F.R. Chaumartin, fondateur de Proxem (page 2) 2. Moteur de recherche sémantique (page 3)

Plus en détail

Les clés pour devenir Community Manager (2014)

Les clés pour devenir Community Manager (2014) http://fr.openclassrooms.com/entreprise/cours/les-cles-pour-devenir-community-manager Chapitre 1 Méthode EcPaRe : Ecouter, Parler, Répondre Ressources Compétences Stratégie Définir des cibles, des objectifs,

Plus en détail

Indexation 3D à partir de vues 2D

Indexation 3D à partir de vues 2D Indexation 3D à partir de vues 2D Thibault Napoléon 1 Télécom ParisTech - TSI Qu est ce que l indexation 3D? Recherche dans une grande base de donnée 3D Recherche par le contenu (la forme, la couleur...)

Plus en détail

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Journée Résumé Automatique Multimédia 2011/03/17 Emilie Guimier De Neef Plan de la

Plus en détail

CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE SÉMINAIRE CHAIRE RESSOURCES HUMAINES ET ORGANISATION

CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE SÉMINAIRE CHAIRE RESSOURCES HUMAINES ET ORGANISATION CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE SÉMINAIRE CHAIRE RESSOURCES HUMAINES ET ORGANISATION Il est demandé aux étudiants qui souhaitent déposer un séminaire à la chaire RHO de prendre connaissance

Plus en détail

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques Nouvelles de l AS fouille d images Émergence de caractéristiques sémantiques Patrick GROS Projet TEXMEX IRISA - UMR 6074, CNRS, université de Rennes 1, INSA Rennes, INRIA L AS fouille d images Qu est-ce

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Amendement du SE-Unsa pour ajouter l EMI aux cycles 2 et 3

Amendement du SE-Unsa pour ajouter l EMI aux cycles 2 et 3 Amendement du SE-Unsa pour ajouter l EMI aux cycles 2 et 3 CYCLE 2 Éducation aux médias et à l information L éducation aux médias et à l information (EMI), présente dans tous les champs du savoir transmis

Plus en détail

Étude sur les efforts requis pour gérer les offices d habitation de moins de 100 logements Société d habitation du Québec

Étude sur les efforts requis pour gérer les offices d habitation de moins de 100 logements Société d habitation du Québec CONDENSÉ DÉCISIONNEL Étude sur les efforts requis pour gérer les offices d habitation de moins de 100 logements Société d habitation du Québec Le 11 avril 2014 d habitation de moins de 100 logements Condensé

Plus en détail

Contributions à l étude des mesures sémantiques

Contributions à l étude des mesures sémantiques Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance Plan Contributions

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

AUDIT DE LA PAIE ET DU PERSONNEL

AUDIT DE LA PAIE ET DU PERSONNEL AUDIT DE LA PAIE ET DU PERSONNEL PLAN : I. Introduction II. Définitions : 1) Fonction paie personnel 2) Audit paie personnel III. Démarche de l audit paie et personnel IV. audit cycle paie personnel 1)

Plus en détail

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Bruno Crémilleux, Pierre Gançarski, Mathieu Roche, Christian Sallaberry, Maguelonne Teisseire et al. Strasbourg novembre 2014

Plus en détail

Pourquoi intégrer le Big Data à son organisa3on?

Pourquoi intégrer le Big Data à son organisa3on? Pourquoi intégrer le Big Data à son organisa3on? Yvan Robert, VP Affaires Stratégiques Emmanuel Faug, Resp. pra>que BI Colloque 2014 Big Data Agenda Qui sommes nous? L importance de l information Méthodes

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Recherche documentaire avec BCDI 3 : méthodologie

Recherche documentaire avec BCDI 3 : méthodologie Lycée Blaise Pascal CDI Cécile Querrioux Eric Valière Liliane Denis Recherche documentaire avec BCDI 3 : méthodologie Le logiciel documentaire BCDI3 permet de trouver : des références de documents présents

Plus en détail

Évaluation de la classification et segmentation d'images en environnement incertain

Évaluation de la classification et segmentation d'images en environnement incertain Évaluation de la classification et segmentation d'images en environnement incertain EXTRACTION ET EXPLOITATION DE L INFORMATION EN ENVIRONNEMENTS INCERTAINS / E3I2 EA3876 2, rue F. Verny 29806 Brest cedex

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Site Web SGBS «Responsabilité Sociale et Environnementale»

Site Web SGBS «Responsabilité Sociale et Environnementale» Site Web SGBS «Responsabilité Sociale et Environnementale» Nous sommes engagés à prendre en compte dans l exercice de son activité les attentes de nos parties prenantes internes et externes dans le cadre

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Yosra GHLISS, Université Paul Valery- Montpellier, Praxiling UMR 5267 Frédéric ANDRÉ, Université Paris-Sorbonne, EA 4509, STIH

Yosra GHLISS, Université Paul Valery- Montpellier, Praxiling UMR 5267 Frédéric ANDRÉ, Université Paris-Sorbonne, EA 4509, STIH Yosra GHLISS, Université Paul Valery- Montpellier, Praxiling UMR 5267 Frédéric ANDRÉ, Université Paris-Sorbonne, EA 4509, STIH Rennes, le 23 Octobre 2015 Etudier les SMS Caractéristique principale Pratique

Plus en détail

Mesures pour améliorer l efficacité de l enseignement de l allemand. 1) Propositions concernant les contenus d enseignement :

Mesures pour améliorer l efficacité de l enseignement de l allemand. 1) Propositions concernant les contenus d enseignement : Inspection générale d allemand Mesures pour améliorer l efficacité de l enseignement de l allemand. Les décisions prises lors du Conseil des ministres franco-allemand de Berlin d octobre 2004 offrent de

Plus en détail

Master 2 T2M. Instructions pour la rédaction des notes d entreprise

Master 2 T2M. Instructions pour la rédaction des notes d entreprise Master 2 T2M Instructions pour la rédaction des notes d entreprise I Dispositions générales Selon le pays où vous êtes en stage, un enseignant de la langue concernée sera chargé de suivre votre stage et

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE BACHELOR CHAIRE RESSOURCES HUMAINES ET ORGANISATION

CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE BACHELOR CHAIRE RESSOURCES HUMAINES ET ORGANISATION CAHIER DES CHARGES POUR L ÉLABORATION D UN TRAVAIL DE BACHELOR CHAIRE RESSOURCES HUMAINES ET ORGANISATION Il est demandé aux étudiants qui souhaitent déposer un bachelor à la chaire RHO de prendre connaissance

Plus en détail

Comprendre le partage des contenus journalistiques sur les réseaux socionumériques

Comprendre le partage des contenus journalistiques sur les réseaux socionumériques Comprendre le partage des contenus journalistiques sur les réseaux socionumériques Enjeux, défis, compétences Dario Compagno 18 juin 2015 Projet ANR Info-Rsn Questions fondamentales Comment les ressources

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

ANNEXE IV - RÉGLEMENT D EXAMEN. U. 1 3 écrite 4 h CCF 3 situations d évaluatio n. 2h + 20 min* orale. 3 situations d évaluatio n

ANNEXE IV - RÉGLEMENT D EXAMEN. U. 1 3 écrite 4 h CCF 3 situations d évaluatio n. 2h + 20 min* orale. 3 situations d évaluatio n BTS Management des unités commerciales ANNEXE IV - RÉGLEMENT D EXAMEN Voie scolaire dans un établissement public ou privé sous contrat, CFA ou section d apprentissage habilité. Formation professionnelle

Plus en détail

OLAP. Data Mining Decision

OLAP. Data Mining Decision Machine Learning Information Systems Data Warehouses Web & Cloud Intelligence OLAP Knowledge Management Data Mining Decision ENTREPÔTS, REPRÉSENTATION & INGÉNIERIE des CONNAISSANCES Une recherche pluridisciplinaire...

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Eléments pour aborder le nom et le groupe nominal

Eléments pour aborder le nom et le groupe nominal Eléments pour aborder le nom et le groupe nominal 1. Rappels des programmes 2008 Rappels des connaissances et compétences que les élèves doivent maîtriser Grammaire : Au cycle 2 : 1. identification du

Plus en détail

UE 3 Management et contrôle de gestion. Le programme

UE 3 Management et contrôle de gestion. Le programme UE 3 Management et contrôle de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur A. Management

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Evaluation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents

Plus en détail

Partie I Organisations, management et systèmes d information... 1

Partie I Organisations, management et systèmes d information... 1 Liste des cas d entreprise............................................................ Liste des figures..................................................................... Liste des tableaux...................................................................

Plus en détail

Rédiger et Publier un Article Scientifique

Rédiger et Publier un Article Scientifique Journée de la Recherche Université aint-joseph (UJ) Faculté d ngénierie, nierie, E, Mar Roukoz, Mkallès Rédiger et Publier un Article cientifique Enjeux, Utilité et Méthodologie Par Hadi Y. KANAAN, HDR,

Plus en détail

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris «Dire et écrire» pour réaliser une composition en travail collaboratif en géographie Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris OBJECTIFS 1- Niveau et insertion dans la programmation 2-

Plus en détail

Utilisation du Numérique pour l Enseignement et l Evaluation des Compétences à l Université

Utilisation du Numérique pour l Enseignement et l Evaluation des Compétences à l Université 1er Colloque International sur l Usage du Numérique dans l Enseignement Supérieur Utilisation du Numérique pour l Enseignement et l Evaluation des Compétences à l Université Farida Bouarab-Dahmani Maitre

Plus en détail

INFORM@TIQUE PROGRAMME PROVISOIRE. Degré 9 (1CO)

INFORM@TIQUE PROGRAMME PROVISOIRE. Degré 9 (1CO) INFORM@TIQUE PROGRAMME PROVISOIRE Degré 9 (1CO) DECS SE, mai 2011 PREAMBULE L ordinateur et les moyens multimédias en général font partie du quotidien des élèves. Ils sont utilisés comme instruments de

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Projet de S10, RICM5

Projet de S10, RICM5 Projet de S10, RICM5 Analyse d opinion en temps réel à partir de Twitter Equipe Jordan CALVI Mame Daba DIOUF Xu FENG Encadrants Viseo Fatoumata CAMARA Cédric LOPEZ Encadrant Polytech Didier DONSEZ Du 28/01/2014

Plus en détail

Introduction à la notion. d Intelligence Territoriale

Introduction à la notion. d Intelligence Territoriale Introduction à la notion d Intelligence Territoriale Copyright: La reproduction totale ou partielle de ce document est autorisée sous réserve qu il soit fait référence à l auteur. Aurélien Gaucherand Consultant

Plus en détail

Demande d'habilitation d'un Mastère LMD Pour les années universitaires de 2011-2012 à 2014-2015

Demande d'habilitation d'un Mastère LMD Pour les années universitaires de 2011-2012 à 2014-2015 Demande d'habilitation d'un Mastère LMD Pour les années universitaires de 0-0 à 0-0 Université : La Manouba Mastère Professionnel Gestion de et des Etablissement : Institut supérieur de documents s documentation

Plus en détail

La gestion des flux d information : EDI

La gestion des flux d information : EDI La gestion des flux d information : EDI Introduction EDI (définition, composants, types et domaines d application) Les enjeux de l EDI La mise en œuvre de l EDI Conclusion Introduction Tâches Création

Plus en détail

La maîtrise de l orthographe est fondamentale pour tous les profils amenés à communiquer au sein de l entreprise en interne comme en externe car :

La maîtrise de l orthographe est fondamentale pour tous les profils amenés à communiquer au sein de l entreprise en interne comme en externe car : Projet Voltaire Des remèdes pour les mots Quel est le diagnostic? La maîtrise de l orthographe est fondamentale pour tous les profils amenés à communiquer au sein de l entreprise en interne comme en externe

Plus en détail

Avis de non-responsabilité

Avis de non-responsabilité Université d Ottawa Avis de non-responsabilité Ce document comporte des renseignements généraux fournis seulement à titre d information et peut être modifié sans préavis. Il ne remplace aucunement les

Plus en détail

RAPPORT DE DÉFINITION DE PROJET. Cette évaluation compte pour 5 points

RAPPORT DE DÉFINITION DE PROJET. Cette évaluation compte pour 5 points RAPPORT DE DÉFINITION DE PROJET Cette évaluation compte pour 5 points 1. Mise en contexte du projet et énoncé de la problématique Aspects techniques et non techniques (environnement, santé sécurité, éthique,

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Chapitre 1:Culture informatique. Professeur : Shili Mohamed. Niveaux : 3 éme année Lettre. Année universitaire: 2014-2015

Chapitre 1:Culture informatique. Professeur : Shili Mohamed. Niveaux : 3 éme année Lettre. Année universitaire: 2014-2015 Chapitre 1:Culture informatique Professeur : Niveaux : 3 éme année Lettre Année universitaire: 2014-2015 Plan Introduction Informatique Logiciels et sécurité de l information : Conclusion 2 1 Introduction

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Technologies et Knowledge Management. Knowledge Management. Panorama des technologies. Gilles Balmisse. Journée EGIDE - 4 mars 2003 1

Technologies et Knowledge Management. Knowledge Management. Panorama des technologies. Gilles Balmisse. Journée EGIDE - 4 mars 2003 1 Journée EGIDE - 4 mars 2003 1 Knowledge Management Panorama des technologies Journée EGIDE - 4 mars 2003 2 AU SOMMAIRE Introduction PARTIE 1 Panorama des technologies PARTIE 2 Portail de KM Conclusion

Plus en détail

SECTION DE MATURITE PLAN D ETUDE-CADRE ANGLAIS

SECTION DE MATURITE PLAN D ETUDE-CADRE ANGLAIS 6. LYCEE JEAN-PIAGET NEUCHATEL SECTION DE MATURITE PLAN D ETUDE-CADRE ANGLAIS I. Objectifs généraux L apprentissage de l anglais, comme celui de toute autre langue étrangère, permet à l élève d acquérir

Plus en détail

GROUPE D'UTILISATEURS ACL RENCONTRE DU 27 MARS 2012

GROUPE D'UTILISATEURS ACL RENCONTRE DU 27 MARS 2012 GROUPE D'UTILISATEURS ACL RENCONTRE DU 27 MARS 2012 TABLE DES MATIÈRES 01 L approche d un mandat en utilisant ACL comme outil d analyse 02 Présentation de l'outil ACL Audit Exchange 03 Présentation d un

Plus en détail

Fonctionnalités des outils de détection de similarités

Fonctionnalités des outils de détection de similarités Fonctionnalités des outils de détection de similarités PMU : Le plagiat de la négligence à la fraude Lausanne, le 16 janvier 2014 Isabelle de Kaenel Vincent Demaurex Jolanda Elmers Hains Isabelle.de-Kaenel@chuv.ch

Plus en détail

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA Découverte de Règles Associatives Hiérarchiques entre termes Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA 1 Plan Problématique et État de l art Nouvelle approche Approche Conceptuelle

Plus en détail

CRÉER DES NUAGES DE MOTS CLÉS EN SMS

CRÉER DES NUAGES DE MOTS CLÉS EN SMS CRÉER DES NUAGES DE MOTS CLÉS EN SMS Depuis quelques mois, on peut voir apparaître dans divers périodiques ou sur différents sites des nuages de mots clés (voir site du GRISMS) permettant d être dirigé

Plus en détail

ELOECM Conference2015

ELOECM Conference2015 ELOECM Conference2015 Dématérialisation de courriers ELO DocXtractor Florent Melchers Consultant Projet et Avant-vente f.melchers@elo-digital.fr Intérêt d une solution de dématérialisation Nos clients

Plus en détail

Top_Keyword: Agrégation de motsclefs dans un environnement OLAP

Top_Keyword: Agrégation de motsclefs dans un environnement OLAP SIG/ED Top_Keyword: Agrégation de motsclefs dans un environnement OLAP Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. tournier@irit.fr

Plus en détail

Mme Murphy-Chanéac, 2, Risques, 2014 Page 1

Mme Murphy-Chanéac, 2, Risques, 2014 Page 1 http://www.franceinfo.fr/monde/france-info-junior/typhon-1210117-2013-11-13 Mme Murphy-Chanéac, 2, Risques, 2014 Page 1 cyclonextreme.com Mme Murphy-Chanéac, 2, Risques, 2014 Page 2 Grandes idées : Les

Plus en détail

Une consultation Nationale : «Gagnons avec l enseignement professionnel»

Une consultation Nationale : «Gagnons avec l enseignement professionnel» Une consultation Nationale : «Gagnons avec l enseignement professionnel» 1. LE DISPOSITIF 2. LA PLATEFORME PARTICIPATIVE 3. LES DÉBATS EN RÉGION 4. LE CALENDRIER LES OBJECTIFS Mobiliser toutes les parties

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

La technologie sémantique au service du Recrutement

La technologie sémantique au service du Recrutement La technologie sémantique au service du Recrutement Livre blanc Pourquoi la technologie sémantique dans les RH? A ce jour la recherche de compétences externes ou internes reste en partie artisanale. De

Plus en détail

On the Recommending of Citations for Research Papers

On the Recommending of Citations for Research Papers On the Recommending of Citations for Research Papers McNee et al. Émile Ducrocq Michel Desmarais École polytechnique de Montréal Problématique Quantité astronomique d articles de recherche sur Internet

Plus en détail

Plate-forme semi-automatique : E-quity

Plate-forme semi-automatique : E-quity Plate-forme semi-automatique : E-quity Bringay Sandra 1, Pinlou Alexandre 1, Durand Sylvain 1, Pro Sébastien 1, Séébold Patrice 1 Département MIAp, Université Paul-Valéry, Montpellier 3, Route de Mende,

Plus en détail

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information Comprendre ce qu'est la veille A. Introduction 13 B. Qu est-ce que la veille? 13 1. Obtention d information 14 2. Information à caractère stratégique ou opérationnel 15 3. Évolution de l environnement

Plus en détail

UE 3 - MANAGEMENT ET CONTRÔLE DE GESTION Niveau M : 180 heures - 20 ECTS. A - Management. 1. Évolution des modèles d organisation (15 heures)

UE 3 - MANAGEMENT ET CONTRÔLE DE GESTION Niveau M : 180 heures - 20 ECTS. A - Management. 1. Évolution des modèles d organisation (15 heures) UE 3 - MANAGEMENT ET CONTRÔLE DE GESTION Niveau M : 180 heures - 20 ECTS NB : les deux sous-parties de ce programme sont présentées séparément mais la compétence à acquérir doit permettre de réaliser une

Plus en détail

CONFÉRENCE SUR L ÉCONOMIE DES AÉROPORTS ET DES SERVICES DE NAVIGATION AÉRIENNE

CONFÉRENCE SUR L ÉCONOMIE DES AÉROPORTS ET DES SERVICES DE NAVIGATION AÉRIENNE Organisation de l aviation civile internationale NOTE DE TRAVAIL CEANS-WP/5 15/4/08 CONFÉRENCE SUR L ÉCONOMIE DES AÉROPORTS ET DES SERVICES DE NAVIGATION AÉRIENNE Montréal, 15 20 septembre 2008 Point 1

Plus en détail

LE TRAVAIL COLLABORATIF

LE TRAVAIL COLLABORATIF LE TRAVAIL COLLABORATIF I. Le développement du travail collaboratif Le travail collaboratif, entendu comme situation de travail et de communication de groupe impliquant coopération et coordination, est

Plus en détail

Anne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, 2000-2015, ISBN : 978-2-212-14154-2

Anne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, 2000-2015, ISBN : 978-2-212-14154-2 Anne Tasso Java Le livre de premier langage 10 e édition Avec 109 exercices corrigés Groupe Eyrolles, 2000-2015, ISBN : 978-2-212-14154-2 Table des matières Avant-propos Organisation de l ouvrage..............................

Plus en détail

Domaine 1 : S approprier un environnement informatique de travail (3 items / 7 aptitudes)

Domaine 1 : S approprier un environnement informatique de travail (3 items / 7 aptitudes) Domaine 1 : S approprier un environnement informatique de travail (3 items / 7 aptitudes) 1.1 Utiliser, gérer des espaces de stockage à disposition 6 5 4 3 1.1.1 L'élève distingue les espaces accessibles

Plus en détail

P. 1. Evolution de l environnement et des compétences documentaires: exemple dans le champ de la santé publique

P. 1. Evolution de l environnement et des compétences documentaires: exemple dans le champ de la santé publique P. 1 Evolution de l environnement et des compétences documentaires: exemple dans le champ de la santé publique Début des années 1990 L Inist-CNRS va contribuer à l alimentation du premier corpus de la

Plus en détail

Acteos Points de Vente Acteos PPS

Acteos Points de Vente Acteos PPS Acteos Points de Vente Acteos PPS Christian Zelle Directeur R&D, Acteos 06.05.2010 1 Agenda Motivation ACTEOS PPS La solution ACTEOS PPS ACTEOS PPS dans le contexte du «Flowcasting» 2 Motivation Les problématiques

Plus en détail

CCI Sud Alsace Mulhouse. «Dans les CCI d Alsace, un réseau social convertit la veille individuelle en veille collaborative» CAS

CCI Sud Alsace Mulhouse. «Dans les CCI d Alsace, un réseau social convertit la veille individuelle en veille collaborative» CAS CCI Sud Alsace Mulhouse «Dans les CCI d Alsace, un réseau social convertit la veille individuelle en veille collaborative» CAS Etude de cas réalisée par Stéphane Moracchini Rédacteur en chef de Intervenant

Plus en détail

Vendredi 9 septembre 2005 Classe : BTS MUC 21

Vendredi 9 septembre 2005 Classe : BTS MUC 21 Vendredi 9 septembre 2005 Classe : BTS MUC 21 Prendre contact avec les élèves et expliquer les objectifs du cours. Lire et observer une synthèse de documents Français, les épreuves du BTS, Nathan technique,

Plus en détail

Règles opérationnelles pour la gestion de l information d entreprise (GIE) :

Règles opérationnelles pour la gestion de l information d entreprise (GIE) : Règles opérationnelles pour la gestion de l information d entreprise (GIE) : Rapport de projet final présenté au Conseil des dirigeants principaux de l'information du secteur public Présenté par : Mark

Plus en détail

Cahier du participant

Cahier du participant Cahier du participant Formation Le Placement en ligne Formation réalisée et donnée par Montréal Aide mémoire Assistance : 1-866-640-3059 Votre NEQ Votre identifiant Votre mot de passe www.emploiquebec.gouv.qc.ca

Plus en détail