TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

Documents pareils
Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

Plan du cours : électricité 1

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Mesure agnostique de la qualité des images.

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Bases de données documentaires et distribuées Cours NFE04

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Fouillez facilement dans votre système Big Data. Olivier TAVARD

OASIS Date de publication

Drupal : quelques fonctionnalités (ce qu il permet, ce qu il ne permet pas)

Solutions en ligne Guide de l utilisateur

Chapitre 4 : Édition de fichiers texte - Vi

Travaux Pratiques : Lucène - Gestion d un index plein texte

La classification automatique de données quantitatives

LANDPARK ACTIVE DIRECTORY OPEN/LDAP

TD : Codage des images

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Sage 50 Comptabilité. Solutions logicielles en nuage, sur place et hybrides : Qu'est-ce qui convient le mieux à votre petite entreprise?

CRM pour le Service clients et l Assistance technique

Fonctions de plusieurs variables

5. Apprentissage pour le filtrage collaboratif

What s New. HOPEX V1 Release 2. MEGA International Avril V1R2 What's New 1

Formation SharePoint Server 2013

TP Bases de données réparties

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Bases de données documentaires et distribuées Cours NFE04

Guide d utilisation de la base de données bibliographiques. Centre de ressources - IFsanté

Le service FTP. M.BOUABID, Page 1 sur 5

INTRODUCTION AUX TESTS CODES DE L INTERFACE UTILISATEUR

Analyse tarifaire en ligne (TAO) de l'omc

Catalogue des formations Edition 2015

Évaluation et implémentation des langages

Apprentissage Automatique

«Les nouvelles technologies & les compétences numériques»

Mémoire DEA Système d'information Management and Technology of Information Systems

Exercices Corrigés Premières notions sur les espaces vectoriels

Nombre de crédits Nombre d'évaluation UE Majeure de spécialité 6 2. UE mineure de spécialité 3 ou 2 1. UE libre 1 1

INF6304 Interfaces Intelligentes

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

NOUVEAUTES de Microsoft Dynamics CRM 2011 REF FR 80342A

2 Grad Info Soir Langage C++ Juin Projet BANQUE

Comment utiliser le catalogue?

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Stellar Phoenix Outlook PST Repair - Technical 5.0 Guide d'installation

Guide d'installation. Release Management pour Visual Studio 2013

Capacité de mémoire Tablettes

Dossier d'étude technique

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Système de contrôle du trafic d une ligne de métro Dossier de tests

Blueprint OneWorld v8.2a Configuration Recommandée

LES INTERFACES HOMME-MACHINE

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

TD/TP PAC - Programmation n 3

Big Data et Graphes : Quelques pistes de recherche

INTRODUCTION À LA GESTION DE PROJET AGILE (BACKLOG, TABLEAUX DE BORD, BURNDOWN, PLANIFICATION D ITERATIONS)

ITIL Examen Fondation

Eviter les sites malhonnêtes

Actes de la conférence

AssetCenter Notes de version

modélisation solide et dessin technique

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

Une protection antivirus pour des applications destinées aux dispositifs médicaux

Soutien technique en informatique

S LICENCE INFORMATIQUE Non Alt Alt SS1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Introduction à ElasticSearch

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Installation de Microsoft Office Version 2.1

Statistiques et traitement des données


6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

MANUEL D UTILISATION DU LOGICIEL CMS

Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim

Représentation des Nombres

Raisonnement à base de cas textuels état de l art et perspectives

Version 7.1_5.1. Release Notes

1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières

RÉSUMÉ. Particulièrement adaptée à des institutions opérant en front office. Logiciel utilisé essentiellement en Afrique de l Ouest.

Algèbre binaire et Circuits logiques ( )

Système d information géographique SavGIS 3.Démarrer avec SavGIS Installer et démarrer SavGIS

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Architectures informatiques dans les nuages

Partie 7 : Gestion de la mémoire

ArtemiS 12 HEAD Data Portal 2.0 HEAD Recorder

MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

Réseau social collaboratif d'i-cart

I) Le contexte HIGH HOSPITALITY ACADEMY. II) Le programme HIGH HOSPITALITY ACADEMY

NOTIONS DE RESEAUX INFORMATIQUES

ROUTAGE. Répondez aux questions suivantes : (A chaque fois pour XP et pour Debian)

Test de HSQLDB et Comparatif avec Sqlite

De l intérêt des Réseaux Sociaux pour i2n

Les formations de remise à niveau(!) l'entrée des licences scientifiques. Patrick Frétigné CIIU

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Internet et Multimédia Exercices: flux multimédia

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

Transcription:

TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html

Plan Définition Modèle Booléen Modèle d'espace Vectoriel Evaluation Résumé

Définition Un moteur de recherche a pour but de récupérer l'ensemble des documents pertinents pour une requête donnée dans une collection de textes de grande taille et ceci en un temps acceptable

Définition Alors que cette tâche paraît simple, elle est loin d'être résolue! Un document parle-t-il d'un seul sujet? Bernard Tapie ancien ministre de la ville a aussi été président de l'om Est-il pertinent dans le temps? Le Benfica Lisbonne et le PSG ont fait match nul Oui, mais en 2011

Définition Quelle est la crédibilité d'un document? François Hollande est un bon Président Libération, Le Figaro, Wikipédia, Facebook... Que recherche vraiment l'utilisateur? Jaguar

Définition Comment visualiser les résultats? http://www.oskope.com/

Définition Comment visualiser les résultats? http://www.oskope.com

Définition Comment visualiser les résultats? http://www.oskope.com

Définition Comment visualiser les résultats? GREYC

Définition En fait, un système plus complexe qu'il n'y paraît

Définition Il existe des solutions à source libre qui implémentent toutes ou parties des fonctionnalités des moteurs de recherche Lucene : http://lucene.apache.org/core/ Terrier : http://terrier.org/ Solr : http://lucene.apache.org/solr/ Nutch : http://nutch.apache.org/ Lemur : http://www.lemurproject.org/

Modèle Booléen Un document est un ensemble d'unités lexicales Une requête est une expression logique du premier ordre formée d'unités lexicales [[Rio Brésil] [Maui & Hawai]] & Hotel &!Hilton Les documents pertinents sont ceux qui satisfont la requête

Modèle Booléen Quelles sont les limitations? Requêtes difficiles à exprimer Comment augmenter la requête? Le résulat est binaire: pertinent ou non Probléme de la liste vide pour des requêtes complexes Problème de visualisation des documents: quel est le plus pertinent?

Modèle d'espace Vectoriel Le modèle d'espace vectoriel est un modèle géométrique Il se base sur la similarité dans un espace de représentation à N dimensions entre un vecteur requête et un vecteur document Il faut donc définir les dimensions des vecteurs et leurs valeurs respectives Le vocabulaire représente les dimensions Chaque dimension est pondérée en fonction de la pertinence du mot pour le document ou la requête

Modèle d'espace Vectoriel Illustration

Modèle d'espace Vectoriel Représentation de la collection Comment donner un poids à un mot?

Modèle d'espace Vectoriel Plus une unité lexicale est fréquente dans un texte, plus elle est pertinente pour celui-ci: TF Plus une unité lexicale est spécifique à un ensemble de textes, plus elle est pertinente pour la collection: IDF (Inverse Document Frequency)

Modèle d'espace Vectoriel Chaque dimension d'un vecteur est donc pondérée par le fameux TF.IDF Exemple: TF.IDF ( qui,d1) =? TF.IDF ( qui,d1) = (2/3) log2(3/2)

Modèle d'espace Vectoriel Comment calculer la similarité entre un document et une requête? Un document est un vecteur à N dimensions Une requête peut être représentée par un vecteur à N dimensions où N est la taille du vocabulaire Il suffit de calculer le cosinus entre le vecteur requête (v) et le vecteur document (w)

Modèle d'espace Vectoriel Exemple Pertinence + D1 - D2

Modèle d'espace Vectoriel Comment implémenter le vecteur d'espace vectoriel? Indice inversé

Modèle d'espace Vectoriel Indice inversé et liste de mots vides: Pourquoi?

Modèle d'espace Vectoriel Indice inversé et positions: Comment?

Evaluation Afin de déterminer la qualité d'un système, il est nécessaire de développer des mesures d'évaluation Dans le cadre des moteurs de recherche, les mesures classiques sont la Précision, le Rappel et la F-mesure D'autres métriques existent et c'est un domaine de recherche très actif En effet, nous avons vu que la pertinence d'un document est une notion subjective

Evaluation Précision et Rappel Collection bruit Documents pertinents silence Documents retournés Documents retournés pertinents

Evaluation Précision et Rappel: Situation actuelle

Evaluation F-mesure Cette mesure permet de combiner Précision et Rappel en une seule métrique Plus de poids peut être attribué à la Précision ou au Rappel Que est le rôle de β? Si β>1, favorise-t-on la Précision ou le Rappel?

Evaluation Comment évaluer la pertinence d'un document? Plusieurs compétitions internationales existent TREC (Amérique) NTCIR (Asie) CLEF (Europe)

Résumé Définition Modèle Booléen Modèle d'espace Vectoriel Evaluation

Prochains Cours CM: Applications du TAL TP: Réalisation d'un Nuage de Mots https://dias.users.greyc.fr/?op=paginas/tal.html