TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html
Plan Définition Modèle Booléen Modèle d'espace Vectoriel Evaluation Résumé
Définition Un moteur de recherche a pour but de récupérer l'ensemble des documents pertinents pour une requête donnée dans une collection de textes de grande taille et ceci en un temps acceptable
Définition Alors que cette tâche paraît simple, elle est loin d'être résolue! Un document parle-t-il d'un seul sujet? Bernard Tapie ancien ministre de la ville a aussi été président de l'om Est-il pertinent dans le temps? Le Benfica Lisbonne et le PSG ont fait match nul Oui, mais en 2011
Définition Quelle est la crédibilité d'un document? François Hollande est un bon Président Libération, Le Figaro, Wikipédia, Facebook... Que recherche vraiment l'utilisateur? Jaguar
Définition Comment visualiser les résultats? http://www.oskope.com/
Définition Comment visualiser les résultats? http://www.oskope.com
Définition Comment visualiser les résultats? http://www.oskope.com
Définition Comment visualiser les résultats? GREYC
Définition En fait, un système plus complexe qu'il n'y paraît
Définition Il existe des solutions à source libre qui implémentent toutes ou parties des fonctionnalités des moteurs de recherche Lucene : http://lucene.apache.org/core/ Terrier : http://terrier.org/ Solr : http://lucene.apache.org/solr/ Nutch : http://nutch.apache.org/ Lemur : http://www.lemurproject.org/
Modèle Booléen Un document est un ensemble d'unités lexicales Une requête est une expression logique du premier ordre formée d'unités lexicales [[Rio Brésil] [Maui & Hawai]] & Hotel &!Hilton Les documents pertinents sont ceux qui satisfont la requête
Modèle Booléen Quelles sont les limitations? Requêtes difficiles à exprimer Comment augmenter la requête? Le résulat est binaire: pertinent ou non Probléme de la liste vide pour des requêtes complexes Problème de visualisation des documents: quel est le plus pertinent?
Modèle d'espace Vectoriel Le modèle d'espace vectoriel est un modèle géométrique Il se base sur la similarité dans un espace de représentation à N dimensions entre un vecteur requête et un vecteur document Il faut donc définir les dimensions des vecteurs et leurs valeurs respectives Le vocabulaire représente les dimensions Chaque dimension est pondérée en fonction de la pertinence du mot pour le document ou la requête
Modèle d'espace Vectoriel Illustration
Modèle d'espace Vectoriel Représentation de la collection Comment donner un poids à un mot?
Modèle d'espace Vectoriel Plus une unité lexicale est fréquente dans un texte, plus elle est pertinente pour celui-ci: TF Plus une unité lexicale est spécifique à un ensemble de textes, plus elle est pertinente pour la collection: IDF (Inverse Document Frequency)
Modèle d'espace Vectoriel Chaque dimension d'un vecteur est donc pondérée par le fameux TF.IDF Exemple: TF.IDF ( qui,d1) =? TF.IDF ( qui,d1) = (2/3) log2(3/2)
Modèle d'espace Vectoriel Comment calculer la similarité entre un document et une requête? Un document est un vecteur à N dimensions Une requête peut être représentée par un vecteur à N dimensions où N est la taille du vocabulaire Il suffit de calculer le cosinus entre le vecteur requête (v) et le vecteur document (w)
Modèle d'espace Vectoriel Exemple Pertinence + D1 - D2
Modèle d'espace Vectoriel Comment implémenter le vecteur d'espace vectoriel? Indice inversé
Modèle d'espace Vectoriel Indice inversé et liste de mots vides: Pourquoi?
Modèle d'espace Vectoriel Indice inversé et positions: Comment?
Evaluation Afin de déterminer la qualité d'un système, il est nécessaire de développer des mesures d'évaluation Dans le cadre des moteurs de recherche, les mesures classiques sont la Précision, le Rappel et la F-mesure D'autres métriques existent et c'est un domaine de recherche très actif En effet, nous avons vu que la pertinence d'un document est une notion subjective
Evaluation Précision et Rappel Collection bruit Documents pertinents silence Documents retournés Documents retournés pertinents
Evaluation Précision et Rappel: Situation actuelle
Evaluation F-mesure Cette mesure permet de combiner Précision et Rappel en une seule métrique Plus de poids peut être attribué à la Précision ou au Rappel Que est le rôle de β? Si β>1, favorise-t-on la Précision ou le Rappel?
Evaluation Comment évaluer la pertinence d'un document? Plusieurs compétitions internationales existent TREC (Amérique) NTCIR (Asie) CLEF (Europe)
Résumé Définition Modèle Booléen Modèle d'espace Vectoriel Evaluation
Prochains Cours CM: Applications du TAL TP: Réalisation d'un Nuage de Mots https://dias.users.greyc.fr/?op=paginas/tal.html