Introduction. Ingénierie linguistique : Cours sur le traitement automatique des langues. Application aux autres domaines de l informatique

Documents pareils
Apprentissage Automatique

Grammaires d unification

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Portail Vocal d Entreprise

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Ressources lexicales au service de recherche et d indexation des images

! Text Encoding Initiative

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ACCOMPAGNEMENT PERSONNALISE AU LYCEE PICASSO DE PERPIGNAN (Document de travail)

mes m est mets/met mais mets

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

CONSERVATOIRE NATIONAL DES ARTS ET METIERS. Ecole Management et Société. Département Culture Information Technique et Société (CITS) INTD

Aide du Grand dictionnaire terminologique

N SIMON Anne-Catherine

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Construction et maintenance d une ressource lexicale basées sur l usage

Parcours DIWEB : (Données, Interaction et Web)

Pour écrire un texte sans fautes

DOCADOCT 2014/2015 MOTEURS DE RECHERCHE SPECIALISES

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Contemporary Engineering Sciences, Vol. 2, 2009, no. 4,

Réussir son entrée en grammaire au CE1

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Le traitement automatique des langues dans les industries de l'information

LIVRET PERSONNEL DE COMPÉTENCES

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

4.2 Unités d enseignement du M1

Guide utilisateur i-milo >> Décisionnel

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Utilisez les outils de la fiche méthode «étude d une affiche de film». Vous pouvez faire part d autres éléments concernant l étude de cette œuvre.

1. Qu est-ce que la conscience phonologique?

Document d aide au suivi scolaire

NOTICE SUR LES MEMOIRES DE MASTER 2

Recherche bibliographique

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

POUR ÉCRIRE UN MOT 1 : LOGICIEL DE SIMULATION LINGUISTIQUE

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

leur(s) leur LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

ÉCHANGE DE PRATIQUES : INTRODUCTION DU SCÉNARIO PROFESSIONNEL DANS LA FILIÈRE COMMERCIALE

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

La traduction automatique des articles de l anglais au français

Interférences lexicales entre deux langues étrangères: anglais et français

ces ses c est s est sais / sait

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

«La pomme qui voulait voyager»

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Compte-rendu de Hamma B., La préposition en français

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

TEXT MINING Tour d Horizon

Thèmes et situations : Personnel et législation sociale dans l entreprise. Fiche pédagogique

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Concevoir sa stratégie de recherche d information

Livret personnel de compétences

Formation Pédagogique 3h

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Projet de programme pour le cycle 3

GUIDE Excel (version débutante) Version 2013

TiLT : plate-forme pour le traitement automatique des langues naturelles

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

LA RECHERCHE DOCUMENTAIRE

Débuter avec Excel. Excel

Vers une architecture générique de système de dialogue oral homme-machine

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

TABLE DES MATIERES 521

Sciences de l'information et de la communication. Enseignant-e-s. Année/Structure/Enseignements. H/sem.

CATALOGUE Formations courtes PARCOURS TRADUCTION

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

Commerce International. à référentiel commun européen

Pharmaciens de l industrie. Art. L et suivants du code de la santé publique. Votre état civil. Remplir en majuscules accentuées

TECHN 18. Les logiciels de recherche documentaire. 1. Introduction. Publication technique de la SmalS-MvM / Technische uitgave van de SmalS-MvM

Évaluation et implémentation des langages

Modélisation des données

1 Description générale. Résumé

Ecouter. Parler Lire. Ecouter. Lire. Ecouter. Parler. Ecouter. Lire parler

LIVRE BLANC Décembre 2014

Construction d ontologies à partir de textes

MABioVis. Bio-informatique et la

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Les apports de l informatique. Aux autres disciplines

Accompagnement personnalisé 6e

LIVRE BLANC LOGICIELS DE TRADUCTION INSTANTANEE

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

SYSTRAN 7 Guide de démarrage

Chapitre 1 Qu est-ce qu une expression régulière?

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

Glossaire des nombres

Laboratoire 4 Développement d un système intelligent

Pourquoi? Caroline Baillat CPC EPS Céret / Elisabeth Maroselli CPC EPS P3 Page 1

Transcription:

Introduction Cours sur le traitement automatique des langues Violaine Prince Université de Montpellier 2 LIRMM-CNRS Les outils Analyseurs Bases de connaissance Les applications Ingénierie linguistique Aux autres domaines de l informatique Aide à la recherche linguistique Ingénierie linguistique : Aide à la traduction automatique Correcteurs grammaticaux et orthographiques Dictionnaires Alignement de corpus multilingues Résumés automatiques Application aux autres domaines de l informatique Moteurs de recherche d information Interrogation de bases de données Tuteurs intelligents Informatique documentaire Reconnaissance de la parole continue langues 1

Aide à la recherche linguistique Recherche de fréquences Aide à l analyse de textes Typage de données textuelles Thématiques et domaines Les différents types de «TAL» Informatique linguistique Algorithmique et info théorique Intelligence Artificielle Systèmes à base d agents Linguistique informatique Statistiques Logique Éléments traités Analyse automatique Modèles et outils Terminologie Présentation des options Analyse automatique Dimensions d analyse Morphologique Syntaxique Sémantique Pragmatique langues 2

Analyse morphologique Objectif : Reconnaissance de mots dans un texte Reconnaissance de la ponctuation Affectation d une catégorie grammaticale au mot S appelle LEMMATISATION ou ETIQUETAGE Exemple Ajouter du texte Reconnaissance de la frontière des unités lexicales (ul) Reconnaissance de l ul AJOUTER comme «motif» présent dans un thésaurus : catégorie «verbe», forme «infinitif» Lettre majuscule A : reconnaissance du début du texte Quelques difficultés La multiplicité des signes J ajoute du texte Reconnaître une forme de «je» pronom personnel Reconnaître une forme du motif «ajouter» ou le reconnaître comme motif : catégorie «verbe», forme «première personne du singulier». Les signes spéciaux : Qui interviennent dans une unité lexicale : -, exemple : porte-manteau, exemple : aujourd hui qui marquent la contraction :, exemple : j arrive Qui marquent un début ou une fin d unité composée :, ( ), majuscule et point,. langues 3

Les signes de ponctuation :, : ; Les signes d énumération : 1) nombre suivi d une parenthèse fermante, -,* Le symbole du dialogue _ Les signes d annotation (*), (1) Les signes arithmétiques et les nombres inclus dans un texte L ambiguïté Des signes : l apostrophe, le tiret, la parenthèse fermante Des catégories affectables à une ul : une texture ferme je ferme la porte la ferme de Jean adjectif verbe nom De la majuscule : début de texte ou emphase ambiguïté de forme précise je ferme la porte ferme catégorie : VERBE forme : 1ere personne du singulier (FORME FLECHIE) Il ferme la porte ferme catégorie : VERBE forme : 3ème personne du singulier ADJECTIF Le côté «multiplicatif» de l ambiguïté de catégorie VERBE Je ferme la porte NOM ARTICLE PRONOM langues 4

LA BONNE COMBINAISON La combinatoire théorique pronom verbe pronom verbe pronom verbe article verbe pronom verbe pronom nom pronom verbe article nom pronom nom pronom verbe pronom nom article verbe pronom nom pronom nom pronom nom article nom pronom adjectif pronom verbe etc. soit 12 combinaisons alors qu il n y en a qu une seule de bonne... Les différentes techniques d analyse morphologique Soit une ul U dans un texte T Etiquetage affectation d une catégorie grammaticale et/ou d une forme à U Lemmatisation étiquetage et reconnaissance de U comme élément de dictionnaire Exemples Je ferme la porte Etiquetage : («je», pronom personnel ), («ferme», verbe),(«la» article),(«porte»,nom) étiquetage en bi-grammes («U»,C U ) Lemmatisation Etiquetage plus («ferme», verbe : FERMER) («U»,C U, LEXEME) Etiquetage tri-gramme («U»,C U, F U ) où F est la forme prise par U (forme fléchie) Lemmatisation avec étiquetage trigramme («U»,C U, F U, LEXEME) Un lexème est une unité lexicale signifiante. Exemples : FERMER, JE, LA, PORTE, PORTER... langues 5

Quelques éléments de terminologie Entrée lexicale : Unité lexicale qui sert d entrée du dictionnaire. Elle est généralement représentée par : la chaîne de caractères Χ qui la définit le lexème L auquel elle est associée la catégorie grammaticale associée la ou les forme(s) fléchie(s) du lexème catégorisé prise par la chaîne de caractères. (Χ, L, C, {F Χ }) Exemples Il existe trois entrées lexicales pour l ul «ferme» («ferme», FERMER,verbe,{ 1ère personne du singulier, 3ème personne du singulier}) («ferme», FERME, nom commun, féminin singulier) («ferme»,ferme, adjectif qualificatif, {masculin singulier, féminin singulier}) Remarque : les lexèmes peuvent être ambigus. Les dictionnaires Dictionnaires de lexèmes uniquement : thesaurii lexicographiques FERMER : verbe FERME-1 : nom commun FERME-2 ; adjectif qualificatif Dictionnaires de formes fléchies : toutes les entrées lexicales de type (Χ, L, C, {F Χ }) Dictionnaires sémantiques de formes fléchies: on ajoute le sens du mot pour augmenter la discrimination («ferme», FERMER,verbe,{ 1ère personne du singulier, 3ème personne du singulier}, *FERMER) ici, on met un pointeur sur la forme infinitive fermer, qui va elle, porter le ou les sens. («ferme», FERME-1, nom commun, féminin singulier, bâtiment agricole) («ferme», FERME-1b, nom commun,féminin singulier, poutre de toit) etc. langues 6

Comment réaliser la lemmatisation Qualité de la lemmatisation Pour chaque ul U d un texte T Si on a un dictionnaire de forme fléchies de type (Χ, L, C, {F Χ }) alors apparier U et Χ Récupérer toutes les sous-listes (L, C, {F Χ }) correspondantes. La qualité de la lemmatisation est l adéquation réelle entre ce que doit valoir U dans le texte T et la sous-liste (L, C, {F Χ }) sélectionnée. A priori, plus il existe de listes différentes avec la même tête de liste, plus la qualité de la lemmatisation est mauvaise. Il faut donc désambiguiser. Techiques de désambiguisation Par l analyse syntaxique Par apprentissage sur un corpus On reste dans l hypothèse d un dictionnaire de formes fléchies Je ferme la porte à supprimer Désambiguisation par l analyse syntaxique Tous types d analyse depuis l adjonction de quelques règles de syntaxe jusqu à l analyse complète. Présentation de règles d interdiction un article ne peut pas être suivi d un verbe pronom verbe article verbe pronom nom article verbe pronom adjectif article verbe langues 7

à garder à supprimer Règles de composition autorisées (et ce qui n est pas autorisé est interdit) Pronom verbe Article nom Article adjectif pronom verbe pronom verbe pronom verbe article verbe pronom verbe pronom nom pronom verbe article nom pronom nom pronom verbe pronom nom article verbe pronom nom pronom nom pronom nom article nom pronom adjectif pronom verbe pronom adjectif pronom nom pronom adjectif article verbe pronom adjectif article nom Utilisation des Grammaires (0)proposition -> groupe sujet groupe verbal (1)groupe sujet -> groupe nominal (2)groupe nominal -> pronom (3)groupe nominal -> article nom (4)groupe verbal -> verbe (5)groupe verbal -> verbe groupe nominal (0) Les problèmes (3) je (1) (2) ferme (4) (5) (2) la (4) (3) porte Le langage naturel n est pas indépendant du contexte sur le plan grammatical Les grammaires de la langue ne sont pas complètes Les textes peuvent être a- grammaticaux Arbre d analyse syntaxique (descendant) langues 8

L apprentissage sur corpus Corpus Analyse de corpus Un corpus est un ensemble de données (texte). Analyseur classique Comparaison Corpus analysé Rappel et bruit Soit n le nombre d éléments du corpus d origine C. Soit m le nombre d éléments du corpus analysé CA. Soit t le nombre d éléments de l intersection de C et CA. Rappel : t/n Bruit : m-t/n La qualité d une analyse dépend de ces deux variables. Technique d apprentissage Modification itérative de l analyseur On part d un analyseur qui possède un dictionnaire D et des règles R. On teste sur un corpus C1 et on produit Cp1. Si le rappel r1<1, on fait : R {C1-Cp1} D {Ui {C1-Cp1}} Corpus C1 Analyseur A0 Cp1 Ana lyseur A1 Corpus C2 Cp2 Analyseur A2 C1-Cp1 C2-Cp2 C1-Cp1 langues 9

Problèmes et limites Problèmes Compatibilité des ajouts? Non redondance? Mécanismes d abstraction non directement prévus Données incomplètes en lemmatisation Limites Le bruit n est pas géré. Eléments de solution Problèmes Vérifications manuelles (PennTree), réduction de l absurdité redondance par génération ou identité : suppression Mécanismes d abstraction: «raisonnement» Etiquetage plutôt que lemmatisation. A voir en option Analyseur lexical de Pitrat Un thésaurus et des règles de conjugaison Etiqueteurs dictionnaires des formes fléchies simplifiés A apprentissage sur corpus d entraînement : Brill, PennTree Grammaticaux simples (markoviens, ATN, automates,etc.) Analyseurs morphosyntaxiques langues 10