Séjour découverte Traitement automatique de la langue

Documents pareils
Démonter)le)moteur) ) de)recherche. Jian%Yun(Nie DIRO h0p:// nie@iro.umontreal.ca

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

leur(s) leur LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

ces ses c est s est sais / sait

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

N SIMON Anne-Catherine

**Study your vocabulary lists, notes and review guide**

Les Bases de données de presse. Recherche documentaire

Apprentissage Automatique

! Text Encoding Initiative

Le verbe avoir (to have) infinitif = avoir. j ai nous avons tu as vous avez. Exemples: J ai une copine à Montréal.

Mots interrogatifs. Quand,comment,pourquoi,qui... sont des mots interrogatifs qui servent à introduire une phrase interrogative.

Cégep de Saint Laurent Direction des communications et Direction des ressources technologiques. Projet WebCSL : Guide de rédaction web

Homophones grammaticaux de catégories différentes. ce se

quoi que quoique LES EXERCICES DE FRANÇAIS DU CCDMD

1 Autres signes orthographiques. Trait d union. On met le trait d union entre le pronom personnel et le mot même :

mes m est mets/met mais mets

Atelier rédactionnel

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Réussir son entrée en grammaire au CE1

Grammaires d unification

Le passé composé. J ai trouvé 100 F dans la rue. Il est parti à 5 h 00.

Parcours DIWEB : (Données, Interaction et Web)

CONSERVATOIRE NATIONAL DES ARTS ET METIERS. Ecole Management et Société. Département Culture Information Technique et Société (CITS) INTD

ça sa ÇA HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Évaluation et implémentation des langages

Recherche bibliographique

ACTIVITÉ 1 : LES ADJECTIFS POSSESSIFS

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Discours direct indirect au présent

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Portail Vocal d Entreprise

Activité pour développer le concept de phrase et de mot

Unité 6. Qu est ce que tu prends au petit au petit déjeuner?

Document d aide au suivi scolaire

Distinction des questions et des consignes

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

LIVRET PERSONNEL DE COMPÉTENCES

Analyse dialectométrique des parlers berbères de Kabylie

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

PROJET DE FIN D ETUDES

TD 1 - Structures de Traits et Unification

Et avant, c était comment?

Livret personnel de compétences

NOM: FSF 1P1 EXAM REVIEW

1. Qu est-ce que la conscience phonologique?

LES PRONOMS INTERROGATIFS

LE DISCOURS RAPPORTÉ

Homophones grammaticaux de catégories différentes. s y si ci

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

Vers une architecture générique de système de dialogue oral homme-machine

UNITÉ 5 VOILÀ VOTRE CLÉ!

Charte éditoriale 1- Comment préparer un contenu écrit pour le Web?

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Unité 1. Au jour le jour

XML pour la mise en valeur des informations

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

1.The pronouns me, te, nous, and vous are object pronouns.

Pour écrire un texte sans fautes

Groupes de compétences. C est possible! Même en solo!

Guide juris.doc. 3 e édition. soquij.qc.ca

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

ENSEIGNER À L ÉCOLE MATERNELLE (2) «PEDAGOGIE DE L ORAL

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

1 Description générale. Résumé

«Si quelqu un veut venir après moi qu il renonce à lui-même, qu il se charge chaque jour de sa croix et qu il me suive» Luc 9 : 23.

CE QUE PARCE QUE 1 Homophones grammaticaux de catégories différentes

Formation Pédagogique 3h

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

************************************************************************ Français

DOCADOCT 2014/2015 MOTEURS DE RECHERCHE SPECIALISES

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

À la conquête des savoirs essentiels

Subordonnée circonstancielle de cause, de conséquence et de but

ÉVALUATION NATIONALE DES ACQUIS DES ÉLÈVES EN CE1

Quelle journée! Pêle-mêle. Qu est-ce que c est? DOSSIER Écoutez les phrases. Écrivez les mots de la page Pêle-mêle que vous entendez.

Concevoir sa stratégie de recherche d information

DISCOURS DIRECT ET INDIRECT

Auxiliaire avoir au présent + participe passé

LE COURRIER D ENTREPRISE

À propos d exercice. fiche pédagogique 1/5. Le français dans le monde n 395. FDLM N 395 Fiche d autoformation FdlM

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

TiLT : plate-forme pour le traitement automatique des langues naturelles

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

POUR ÉCRIRE UN MOT 1 : LOGICIEL DE SIMULATION LINGUISTIQUE

Caractéristiques du nom

son sont SON HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

DIFFÉRENCE ENTRE UN COMPLÉMENT D OBJET DIRECT ET UN COMPLÉMENT D OBJET INDIRECT ACCORD DES PARTICIPES PASSÉS MARCEL PÈREZ 2001

Accompagnement personnalisé 6e

Transcription:

Séjour découverte Traitement automatique de la langue Guy Lapalme Janvier 2016 avec des éléments d'une présentation de Philippe Langlais

Traitement Automatique de la Langue Naturelle (TALN) Facilite les interactions entre les ordinateurs et les humains Combine - Informatique - Linguistique - Sciences cognitives 2

Approches au TALN Rationaliste (1950 - ) - humain nait avec une capacité langagière - approche symbolique Empirique (1980 - ) - humain nait avec des capacités de reconnaissance de formes, d inférence et de généralisation - approche apprentissage machine / statistique 3

Exemples d applications du TAL Moteurs de recherche grammaire Génération de texte Classification de texte (détection de spam) Aide à la saisie de texte Traduction automatique Résumé ou indexation automatique Analyse grammaticale de phrases Vérification/correction d orthographe et de Extraction d information Reconnaissance de la parole 4

http://rali.iro.umontreal.ca

Professeurs du RALI Philippe Langlais - Traduction - Terminologie, morphologie Guy Lapalme - Résumé de textes - Génération de texte Jian-Yun Nie - Recherche d information - Fouille de données 6

Membres du RALI 2 professeures associées - Caroline Barrière (CRIM) - Atefeh Farzindar (NLP Technologies) 1 assistant de recherche - Fabrizio Gotti Étudiants (janv 2016) - 8 PhD - 5 MSc - 3 Post-doc 7

Quelques réalisations du RALI Identification de langue rali.iro.umontreal.ca/rali/?q=fr/node/1223 8

Quelques réalisations du RALI Identification de langue rali.iro.umontreal.ca/rali/?q=fr/node/1223 9

Quelques réalisations du RALI Accentuation automatique http://rali.iro.umontreal.ca/rali/?q=fr/projet-zodiac 10

tsrali.com

http://rali.iro.umontreal.ca/environmentalinfo/warningtranslation-fr.html

Transtype http://rali.iro.umontreal.ca/rali/sites/default/files/default/transtypesession.gif

Comment ça fonctionne? Segmentation - Identification des frontières de phrases et mots Analyse lexicale - Identification des propriétés des mots Analyse syntaxique - Identification des liens entre les mots Analyse sémantique - Représentation du sens Analyse pragmatique - fonction de l énoncé dans son contexte 14

Analyse lexicale La poubelle est pleine. la : article défini poubelle : nom féminin est : verbe être pleine : adjectif plein au féminin singulier 15

Analyse syntaxique La poubelle est pleine. Analyse en constituants Analyse en dépendances Phrase Groupe Nom Groupe Verbe Article Nom Verbe Attribut le poubelle être Adjectif plein 16

Analyse sémantique La poubelle est pleine. estplein(poubelle) 17

Analyse pragmatique La poubelle est pleine. Si ma femme me dit cette phrase: Vide la poubelle!! 18

Mais c est plus compliqué car ambiguité à tous les niveaux 19

Ambiguité: segmenter en phrases et en mots Point - partie décimale d un nombre (3.14) - acronyme (C.H.U.M.) - abréviation (M. Pierre) Apostrophe - dans un mot (aujourd hui, prud homme) - noms propres (O Brien) trait d union - mots composés (aller-retour, grand-père) - césure (élè-ve) - incise (l élève -bien gentil par ailleurs- est turbulent) 20

Ambiguité Analyse lexicale Flexions - pluriel (chien chiens) - futur (parler parlerai) Dérivations - briser brisure Décomposition - antiinflammatoire anti - inflammation Mots composés - ouvre-bouteille, pomme de terre Termes - réseaux de neurones, réseau neuronal 21

Ambiguité Analyse syntaxique mots - la : pronom, article, nom - est : verbe conjugué, point cardinal sens - elle est vache rattachement - Elle mange une glace à la fraise. - Elle mange une glace à la plage. - J ai vu un film avec Marilyn Monroe. - Il a parlé de déjeuner avec Paul 22

Ambiguité Analyse sémantique Formule logique - Paul a mis le vin sur la table mettre(paul, Vin, sur(vin,table)) Formule peut dépendre du verbe - Luc a avoué ce vol à Guy - Luc a attribué ce vol à Guy - Luc a décrit ce vol à Guy - Luc a réservé ce vol pour Guy 23

Ambiguité Analyse pragmatique Viendras-tu au bal ce soir? J ai entendu que Paul y sera! Veux-tu un gâteau? Je suis au régime - Ils vont encore augmenter nos taxes. 24

Modèle de langue Probabilité de rencontrer une chaîne dans un contexte (souvent les chaînes précédentes) Tables de probabilités en calculant sur des textes connus - un caractère/mot - deux caractères/mots - trois caractères/mots - 25

Identification d une langue Silc Pour chaque langue à identifier - trouver des textes - calculer des tables d occurrences de unigrammes (1 caractère) bigrammes (2 caractères) trigrammes (3 caractères) Pour un nouveau texte - trouver la langue pour laquelle les probabilités sont maximales 26

Accentuation automatique Zodiac Modèle de langue sur les mots Pour chaque mot à accentuer - considérer toutes les accentuations possibles a(cote) cote, coté, côte, côté - trouver l accentuation la plus probable en fonction des deux mots précédents 29

Traduction automatique Doit trouver une traduction adéquate et fluide - Le chat entre dans la chambre - The cat enters the room - The cat enters in the bedroom - My Granny plays the piano - piano Granny the plays my 30

Traduction automatique Combine - modèle de traduction: probabilité d une traduction étant donnée une phrase source - modèle de langue: probabilité que cette traduction soit une phrase correcte dans la langue cible 31

Estimation du modèle de traduction Trouver des textes parallèles des deux langues Aligner les phrases (TSrali) Calculer les statistiques d occurrences conjointes de mots dans les phrases Watt 32

Estimation du modèle de langue Calcule les probabilités des n-grammes ou des bouts de phrases dans la langue cible Illustration du processus 33

Moteurs de recherche Ils ont sauvé le web Analyse des textes sur les pages web Analyse des liens entre les pages web 34

Query User Interface Query time computing Caching Ranking Inverted Index Index Builder Page Authority Link Analysis Cached Pages Web Page Parser Pages Links & Anchors Link Map Link Graph Builder Link Graph Page & Site Statistics Crawler Offline computing Web Source: Jian-Yun Nie

TAL est essentiel pour le Web Majorité de l'information est en langage naturel Mais la majorité des usagers sont des ordinateurs! 36

37

Pourquoi faire du TAL? Parce que c est amusant - activité relativement jeune - activité qui combine plusieurs discipline Parce que c est utile - une meilleure interaction humain machine - web sémantique 38

Où faire du TAL?

Où faire du TAL? mais aussi à Montréal

Travail pratique Traduire un dialogue d une langue inconnue Ressource: bitexte Développer à la main un modèle de langue S aider d un concordancier http://www-labs.iro.umontreal.ca/~lapalme/ SejourDecouverte2016/ 40