Corpus et outils de requête

Documents pareils

Apprentissage Automatique

Gestion collaborative de documents

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Serveurs de noms Protocoles HTTP et FTP

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

MASTER LPL : LANGUE ET INFORMATIQUE (P)

FORMATIONS LINGUISTIQUES DIPLOMES, TESTS & EXAMENS D ESPAGNOL COCEF

S8 - INFORMATIQUE COMMERCIALE

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

N SIMON Anne-Catherine

! Text Encoding Initiative

SITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES

Architecture BIGBLUEBUTTON Groupe BigBlueButton - Sénégal

Logiciel SuiviProspect Version Utilisateur

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

PRIMAVERA P6 ENTERPRISE PROJECT PORTFOLIO MANAGEMENT WEB SERVICES

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Nouveautés ArcGIS 10.1 for Server

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

ACTIVITÉ DE PRODUCTION ORALE. Niveau A1. Qui est-ce?

Architectures web/bases de données

Tableau des contenus

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Cahier des charges (CDC)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le

DESCRIPTION DES PRODUITS ET MÉTRIQUES

La rue. > La feuille de l élève disponible à la fin de ce document

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

Outils informatiques de manipulation de la vidéo et du son : une introduction

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

Jeudi 17 janvier. 17h30 19h30 à GAP

FORMATION MULTIMÉDIA LVE

Les Bases de données de presse. Recherche documentaire

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

4. SERVICES WEB REST 46

Grammaires d unification

Plan du cours. Historique du langage Nouveautés de Java 7

Dafoe Présentation de la plate-forme UIMA

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

UE11 Phonétique appliquée

Concevoir sa stratégie de recherche d information

NFA016 : Introduction. Pour naviguer sur le Web, il faut : Naviguer: dialoguer avec un serveur web

Les Ressources Numériques à Dauphine

PostgreSQL, le cœur d un système critique

Logiciel Libre Cours 3 Fondements: Génie Logiciel

La série L est revalorisée

Atelier Le gestionnaire de fichier

Avantic Software Présentation de solutions GED pour mobiles (Gestion Electronique de Documents)

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : URGENTE NON URGENTE TEMPORAIRE DEFINITIVE

Veille - recherche enrichissement. Veille sur les technologies et pratiques émergentes Recherche :

Conception des bases de données : Modèle Entité-Association

Manuel d intégration API FTP SMS ALLMYSMS.COM

Algorithmique et langages du Web

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

Market Data Feed. Maîtrisez le flux.

Retour d'expérience avec : OCS Inventory & GLP

Le réseau Internet.

Portail Vocal d Entreprise

(OPINIONS 2.0) Le rapport de restitution (papier et digital) reprend la totalité des réponses avec le classement des occurrences (histogrammes)

Description générale des fonctions actuelles du PBX de PointCA Télécom (modèle PTCA-1280)

Annotations manuelles et automatiques de corpus

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

LE DEPARTEMENT OU L UNITE DES TECHNOLOGIES DE L INFORMATION AU SEIN DU MINISTERE DE L EDUCATION

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Gérer son DNS. Matthieu Herrb. tetaneutral.net. Atelier Tetaneutral.net, 10 février

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

Mise en œuvre des serveurs d application

GUIDE DES RESSOURCES ELECTRONIQUES

Quels fondements, services fonctionnalités et limites de l intranet?

LOGICIEL DE GESTION DE DOCUMENTS PDF : PROJET INFO 1

ECLIPSE ET PDT (Php development tools)

HowTo Installer egroupware 1.2 sur SME Serveur 7.0

CENTRE CLIENTÈLE DE LA POSTE CH AG SERVICES EN LIGNE CREER LES CENTRES DE COUTS

Master Etudes françaises et francophones

FTPS AVEC UNE APPLIANCE FAST360 EN COUPURE. Table des matières

WIFI sécurisé en entreprise (sur un Active Directory 2008)

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...

Services Réseaux - Couche Application. TODARO Cédric

Dans la série Les tutoriels libres présentés par le site FRAMASOFT. <Handbrake> <Utilisation d'handbrake pour les débutants> Par <OLIVIER LECLERCQ>

Manuel d installation de l application Dimona New via SMS

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

JACi400 Développement JACi400 Déploiement

Ce manuel vous accompagne au long des procédures d installation et de restauration de PheBuX 2004 [alternative solutions]

SQL Parser XML Xquery : Approche de détection des injections SQL

Recherche bibliographique

Des conditions d accueil privilégiées au lycée Couperin

RCE/OXO Nouveautés DECEMBRE ici ici ici ici

WordPress : principes et fonctionnement

Problématiques de recherche. Figure Research Agenda for service-oriented computing

SSH, le shell sécurisé

Transcription:

Corpus et outils de requête Séminaire de linguistique expérimentale 2010/2011 Clément Plancq clement.plancq@linguist.jussieu.fr Laboratoire de Linguistique Formelle 01 et 08 avril 2011

Plan 1 Présentation des corpus disponibles 2 Présentation des outils de requête 3 Mise en pratique

Plan 1 Corpus 2 Outils de requête 3 Mise en pratique

FrenchTreebank Corpus arboré pour le français, Anne Abeillé, Paris 7, LLF Français écrit Projet inité en 1997 Annotation annotation morpho-syntaxique (catégorie (POS), sous-catégorie, lemme, informations flexionnelles, mots composés) annotation en constituants annotation en fonctions Source Le Monde (1990, 1992, 1993) Volume 641 107 mots Licence Disponible gratuitement pour une utilisation dans un cadre de recherche ou d enseignement http http://www.llf.cnrs.fr/gens/abeille/ French-Treebank-fr.php

Penn Treebank (1) Corpus arboré pour l anglais, Mitch Marcus, Ann Taylor, University of Pennsylvania (LDC : Treebank-3) Anglais écrit et oral transcrit Projet initié en 1989 Annotation annotation morpho-syntaxique (catégorie (POS), lemme) annotation en constituants annotation en fonctions annotation des disfluences (switchboard)

Penn Treebank (2) Sources Wall Street Journal (1989), POS, parsé Brown Corpus (1961), POS, parsé Une partie de ATIS-3 (1995, Air Travel Information Services, oral spontané), POS, parsé Une partie du corpus Switchboard (1991, 240 heures de conversation spontanée au téléphone, 3 millions de mots), POS, parsé, annotation des disfluences Volume 1 000 000 mots pour WSJ, 1 014 312 mots pour Brown Licence Distribué par LDC, droit d utilisation pour ALPAGE, LLF? http http://www.cis.upenn.edu/~treebank/

ESTER Projet ESTER (Evaluation des systèmes de transcription enrichie d émissions radiophoniques). 2002-2005. Français oral transcrit + données audio Annoté par Guillaume Gravier Annotation annotation morpho-syntaxique (POS, lemme, informations flexionnelles) Sources France Inter, France Info, France Culture, RFI Radio Classique RTM (Radio-Télévision Marocaine) (Emissions diffusées entre le 14/04/2003 et le 23/12/2004) Volume 60 heures d enregistrement, 707 553 mots Licence Distribué par ELRA, droit d utilisation pour LLF http http://catalog.elra.info/product_info.php? products_id=999

Est Républicain Editions régionales et informations générales du quotidien l Est Républicain, Bertrand Gaiffe, CNRTL Français écrit Annoté par ALPAGE Annotation annotation morpho-syntaxique (POS, lemme) Sources EstRépublicain 1999, 2002, 2003 Volume 119 853 799 mots pour la partie annotée Licence Distribué par le CNRTL sous licence Creative Commons, gratuit pour une utilisation dans un cadre de recherche ou d enseignement http http://www.cnrtl.fr/corpus/estrepublicain/

CORALROM Corpus multilingue de parole spontanée pour quatre langues romanes : français, italien, portugais et espagnol Données orales (audio et transcription) Annotation Etiquetage des pauses prosodiques annotation morpho-syntaxique (POS, lemme) Sources Dialogues/conversations ou monologues dans un contexte informel (privé ou public) ou formel (contexte naturel, media, téléphone) Volume 1 200 000 mots (300 000 mots par langue) Licence Distribué par ELRA, droit d utilisation pour LLF http http://catalog.elra.info/product_info.php? products_id=757

Où trouver les corpus? https://minerve.linguist.jussieu.fr/~corpus

Plan 1 Corpus 2 Outils de requête 3 Mise en pratique

Tgrep2 / Tregex Tgrep2 Interrogation des treebanks Recherche de motifs portants sur les noeuds et les relations entre ces noeuds L annotation morpho-syntaxique n est pas prise en compte Contexte d occurrence limité à la phrase MIT, outil en ligne de commande, Unix Très rapide, y compris sur les treebanks volumineux http://tedlab.mit.edu/~dr/tgrep2/ Tregex Stanford, outil avec interface graphique Ecrit en Java, multiplateforme http://www-nlp.stanford.edu/software/tregex.shtml

CWB IMS Corpus Workbench Université de Stuttgart, outils en ligne de commande, Unix Optimisé pour les corpus volumineux (jusqu à 2 milliards de mots) http://cwb.sourceforge.net/ Outils d interrogation de corpus annotés (POS, lemmes). Contextes de recherche et d occurrence paramétrables Utilisation des expressions régulières Calcul de fréquence Listes de mots Langage de macros API

Outils et corpus disponibles Tgrep2/Tregex CWB FrenchTreebank X X PennTreebank X? ESTER X Est Républicain X CORALROM X

Plan 1 Corpus 2 Outils de requête 3 Mise en pratique

Où trouver les outils et les manuels? Les outils sont installés sur le serveur : kolodner.linguist.jussieu.fr Connexion au serveur : $ ssh user@kolodner.linguist.jussieu.fr (Même login et identifiant que pour minerve) Manuels Outils /corpus/tools/*/docs/ sur kolodner ~corpus/tools/*/docs/ sur minerve Tgrep2 Commande $ tgrep2 CWB Commande $ cqp Tregex Installer Tregex à partir de ~corpus/tools/tregex/bin/ Interroger les fichiers du répertoire ~corpus/frenchtreebank/tregex ou ~corpus/ptbiii/parsed/prd/all

Digest CWB Lisez le manuel! Premiers pas $ cqp (option -e activée par défaut) > show corpora > info FT > FT > show cd Requêtes simples forme FT> ".+eurs?" pos FT> [pos = "ADV"] lemme FT> [lemma = "^etre"] combinaison FT> [(word ="est sommes") & (pos!= "V")]

Digest CWB (2) Lisez le manuel! Tri et fréquence FT> [pos = "A"] []{1,2} [pos="n"] FT> sort by word %c FT> count by pos FT> A-N = [pos = "A"] @[]{1,2} [pos="n"] FT> group A-N target word FT> group A-N target lemma Enregistrement des résultats FT> A-N = [pos = "A"] @[]{1,2} [pos="n"] FT> cat A-N > "minerve/a-n.txt"

Digest CWB (3) Lisez le manuel! Définition du contexte de recherche (1) Par défaut la recherche se fait sans prendre en compte les marques de fin de phrase FT> [pos="adv"] [pos="ponct"]? </s> (adverves en fin de phrase) FT> <s> [ee="v--w"] (phrases commençant par un verbe à l infinitif) FT>? (phrases commençant par un verbe à l impératif et se terminant par un adverbe) FT> [(pos="n") & (lemma=".*ité")] []* [(pos="n") & (lemma=".*able")] within s (restriction du contexte de recherche à la phrase)

Digest CWB (4) Lisez le manuel! Définition du contexte de recherche (2) FT> ESTER ESTER> show cd ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] ESTER> set PrintStructures "file radio" ESTER> cat A-N ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] :: match.file radio = "CLASSIQUE" ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] :: match.file radio!= "RTM ELDA"

Digest tgrep2 / tregex (1) Les corpus disponibles FrenchTreebank FT-constit 21 564 phrases FT-fonctions 13 971 phrases Penn Treebank atis3 577 phrases brown 48 708 phrases swdb 67 300 phrases wsj 104 288 phrases

Digest tgrep2 / tregex (2) Lisez le manuel! $ tgrep2 -c /corpus/frenchtreebank/tgrep2/ft-constit.t2c "PP < NP" Options : -h affiche l aide -l affiche le résultat sous forme d arbre -t n affiche que les terminaux -w affiche toute la phrase plutôt que le sous-arbre résultat -v recherche inverse Requêtes simples PP < NP PP < NP << COORD PP < NP << COORD < AP PP < (NP << COORD) < AP AP < (ADV. fort) Opérateurs booléens négation PP!< NP et PP < (NP $ COORD & $ AP) ou PP < NP << COORD << AP