Corpus et outils de requête Séminaire de linguistique expérimentale 2010/2011 Clément Plancq clement.plancq@linguist.jussieu.fr Laboratoire de Linguistique Formelle 01 et 08 avril 2011
Plan 1 Présentation des corpus disponibles 2 Présentation des outils de requête 3 Mise en pratique
Plan 1 Corpus 2 Outils de requête 3 Mise en pratique
FrenchTreebank Corpus arboré pour le français, Anne Abeillé, Paris 7, LLF Français écrit Projet inité en 1997 Annotation annotation morpho-syntaxique (catégorie (POS), sous-catégorie, lemme, informations flexionnelles, mots composés) annotation en constituants annotation en fonctions Source Le Monde (1990, 1992, 1993) Volume 641 107 mots Licence Disponible gratuitement pour une utilisation dans un cadre de recherche ou d enseignement http http://www.llf.cnrs.fr/gens/abeille/ French-Treebank-fr.php
Penn Treebank (1) Corpus arboré pour l anglais, Mitch Marcus, Ann Taylor, University of Pennsylvania (LDC : Treebank-3) Anglais écrit et oral transcrit Projet initié en 1989 Annotation annotation morpho-syntaxique (catégorie (POS), lemme) annotation en constituants annotation en fonctions annotation des disfluences (switchboard)
Penn Treebank (2) Sources Wall Street Journal (1989), POS, parsé Brown Corpus (1961), POS, parsé Une partie de ATIS-3 (1995, Air Travel Information Services, oral spontané), POS, parsé Une partie du corpus Switchboard (1991, 240 heures de conversation spontanée au téléphone, 3 millions de mots), POS, parsé, annotation des disfluences Volume 1 000 000 mots pour WSJ, 1 014 312 mots pour Brown Licence Distribué par LDC, droit d utilisation pour ALPAGE, LLF? http http://www.cis.upenn.edu/~treebank/
ESTER Projet ESTER (Evaluation des systèmes de transcription enrichie d émissions radiophoniques). 2002-2005. Français oral transcrit + données audio Annoté par Guillaume Gravier Annotation annotation morpho-syntaxique (POS, lemme, informations flexionnelles) Sources France Inter, France Info, France Culture, RFI Radio Classique RTM (Radio-Télévision Marocaine) (Emissions diffusées entre le 14/04/2003 et le 23/12/2004) Volume 60 heures d enregistrement, 707 553 mots Licence Distribué par ELRA, droit d utilisation pour LLF http http://catalog.elra.info/product_info.php? products_id=999
Est Républicain Editions régionales et informations générales du quotidien l Est Républicain, Bertrand Gaiffe, CNRTL Français écrit Annoté par ALPAGE Annotation annotation morpho-syntaxique (POS, lemme) Sources EstRépublicain 1999, 2002, 2003 Volume 119 853 799 mots pour la partie annotée Licence Distribué par le CNRTL sous licence Creative Commons, gratuit pour une utilisation dans un cadre de recherche ou d enseignement http http://www.cnrtl.fr/corpus/estrepublicain/
CORALROM Corpus multilingue de parole spontanée pour quatre langues romanes : français, italien, portugais et espagnol Données orales (audio et transcription) Annotation Etiquetage des pauses prosodiques annotation morpho-syntaxique (POS, lemme) Sources Dialogues/conversations ou monologues dans un contexte informel (privé ou public) ou formel (contexte naturel, media, téléphone) Volume 1 200 000 mots (300 000 mots par langue) Licence Distribué par ELRA, droit d utilisation pour LLF http http://catalog.elra.info/product_info.php? products_id=757
Où trouver les corpus? https://minerve.linguist.jussieu.fr/~corpus
Plan 1 Corpus 2 Outils de requête 3 Mise en pratique
Tgrep2 / Tregex Tgrep2 Interrogation des treebanks Recherche de motifs portants sur les noeuds et les relations entre ces noeuds L annotation morpho-syntaxique n est pas prise en compte Contexte d occurrence limité à la phrase MIT, outil en ligne de commande, Unix Très rapide, y compris sur les treebanks volumineux http://tedlab.mit.edu/~dr/tgrep2/ Tregex Stanford, outil avec interface graphique Ecrit en Java, multiplateforme http://www-nlp.stanford.edu/software/tregex.shtml
CWB IMS Corpus Workbench Université de Stuttgart, outils en ligne de commande, Unix Optimisé pour les corpus volumineux (jusqu à 2 milliards de mots) http://cwb.sourceforge.net/ Outils d interrogation de corpus annotés (POS, lemmes). Contextes de recherche et d occurrence paramétrables Utilisation des expressions régulières Calcul de fréquence Listes de mots Langage de macros API
Outils et corpus disponibles Tgrep2/Tregex CWB FrenchTreebank X X PennTreebank X? ESTER X Est Républicain X CORALROM X
Plan 1 Corpus 2 Outils de requête 3 Mise en pratique
Où trouver les outils et les manuels? Les outils sont installés sur le serveur : kolodner.linguist.jussieu.fr Connexion au serveur : $ ssh user@kolodner.linguist.jussieu.fr (Même login et identifiant que pour minerve) Manuels Outils /corpus/tools/*/docs/ sur kolodner ~corpus/tools/*/docs/ sur minerve Tgrep2 Commande $ tgrep2 CWB Commande $ cqp Tregex Installer Tregex à partir de ~corpus/tools/tregex/bin/ Interroger les fichiers du répertoire ~corpus/frenchtreebank/tregex ou ~corpus/ptbiii/parsed/prd/all
Digest CWB Lisez le manuel! Premiers pas $ cqp (option -e activée par défaut) > show corpora > info FT > FT > show cd Requêtes simples forme FT> ".+eurs?" pos FT> [pos = "ADV"] lemme FT> [lemma = "^etre"] combinaison FT> [(word ="est sommes") & (pos!= "V")]
Digest CWB (2) Lisez le manuel! Tri et fréquence FT> [pos = "A"] []{1,2} [pos="n"] FT> sort by word %c FT> count by pos FT> A-N = [pos = "A"] @[]{1,2} [pos="n"] FT> group A-N target word FT> group A-N target lemma Enregistrement des résultats FT> A-N = [pos = "A"] @[]{1,2} [pos="n"] FT> cat A-N > "minerve/a-n.txt"
Digest CWB (3) Lisez le manuel! Définition du contexte de recherche (1) Par défaut la recherche se fait sans prendre en compte les marques de fin de phrase FT> [pos="adv"] [pos="ponct"]? </s> (adverves en fin de phrase) FT> <s> [ee="v--w"] (phrases commençant par un verbe à l infinitif) FT>? (phrases commençant par un verbe à l impératif et se terminant par un adverbe) FT> [(pos="n") & (lemma=".*ité")] []* [(pos="n") & (lemma=".*able")] within s (restriction du contexte de recherche à la phrase)
Digest CWB (4) Lisez le manuel! Définition du contexte de recherche (2) FT> ESTER ESTER> show cd ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] ESTER> set PrintStructures "file radio" ESTER> cat A-N ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] :: match.file radio = "CLASSIQUE" ESTER> A-N = [pos = "ADJ.*"] @[]{1,2} [pos="nom.*"] :: match.file radio!= "RTM ELDA"
Digest tgrep2 / tregex (1) Les corpus disponibles FrenchTreebank FT-constit 21 564 phrases FT-fonctions 13 971 phrases Penn Treebank atis3 577 phrases brown 48 708 phrases swdb 67 300 phrases wsj 104 288 phrases
Digest tgrep2 / tregex (2) Lisez le manuel! $ tgrep2 -c /corpus/frenchtreebank/tgrep2/ft-constit.t2c "PP < NP" Options : -h affiche l aide -l affiche le résultat sous forme d arbre -t n affiche que les terminaux -w affiche toute la phrase plutôt que le sous-arbre résultat -v recherche inverse Requêtes simples PP < NP PP < NP << COORD PP < NP << COORD < AP PP < (NP << COORD) < AP AP < (ADV. fort) Opérateurs booléens négation PP!< NP et PP < (NP $ COORD & $ AP) ou PP < NP << COORD << AP