Données linguistiques et corpus Juliette Thuilier Université Paris Sorbonne & Laboratoire Alpage (INRIA & Paris Diderot) juliette.thuilier@paris-sorbonne.fr Université Paris Sorbonne 14 février 2013 Master 1, semestre 2 Année 2012-2013
Le cours d aujourd hui 1 L utilisation de méthodes expérimentales La conjugaison irrégulière 2 Les expressions régulières Un outil d exploration de textes J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 2 / 26
1 Méthodes expérimentales 2 Les expressions régulières
Méthodes expérimentales : l exemple de la conjugaison irrégulière Bonami et al. (2008) «Quels verbes sont réguliers en français?» La conjugaison en anglais 5 formes pour un verbe love, loved, loved, loves, loving Focus sur : base, prétérit, participe passé Deux règles : 1 prétérit = base + ed 2 participe passé = prétérit Ce patron unique rend compte de la grande majorité des lexèmes existants est adopté pour presque tous les nouveaux lexèmes est la cible des changements historiques Un verbe irrégulier est un verbe qui ne respecte pas les deux règles ci-dessus. Régulier simple : cut, cut, cut est irrégulier. Régulier distinctif : sink, sank, sunk est irrégulier. J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 4 / 26
Qu est-ce que l irrégularité? Deux possibilités : 1 Régulier = le plus représenté. Le patron base, base+ed, base+ed est effectivement le plus représenté en anglais. 2 Régulier = être capable de conjuguer un verbe sans avoir besoin de l apprendre par cœur. Un verbe irrégulier doit être appris par cœur. Chaque option paraît pertinente. Peut-on les départager? J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 5 / 26
Qu est-ce que l irrégularité? (2) Manifestations psycholinguistiques de la division régulier / irrégulier en anglais Les enfants traitent les irréguliers comme réguliers : drink, drinked, drinked Les apprenants étrangers également Les locuteurs natifs commettent occasionnellement des erreurs Les néologismes sont réguliers : text, texted, texted Les emprunts tendent à être réguliers : sauté, sautéed, sautéed Les verbes dérivés d irréguliers sont parfois réguliers : broadcast, broadcasted, broadcasted J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 6 / 26
Pour le français? 51 formes pour un verbe (contre 5 en anglais) Question plus complexe : ex. un verbe peut être régulier sur une sous-partie du paradigme Traditionnellement, on distingue 3 groupes Groupe 1 infinitif en er et radical unique au présent indicatif Groupe 2 infinitif en ir et 2 radicaux au présent (i, iss) Groupe 3 Absence des traits caractéristiques des 2 premiers groupes J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 7 / 26
Deuxième groupe J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 8 / 26
Troisième groupe (un exemple) J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 9 / 26
Les trois groupes et la distinction régulier/irrégulier La notion d irrégulier n est pas dans les grammaires traditionnelles Groupe 1 : clairement une classe régulière classe la plus représentée : 90% des verbes du lexique classe productive : attractive pour les verbes nouveaux et les verbes existants (mouvement diachronique va presque toujours des groupes 2 et 3 vers le 1) Groupe 3 : clairement une classe irrégulière classe non-homogène : ne constitue pas une véritable classe flexionnelle pas de patron de conjugaison, mais une collection de 61 patrons différents Groupe 2 : cas intéressant, régulier ou irrégulier? 335 lexèmes (5806 pour le G1 et 58 pour le patron le plus représenté du G3) Pas aussi productif que le G1 (seulement trois nouveaux lexèmes entrés au XXème siècle, dans les dictionnaires) Le deuxième groupe est aussi simple que le premier groupe et le plus fréquent après le premier. Donc 2 possibilités d analyse : 1 Premier groupe régulier, le reste irrégulier 2 Premier et deuxième groupes réguliers, troisième irrégulier J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 10 / 26
Relation régularité/fréquence Trois alternatives 1 La régularité est distincte de la fréquence, et seul le premier groupe est régulier. les locuteurs ne savent conjuguer intuitivement que les verbes du premier groupe. 2 La régularité est distincte de la fréquence, et les premier et deuxième groupes sont réguliers. les locuteurs savent conjuguer intuitivement les verbes des premiers et deuxième groupes. 3 La régularité est la manifestation directe de la fréquence. il y a un gradient de facilité à conjuguer les verbes des premier, deuxième et troisième groupe. J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 11 / 26
Comment trancher? Enregistrer enfants, apprenants, adultes compétents : très très fastidieux pour obtenir suffisamment de données. Examiner les lexèmes nouveaux : les facteurs mis en cause dans la lexicalisation de lexèmes sont complexes. Faire appel à l expérimentation psycholinguistique : l idée est de tester si le patron de conjugaison du groupe 2 est vivant dans la grammaire des locuteurs Pour cela, on peut utilisez le wug-test : Créer de toutes pièces un nouveau verbe (un logatome). Soumettre ces verbes aux locuteurs pour qu ils les conjuguent. Un bon logatome : sonne français, cf. shmurdzer n est pas proche d un item existant, cf. boulanger. Quelles formes tester? Si on part de l infinitif, il est facile de conjuguer le présent : bruglir je bruglis / brugler je brugle L inverse est plus intéressant : je bruglis bruglier ou brugler? J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 12 / 26
Le protocole expérimental de Bonami et al. (2008) Forme du logatome soumise aux sujets : deuxième personne du pluriel à l indicatif présent (ex. vous calissez) 60 pseudo-mots, répartis en 2 classes : ceux qui finissent en issez et ceux qui finissent en ez Les sujets voient sur un écran d ordinateur la forme 2PL et un infinitif possible vous calissez calir (1) a. vous calissez calir/calisser b. vous combrez combrer/combrir/combroir Tâche : décider en moins de 4 secondes s ils acceptent la forme proposée comme la forme infinitive du verbe Chaque pseudo-verbe apparaît avec un seul infinitif (il n est présenté qu une fois à chaque sujet) J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 13 / 26
Résultats Résultats Analyse des réponses (quels infinitifs ont été acceptés?) et du temps de réaction (en combien de temps le sujet a répondu?) Pour les formes en ez, les sujets étaient significativement plus rapide pour accepter un infinitif de groupe 1 qu un infinitif autre Pour les formes en issez, les sujets étaient aussi rapide pour associer les pseudo-verbes aux infinitifs du groupe 1 ou 2 Cette expérience ne met pas en lumière de contraste entre les verbes du premier et du deuxième groupe Conclusions En français, il y a 2 patrons de conjugaison d appliquant à un nombre élevé de lexèmes L expérience apporte des arguments pour dire que le groupe 2 doit être considéré comme régulier Si tel est le cas, la productivité et la fréquence doivent être distinguées de la régularité J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 14 / 26
Quels problèmes? Quelle est la tâche exactement demandée aux sujets? Conjuguer le verbe comme s il était nouveau, inexistant? Conjuguer le verbe comme s il était déjà dans le dictionnaire? Problème de l honnêteté vis-à-vis des sujets : il est préférable qu ils ne soient pas au courant du but de l expérience. Identification de la tâche : des items de contrôle sont nécessaires pour vérifier que les sujets effectuent bien la tâche qui est attendue de leur part. J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 15 / 26
Bilan Pour certains problèmes une expérimentation psycholinguistique semble être le seul moyen d accéder aux données pertinentes. Néanmoins, c est un travail lent et complexe, notamment du fait du grand nombre de paramètres qui rentrent en jeu. La question de la nature de la régularité est loin d être réglée : En anglais très nombreuses études, mais pas de conclusions définitives possibles Sur le français et les autres langues à conjugaison complexe il n existe que très peu d études. J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 16 / 26
1 Méthodes expérimentales 2 Les expressions régulières
Les expressions régulières Outil permettant de caractériser un langage du point de vue formel, càd comme un ensemble d éléments obéissant à certaines contraintes de forme Peuvent être utilisées comme un outil de recherche dans un document texte Permettent de chercher une séquence de caractères qui correspond à un motif (pattern) (et non pas simplement une séquence de lettres) Comment ça marche? Caractères non-spéciaux Caractères spéciaux J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 18 / 26
Caractères spéciaux et non-spéciaux Caractères non-spéciaux ou «littéraux» : les caractères n ayant pas une utilisation spéciale peuvent former un motif Attention aux majuscules Ex. : le motif expression reconnaît le chaîne de caractères expression (mais pas Expression) 12 caractères spéciaux ou métacaractères : 1. (point) 2? (point d interrogation) 3 * (étoile) 4 + (signe plus) 5 [ (crochet ouvrant) 6 ] (crochet fermant) 7 (barre verticale) 8 ( (parenthèse ouvrante) 9 ) (parenthèse fermante) 10 $ (signe dollar) 11 ˆ (caret) 12 \ (antislash) J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 19 / 26
Caractères spéciaux. remplace n importe quel caractère ex. ra.ons : ratons, rasons, rayons... Caractères de répétition * : zéro, une ou plusieurs fois le caractère qui précède ab* : a, ab, abb, abbb... livre.* :livre, livres, livreur... + : une ou plusieurs fois le caractère qui précède livre.+ :livres, livreur, livreurs....+ger :manger, loger, danger...? : rend le caractère précédent optionnel ab? :ab, a livres? : livres, livre J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 20 / 26
Caractères spéciaux Ensemble de caractères [ ] spécifie un ensemble de caractères ra[ty]ons : ratons, rayons [a-z] spécifie la plage de caractères allant de aàz ra[a-z]ons : ratons, rayons, ramons, rasons... [ˆ] spécifie le complément d un ensemble de caractères ra[ˆty]ons = ramons, rasons Disjonction marque une disjonction cent(er re) :center, centre Début et fin de chaîne de caractères ˆ = début : (ˆ[A-Z] $ = fin :[.?!]$ Caractère d échappement \ suivi d un caractère spécial permet de chercher un caractère spécial \+ :+ J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 21 / 26
Quelques raccourcis pour des classes de caractères Caractère numérique : \d = [0-9] Caractère alphanumérique et underscore : \w = [A-Za-z0-9_] Caractère non alphanumérique et pas l underscore : \W = [ˆA-Za-z0-9_] Caractère d espacement : \s =[\t\n] Frontière de mots : \b (= espace, début ou fin de chaîne de caractères...) J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 22 / 26
Avec quels outils utiliser les expressions régulières Word (option : utilisez les caractères génériques) et OpenOffice (option : Expressions régulières) Editeurs de texte tels que emacs, notepad, vi...) Langages de programmation accessibles : python, perl... J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 23 / 26
Exercice - Comprendre un motif Donnez 3 chaînes de caractères qui correspondent aux expressions régulières suivantes. 1 \bin.*able\b 2 20+9 3 ˆBla(bla)*$ 4 ˆ0[1-68][0-9]{8} 5 ˆ0[1-68]([-. ]?[0-9]2){4}$ 6 \b[a-zéèàùîûêô]*(e è)(l t)+e\b J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 24 / 26
Exercice - Écrire un motif Nous allons utiliser l outil en ligne gskinner http://gskinner.com/regexr/?33o2b Extrait d un reportage radiophonique (C-ORAL-ROM) Rechercher dans cet extrait : 1 le nombre d occurrences du mot Eleanore 2 les occurrences du mot fameux au masculin et au féminin 3 tous les pronoms personnels sujet de troisième personne 4 tous les mots finissant par ique ou oque (singulier ou pluriel) 5 les séquences constituées de le ou la suivi d un mot au singulier Trouver une expression régulière qui reconnaisse les adresses e-mail bien formées. La tester ensuite sur des exemples comme : bob@truc.fr bon.jack@test.co.uk the_cypher@hotmail.com bob_jack@free4work.us mega-bob.le-retour@super-site.fr * bon@site * bob.mail.fr * bob@mail@domain.com * bob@.site.fr J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 25 / 26
Remplacer Les expressions régulières permettent également de remplacer une chaîne de caractères par une autre Ex. remplacer toutes les conjugaisons de première personne du pluriel par la deuxième personne du pluriel 1 Comment capturer ces éléments? Terminaisons en ons : \b\s+ons\b 2 Qu est-ce que l on remplace? conserve? $1 réfère au groupe de caractères n o 1, marqué par des parenthèses dans le motif Recherche : \b(\s+)ons\b Remplacement : $1ez Mais, problème : mangeons mangeez Une solution : Recherche : \b(\s+[ˆe])e?ons\b Remplacement : $1ez J. Thuilier (Univ. Paris Sorbonne) Données et corpus 14-02-2013 26 / 26