Linguistique de Corpus. Elisabeth DELAIS-ROUSSARIE

Documents pareils
eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Qu est-ce qu un emprunt linguistique?

N SIMON Anne-Catherine

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Livret personnel de compétences

Avertissement Introduction Première partie À la recherche des clefs sous L Ancien Régime

UE11 Phonétique appliquée

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

PLAN D ÉTUDES. école fondamentale

Avant de parler de projet commun, il est important de rappeler ce qu est un projet à travers quelques indicateurs :

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Projet de programme pour le cycle 3

Joëlle Bolot, Stéphane Cipriani.

1. Qu est-ce que la conscience phonologique?

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

LE PROGRAMME DES CLASSES DE BACCALAURÉAT PROFESSIONNEL EN FRANÇAIS

Document d aide au suivi scolaire

Atelier rédactionnel

Spécialité auxiliaire en prothèse dentaire du brevet d études professionnelles. ANNEXE IIb DEFINITION DES EPREUVES

Et si vous faisiez relire et corriger vos textes par un professionnel?

École de maturité. Répartition horaire des disciplines, plan d études et liste des examens écrits et oraux pour l année scolaire

Proposition de séquence collège/lycée. Niveau A2 A2+

Qu est-ce qu une problématique?

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

MASTER LPL : LANGUE ET INFORMATIQUE (P)

L ORAL OBJET OU MOYEN D APPRENTISSAGE?

Compte-rendu de Hamma B., La préposition en français

Tableau mettant en relation les niveaux du CECRL et les programmes IFALPES par compétences.

Institut des Humanités de Paris. «Réinventer les Humanités» Compte-rendu du séminaire du Vendredi 23 mars 2012

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Disciplines. Ecoles - facultés - titres délivrés. UNIL - Faculté des lettres. Maîtrise universitaire ès Lettres

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Tâche complexe produite par l académie de Clermont-Ferrand. Mai 2012 LE TIR A L ARC. (d après une idée du collège des Portes du Midi de Maurs)

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Quels sont les indices observés chez les enfants présentant un trouble de traitement auditif?

Eléments pour l animation l réunion du 16 Septembre v0.4 du 13 Septembre 2010

Ecrire, un défi pour l'école?

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Préparer la formation

Le modèle standard, SPE (1/8)

Principles Impératif Juillet Les principes de gestion et de «leadership» chez Nestlé

Préparation d une maturité avec mention bilingue français-allemand ou français-anglais

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Evaluation de la mise en œuvre des formations CRM & FH

Intégrer la traduction/interprétation à l Université Saint-Louis Bruxelles : difficultés, appréhensions et contraintes

EOLE TRADING INTEGRALE

I/ CONSEILS PRATIQUES

Différencier, d accord oui mais comment organiser sa classe.

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

MASTER 1 MANAGEMENT PUBLIC ENVIRONNEMENTAL CONTENU DES ENSEIGNEMENTS

1. Productions orales en continu après travail individuel

Travail en groupe Apprendre la coopération

Portail Vocal d Entreprise

3-La théorie de Vygotsky Lev S. VYGOTSKY ( )

Le Focus Group. - Bases de données, personnes ayant déjà participé à des expériences et acceptant de participer à des études ultérieures.

APPEL A LA RECONNAISSANCE DU PATRIMOINE CULTUREL IMMATÉRIEL EN BRETAGNE

LA PRODUCTION ÉCRITE SEPTIÈME ANNÉE

Interférences lexicales entre deux langues étrangères: anglais et français

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

DELIBERATION DU CONSEIL REGIONAL

Licences et Masters à l Université de Toulouse II-Le Mirail

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

S'intégrer à l'école maternelle: indicateurs affectifs et linguistiques pour des enfants allophones en classe ordinaire

RESSOURCES POUR FAIRE LA CLASSE. le langage À

Une école au Togo, épisode 1/4

Tâche finale : communiquer avec un locuteur natif par webconference lors d activités menées en classe par petits groupes. Niveau : Cycle 3 CM1 /CM2

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

Projet de programme pour le cycle 2

CAHIER DE TEXTE TECHNOLOGIE 6

En face du commanditaire, on met un chef de projet qui connait le domaine (banque, administration, etc.)

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

SÉMINAIRE CONCLUSIONS

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

«Changer de point de vue sur l informatique de santé» nationale à destination des professionnels de santé

INTRODUCTION. Une analyse de l entame conversationnelle de communications orales et écrites 1. 1 Bibliographie 23

Le conseil d enfants La démocratie représentative à l école

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

CORRIGES Plan de la séance

P R E S E N T A T I O N E T E V A L U A T I O N P R O G R A M M E D E P R E V E N T I O N «P A R L E R»

C R É D I T A G R I C O L E A S S U R A N C E S. Des attitudes des Européens face aux risques

Programme Pédagogique National du DUT «Gestion administrative et commerciale» Présentation de la formation

GRANDES ÉCOLES DE MANAGEMENT

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

L ESCALIER UNE ACTIVITÉ SUR LES MULTIPLES ET DIVISEURS EN FIN DE PRIMAIRE EN SUISSE ROMANDE

Présentation Cette bi-licence combine les exigences et les objectifs des deux licences disciplinaires :

L ACCOMPAGNEMENT PERSONNALISE AU LYCEE PICASSO DE PERPIGNAN (Document de travail)

Transcription:

Linguistique de Corpus Elisabeth DELAIS-ROUSSARIE elisabeth.roussarie@wanadoo.fr 1!"

Objectifs du cours L objectif de ce cours est triple :!! Expliquer ce qu est un corpus, en opérant une distinction entre le corpus en linguistique et la linguistique de corpus;!! Apprendre à constituer et à utiliser un corpus : les outils, les standards, etc!! Etablir les faits en linguistique et les corpus 2

Evaluation!! Un ou deux travaux à effectuer en groupe (nombre sera fixé très rapidement)!! Un devoir sur table (dont la date précise est encore à déterminer) 3

Planning des séances (1) Nous aurons huit séances de trois heures réparties comme suit : Séance 1 : vendredi 17 sept. Séance 5 : vendredi 5 nov. Séance 2 : vendredi 1 oct. Séance 6 : vendredi 19 nov. Séance 3 : vendredi 15 oct Séance 7 : vendredi 3 déc. (??) Séance 4 : vendredi 29 oct. Séance 8 : vendredi 17 déc. (??). 4

Planning des séances (2)!! Les dates de décembre restent à confirmer.!! Il se peut que le devoir sur table soit fait pendant la semaine d examen, donc après les vacances de Noël. La 8 ème séance serait donc remplacée par la séance d examen. Dans tous les cas, je vous préviendrai par email. De même, le cours a normalement lieu en salle 065E (Halle aux farines), mais certaines séances pourront peut-être avoir lieu en salle informatique. 5

Quelques questions d après les objectifs L un des objectifs majeurs de la linguistique de corpus, et par voie de conséquence du cours, est d appréhender une approche en linguistique qui a recours (ou utilise) le corpus pour établir les faits linguistiques.!! Qu est-ce que la linguistique? Quelles sont ces objectifs?!! Qu est-ce qu un fait linguistique?!! Comment établit-on les faits linguistiques!! Qu est-ce qu un corpus? 6

Qu est-ce que la linguistique? (1) La linguistique moderne présentée dans ce cours s est développée au début du XXème siècle, à partir des travaux de Ferdinand de Saussure (1857-1913). Cette approche nouvelle pour analyser le langage humain n est pas née de rien : de tous temps, le langage humain et les langues ont été étudiés. Si nous tentons de faire une histoire des théories du langage humain, nous pouvons distinguer plusieurs périodes avant l apparition de la linguistique moderne : 7

Qu est-ce que la linguistique? (2)!! L Antiquité Grecque : Dans la culture occidentale, la réflexion sur le langage est fortement marquée par la civilisation grecque classique. Plusieurs approches ou points de vue pour analyser le langage et les langues datent de cette période:!! La rhétorique où le langage est vu comme un moyen d agir sur autrui;!! La logique (en particulier avec le langage) : cette réflexion philosophique tente d articuler langage et vérité, de s interroger sur les liens entre le monde réel et le langage (le rapport entre les objets du monde réel et les mots qui les désignent est-il arbitraire ou non, etc.) ;!! La grammaire : La première grammaire systématique de la culture occidentale est écrite par Denys de Thrace (-170 à -90). Il distingue les différentes parties du discours (Nom, article, adverbe, verbe, préposition, conjonction, etc.) et présente de façon systématique le fonctionnement de la langue grecque classique (déclinaison, conjugaison, etc.). 8

Qu est-ce que la linguistique? (3)!! De l Antiquité au XVIIème siècle : Durant cette période, le Grec et le Latin sont considérés comme des modèles. Toute réflexion sur le langage et toute étude sur des langues particulières (même les langues vernaculaires : français, italien, etc.) se font selon les schémas hérités des grammairiens antiques. H. Etienne, par exemple, étudie en 1569 le français dans un ouvrage dont le titre est très éloquent, Traité de la conformité du langage français avec le grec. 9

Qu est-ce que la linguistique? (4)!! Le XVIIème et XVIIIème siècle : Durant cette période, les réflexions sur le langage et les langues se font dans une des perspectives suivantes :!! La notion du bel usage ou bon usage : Vaugelas publia en 1647 les Remarques sur la langue française, où il érige en norme les usages de la langue française faits à la Cour. L étude de la langue a pour but d imposer une norme.!! La grammaire et les rapports entre langue et pensée : L ouvrage qui marque ce courant et cette période est la Grammaire dite de Port-Royal, écrite en 1660 par Arnauld et Lancelot. Dans cet ouvrage, l étude des formes grammaticales se fait selon deux ordres :!! La description grammaticale du français : Dans une partie de l ouvrage, les auteurs donnent une description du français.!! Le caractère universel du langage : Dans leur volonté de logiciser le langage, les auteurs essaient de montrer comment le fonctionnement du langage en général est en rapport étroit avec la logique de la pensée humaine. 10

Qu est-ce que la linguistique? (5) Le XIXème siècle : Comparatisme et Linguistique historique : Durant cette période, la réflexion sur le langage est fortement influencée par la découverte du Sanskrit. Les chercheurs se consacrent principalement à l évolution des langues dans le temps.!! Le comparatisme : Avec la découverte du Sanskrit, certains auteurs mènent des recherches dont le but est de montrer que des ressemblances importantes existent entre le Sanskrit et d autres langues telles que le Latin, le Grec, le Persan, le Celtique, le Germanique, etc.!! Romantisme et modèle biologique : La langue devient un objet d étude dans cette perspective nationaliste et historique: elle est considérée comme un organisme en évolution constante, marquée par l histoire.!! La linguistique historique : Durant la seconde moitié du XIXème siècle, la phonétique connaît de grandes transformations et devient une science expérimentale. Ces progrès ont une influence importante sur la grammaire comparée: l évolution historique d une langue est analysée principalement dans une perspective phonétique. Cette nouvelle approche va permettre de définir des lois phonétiques fondamentales et d avoir une analyse plus fine des changements phonétiques dans le temps.

Qu est-ce que la linguistique? (6) La linguistique est une science récente qui a pour but d étudier le langage humain, à partir de l étude des multiples langues naturelles. Cette définition étant donnée, la distinction entre langue langage doit être faite :!! le langage est la faculté humaine qui permet de communiquer.!! la langue : la langue est la composante sociale du langage qui s impose à l individu. Elle est un système de signes et de règles reconnu par les membres de la communauté. et

Qu est-ce que la linguistique? (7) Pour «!étudier les propriétés du langage humain à partir de l étude des diverses langues!», la linguistique s est définie une méthode qui s articule selon trois axes :!! La linguistique est une science descriptive : La description a pour but de comprendre le fonctionnement de la langue et du langage humain en général. Cela s oppose donc à la grammaire traditionnelle que Saussure caractérise comme normative. Alors que le grammairien dicte des lois, le linguiste décrit et cherche à comprendre. 13

Qu est-ce que la linguistique? (8)!! La linguistique reconnaît la primauté de l oral sur l écrit : La linguistique ayant pour objet la langue vivante et parlée par une communauté, elle doit s appuyer sur les données les plus immédiates, c est à dire les données orales. Cette prise de position s explique par le fait que:!! la parole ou l oral est premier;!! les systèmes d écriture sont une façon de coder la langue orale. 14

Qu est-ce que la linguistique? (9)!! La linguistique privilégie l approche synchronique : La synchronie désigne un état de langue, la diachronie une évolution dans le temps. Dans une perspective synchronique, le fonctionnement de la langue est étudié à un moment donné, indépendamment de ce qui a pu se passer avant; en revanche, dans une perspective diachronique, la langue est étudiée dans son évolution en tenant compte de l effet du temps sur elle. En accordant la primauté au point de vue synchronique, Saussure, et la linguistique structurale, ont montré une volonté de rompre avec la tradition linguistique 15

Qu est-ce qu un fait linguistique? (1) La description des faits linguistique passe par quelques mises au point?!! L opposition langue / parole?!! Les niveaux d analyse et de description de la linguistique.!! Les domaines de la linguistique 16

Qu est-ce qu un fait linguistique? (2)!! Soit l énoncé!! Éléments sonores!! Caractéristiques de la voix!! Segments!! Prosodie Je viendrai demain Leur étude relève de la phonologie et de la phonétique, qui sont liés à l opposition langue / parole. 17

Qu est-ce qu un fait linguistique? (3) Je viendrai demain!! Éléments lexicaux!! je!! Viendrai (venir) LEXIQUE MORPHOLOGIE SYNTAXE SEMANTIQUE Possibilité d élargir vers la pragmatique. 18

Comment établir les faits en linguistique (1)!! L étude des faits linguistiques passe par la collecte de données.!! Les données peuvent être collectées de différentes façons chacune pouvant être déterminée en fonction de l objectif visé. 19

Comment établir les faits en linguistique (2) Deux méthodes distinctes pour décider quels sont les faits:!! Utiliser un corpus : On collecte un grand nombre d!énoncés produits par des locuteurs natifs du français; un corpus. On examine ce qui a été dit pour en déduire ce qui peut se dire.!! Utiliser les jugements de grammaticalité : Les locuteurs d!une langue ont une connaissance du système de leur langue qui leur permet de comprendre des énoncés et d!en produire d!autres. On utilise cette connaissance en demandant explicitement à des locuteurs de juger si certaines choses peuvent se dire ou non. C!est le jugement de grammaticalité. On examine les jugements conscients des locuteurs pour connaître leur compétence inconsciente. 20

Comment établir les faits en linguistique (3) Il y a au moins quatre phénomènes qui rendent difficile la collecte des faits linguistiques:!! La variation: tout le monde ne parle pas tout le temps de la même façon!! L!influence des variétés prestigieuses: il y a des manières de parler/d!écrire qui sont mieux vues que d!autres!! L!influence de la grammaire prescriptive: on nous a appris qu il y a des choses qu!il ne faut pas dire, même si les gens les disent en réalité.!! Le culte du bon auteur: l!idée que la littérature (de qualité) est la meilleure (voire la seule) source pour savoir ce qui est français ou pas. 21

Comment établir les faits? (4)!! La variation Exemple en syntaxe : emploi des prépositions de lieu (1) a. Je suis allé chez Marie. [Paris] b. Je suis allé à chez Marie. [Auvergne] (2) a. La mer monte jusqu à la route. [Paris] b. La mer monte jusque la route. [Bretagne] 22

Comment établir les faits? (5)!! L influence des variétés prestigieuses (1) a. Paul ne viendra pas. b. Paul viendra pas. (2) a. Ne m en donne pas. b. M en donne pas. (3) a. Donne m en. b. Donnes-en moi c. Donne m en pas. d. Donnes-en moi pas. e. Donne moi z en pas. 23

Comment établir les faits? (6)!! L influence des grammaires prescriptives : Les grammaires traditionnelles fourmillent d!injonctions de la forme: «Ne dites pas X, dites Y». Exemples : (1)! a. Ne dites pas «aller au coiffeur», dites «aller chez le coiffeur». (2)! b. Ne dites pas «aller en vélo», dites «aller à vélo». (3)! c. Ne dites pas «après que je sois parti», dites «après que je suis parti». Caractère commun de tous ces exemples: ils sont la marque de choses qui se disent effectivement. L!interdiction coïncide parfois avec une variation socialement 24 déterminée; parfois, elle ne correspond à rien de réel.

Comment établir les faits (7)!! De même qu avec les corpus, les jugements ne font pas sans poser de problème :!! Rien ne prouve que la connaissance inconsciente qu!ont les locuteurs de leur langue puisse être mobilisée consciemment. De fait, les individus non-entraînés ont bien du mal à produire des jugements de grammaticalité.!! Soit on demande leurs jugements à des linguistes. Mais alors, comment être sûrs qu!ils ne sont pas influencés par leurs préconceptions théoriques?!! Soit on entraîne des non-spécialistes. Mais comment être sûrs qu!on ne fausse pas leur jugement en les entraînant? 25

Comment établir les faits? (8)!! On voit que la collecte des faits linguistiques ne va pas de soi. Le collectionneur est confronté à de nombreux phénomènes perturbateurs. NB: rien de ce qu!on a dit ne va à l!encontre de l!idée qu!il existe des faits linguistiques stables. Simplement, ceux-ci sont relatifs à une sous-communauté, à un temps, à une situation sociale, donnés.!! On est dans la situation normale dans les sciences empiriques: la collecte des données demande un appareillage et une méthode.!! Hypothèses pour avancer :!! Le français est définissable comme un ensemble d!énoncés possibles.!! Les locuteurs ont une connaissance implicite de la langue qui leur permet de la parler (plus ou moins) sans erreur. 26

Qu est-ce qu un corpus? (1) Le corpus est un ensemble homogène et significatif de données linguistiques observées et à partir desquelles pourra s élaborer la description et la formalisation des faits linguistiques. Il joue un rôle essentiel dans la linguistique structurale pour au moins une raison : dépasser la grammaire normative. 27

Qu est-ce qu un corpus? (2) Les caractéristiques d un corpus significatif sont :!! L homogénéité (le groupe qui le produit est socialement défini)!! La synchronie!! La moindre redondance possible Avec le corpus, on reste en deçà de la perspective créative selon laquelle tout individu peut créer et comprendre des énoncés en nombre infini. 28

Exemples de corpus!! Travail sur les adjectifs à partir d un relevé des adjectifs dans un dictionnaire.!! Recherche d énoncés où les adjectifs sont placés différemment (avant le nom, après le nom, etc.) et ont diverses fonctions (épithète, attribut du sujet, attribut de l objet, etc.) 29

Du corpus dans la linguistique à la linguistique de corpus Avec la possibilité de stocker un nombre plus important de données, mais surtout de les traiter, la notion de corpus a évolué. Nous allons tenter de voir en quoi consiste cette évolution, mais aussi quels sont les éléments essentiels à la construction d un corpus. 30

Qu est-ce qu un corpus? (3) Définition généralement retenue :" La communauté linguistique considère, à la suite de Sinclair (1996), qu un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d échantillon de langage. " D après cette définition, un ensemble de données collectées ici et là sans réflexion préalable sur ce qui motive le rassemblement des documents n est pas un corpus." 31

Qu est-ce qu un corpus? (4) Dans cette définition, plusieurs points font cependant débat :" "1) que signifie sélectionnées et organisées selon des critères linguistiques explicites? Un ensemble de données homogènes qui appartiennent à un genre particulier constitue-t-il un corpus (rassemblement de textes du Monde, rassemblement d enregistrements d émissions radiophoniques, etc.) 32

Qu est-ce qu un corpus? (5) 2) Que signifie pour servir d échantillon de langage? Pour les tenants de la linguistique de corpus, les notions d échantillonnage et de représentativité jouent un rôle essentiel, lorsqu il n est plus possible de rassembler de façon exhaustive toutes les formes répondant à l objet d étude (clôture du corpus). Mais, le passage de l exhaustivité et de la clôture à l échantillonnage et à la représentativité crée obligatoirement un décalage. " 33

Qu est-ce qu un corpus (6) ----> toute collection de données même expérimentales peut être un corpus à part entière (choix des locuteurs, le nombre d itérations et la sélection des formes peuvent être pensés de façon à gagner en représentativité). " Dans tous les cas, il faut avoir conscience des limites / des biais :" - le biais expérimental, " "- le biais du genre." 34

Qu est-ce qu un corpus? (7) "Une autre définition plus souple a donc été proposée (Gibbon et al (1998) :! A corpus is any collection of speech recordings which is accessible in computer readable form and which comes with annotation and documentation sufficient to allow re-use of the data in-house, or by people in others organisations.! 35