3.A. Explorations sémantiques

Documents pareils
Logiciel XLSTAT version rue Damrémont PARIS

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Représentation d une distribution

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Annexe commune aux séries ES, L et S : boîtes et quantiles

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les pôles commerciaux et leurs magasins

: seul le dossier dossier sera cherché, tous les sousdomaines

Observation des modalités et performances d'accès à Internet

SIG ET ANALYSE EXPLORATOIRE

ORACLE TUNING PACK 11G

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

Cycle de formation certifiante Sphinx


L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La place de SAS dans l'informatique décisionnelle

Institut Supérieure Aux Etudes Technologiques De Nabeul. Département Informatique

Extraction d informations stratégiques par Analyse en Composantes Principales

données en connaissance et en actions?

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Évaluations aléatoires : Comment tirer au sort?

Études et expérimentations sur matériel Wi-Fi (802.11b et g)

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Statistiques Descriptives à une dimension

Systèmes de transmission

Fonction inverse Fonctions homographiques

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

TABLE DES MATIERES...

Installation d'un serveur DHCP sous Windows 2000 Serveur

Chapitre 3 : outil «Documents»

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

PILOTER ET MAITRISER L EVOLUTION

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Définir la gestion de projets 11. Exploiter les techniques de gestion de projets 11. Planifier un projet 12. Lister les tâches et les jalons 13

Modèle de calcul des paramètres économiques

3 Les premiers résultats des plans d'actions

TD 11. Les trois montages fondamentaux E.C, B.C, C.C ; comparaisons et propriétés. Association d étages. *** :exercice traité en classe.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

La Transparence des Coûts en Microfinance Mise en oeuvre de la Transparence en Afrique de L Ouest

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Gestion collaborative de documents

Resolution limit in community detection

Affectation standard Affectation modifiée (exemple)

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Analyse des correspondances avec colonne de référence

1. Vocabulaire : Introduction au tableau élémentaire

Localisation des fonctions

Importer les fichiers élèves - professeurs du secrétariat

La crise n'a pas entamé la générosité des belges

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Aide à l utilisation

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Système de Gestion Informatisée des. Exploitations Agricoles Irriguées avec Contrôle de l Eau

Montage non-linéaire. Techniques et méthodes

Systèmes d information et bases de données (niveau 1)

LA RÉFÉRENCE ZENDESK. Votre ordonnance pour un service client optimisé

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Aide-mémoire de statistique appliquée à la biologie

Procédure : Sauvegarder un Windows 7 sur un disque réseau

Alexis Lechervy Université de Caen. M1 Informatique. Réseaux. Filtrage. Bureau S3-203

Codage d information. Codage d information : -Définition-

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

EVOLUTIONS suite à mise à jour

Analyse tarifaire en ligne (TAO) de l'omc

MONIWEB Analyse de l image sur le Web 2.0

Utiliser un tableau de données

Nmap (Network Mapper) Outil d exploration réseau et scanneur de ports/sécurité

CH.6 Propriétés des langages non contextuels

L analyse boursière avec Scilab

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Le cycle de traitement de la situation 1/2

Chapitre 1 : Introduction aux bases de données

Aide - mémoire gnuplot 4.0

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

La réplication sous SQL Server 2005

Elfenland Règles du jeu

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

TDB-SSI LES EXTENSIONS

Rappels sur les suites - Algorithme

L'ORDINATEUR ET LA VUE

SPHINX Logiciel de dépouillement d enquêtes

Formation tableur niveau 1 (Excel 2013)

Mémo d'utilisation de BD Dico1.6

S'organiser pour ne plus se noyer dans l'information

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Analyse de performance, monitoring

BANQUES DE DONNÉES PÉDAGOGIQUES

Business Intelligence

CATALOGUE DES FORMATIONS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Transcription:

3.A. Explorations sémantiques Partir de l'idée que l'on ne comprend RIEN à un texte ancien Mettre en œuvre des procédures statistiques permettant de structurer les contextes de diverses manières, et en jouant sur les différences (entre catégories, surtout entre périodes)

3.B. Les distributions lexicales La statistique «classique» considère presque uniquement des distributions ayant une valeur centrale et une dispersion autour de cette valeur (distributions binomiales, de Laplace-Gauss, etc) Les distributions lexicales sont de forme hyperbolique : il n'y a pas de valeur centrale, le calcul de la dispersion (s'il est possible) est complexe Les distributions lexicales sont de type «parétien», elles sont difficiles à manipuler, mais il faut bien les connaître pour éviter des erreurs fatales...

3.C. Examen des distributions lexicales Langue et texte (ou corpus) : la langue est non-finie, non mesurable, le corpus est fini, mesurable Un corpus peut être considéré comme un échantillon de langue, mais il a des propriétés statistiques différentes de celle de la langue, et il est toujours biaisé par rapport à la population d'origine. Les paramètres numériques d'une distribution empirique (corpus) varient selon la taille, même si la langue sous-jacente est la même! => les comparaisons sont très délicates, le seul moyen simple d'éviter les erreur est de comparer uniquement des ensembles de même effectif. Des procédures empiriques existent (paquet R), mais elles restent relativement mal maîtrisées

3.D. Contexte et structure Le mot isolé n'a pas de signification! Les articles de dictionnaire comportent tous des définitions et des exemples = ensemble de contextes Le sens d'un mot est constitué par la structure de ses relations avec d'autres mots L'objectif de la sémantique numérique est donc de mettre en évidence cette structure Les procédures numériques sont la formalisation des méthodes des lexicographes! = «étude des contextes» L'outil ESSENTIEL : la distance entre les mots = les cooccurrences NB : la simple distance néglige toute syntaxe ; empiriquement : ça marche!

3.E. Cooccurrences!! Facile de compter les mots autour d'un pivot => n'importe quoi!! on trouve une masse de mots sans rapport particulier avec le pivot Il faut impérativement FILTRER les mots pertinents Tout repose sur le carré magique fréquence de la cooccurrence fréquence totale du pivot fréquence totale du cooccurrent effectif total du corpus Des dizaines de manière de calculer un coefficient ont été proposées : une demi-douzaine courants (Dice, hyperbolique...), il faut faire des essais nombreux et examiner les résultats ; encore des progrès à faire Fonction intégrée à TXM et cqpweb, mais scripts ad hoc plus efficaces

3.F. Cooccurrences 2a Plusieurs types de comptage et d'exploitation, on peut en distingue au moins 4 1. la base : cooccurrences simples = une liste, éventuellement triée (selon le coefficient, ou selon tel effectif) 2. cooccurrences structurées : cooccurrences entre cooccurrents d'un même pivot => définit plus ou moins des types de contexte ** deux possibilités : A : cooccurrences dans les contextes B : cooccurrences dans le corpus Les résultats sont sous forme de tableau : visualisation structurée par analyse factorielle (ACP) Les 2 modes de calcul aboutissent à 2 tableaux, comparer (comment?)

3.G Cooccurrences 2b 3. cooccurrences prolongées : rechercher l'ensemble des cooccurrents des cooccurrents d'un pivot on obtient une masse importante difficile à maîtriser 4. cooccurrences généralisées : calculer tous les cooccurrents de tous les lemmes, et récupérer, pour un lemme donné, les lemmes ayant le «profil» le plus voisin on peut limiter l'opération à un ensemble de lemmes prédéterminés, de manière à visualiser la structure de leurs relations Les cooccurrences généralisées (alias «sémantique distributionnelle») sont coûteuses en espace disponible et en temps de calcul, mais elles sont très efficaces (paquet R disponible)

3.H. Évolutions Implique que le corpus utilisé comporte des indications chronologiques, ou que l'on compare des corpus ordonnés dans le temps Comparaisons toujours périlleuses du fait de la nature des distributions L'analyse chronologique est la voie royale de la sémantique historique et de la sémantique en général : on ne voit jamais mieux les structures que lorsqu'elles bougent Presque rien de disponible en matière de procédures : le développement des logiciels d'analyse de texte est très peu orienté vers la sémantique et pas du tout sur les aspects chronologiques

3.I. Courbes chronologiques Avantages nombreux : procédures éprouvées, nombreux paquets, résultats très suggestifs Une précaution absolue : ne comparer que des effectifs égaux, jamais de fréquences relatives calculées sur des effectifs différents (catastrophes garanties dans ce cas) Attention aux effets d'échelle (effectuer une anamorphose si nécessaire : à programmer) Nécessité, pour une série, de construire de nombreux graphiques, en modifiant la taille des tranches, et les méthodes de calcul des tendances. Un outil très intéressant (à programmer!) : l'évolution chronologique du coefficient de cooccurrence entre deux lemmes

3.J. Comparer deux listes Nombreuses variantes Le plus simple : deux listes parallèles triées Possibilité de feedback : calculer pour deux pivots les coefficients d'un ensemble de lemmes (éventuellement le total de deux listes simples) et trier selon les écarts Dans ce dernier cas, possibilité de graphique

3.K. Comparer plusieurs listes Rien de prévu pour cooccurrences simples!! Diverses possibilités : soit une analyse sur un tableau de fréquence (écarts à l'indépendance), soit construction d'un tableau de coefficients. Pour cooccurrences généralisées, AFC sur coefficients de distance au plus proche voisin (marche relativement bien) À développer.

3.L. Questions en suspens Cooccurrences structurées : on observe que, selon les lemmes, se forment des «nuages» de manière plus ou moins nette ; il y a donc des lemmes sans contextes différenciés, d'autres au contraire qui apparaissent dans des contextes différents («sens» différents?) => calculer un coefficient? Repérer des sous-ensembles de cooccurrents par procédure? Zones du lexique : mots fréquents, mots «médians» et mots rares n'ont pas les mêmes structures sémantiques. Adapter le calcul des coefficients de filtrage? (facile pour le coefficient de Dice) Citations récurrentes : dans certains corpus, réapparition permanente de certaines citations ou de certaines formules => impact sur les cooccurrents => faut-il considérer qu'il s'agit d'un trouble à éliminer, ou d'une structure importante? Liste non exhaustive. La sémantique historique en est à la phase de ses débuts!

Je vous remercie de votre attention QUESTIONS?