Annotations manuelles et automatiques de corpus

Dimension: px
Commencer à balayer dès la page:

Download "Annotations manuelles et automatiques de corpus"

Transcription

1 Annotations manuelles et automatiques de corpus Cyril Grouin 1 Définitions Base de données : ensemble structuré de données (feuille Excel). Id Ville Pays 01 Paris France 02 Dublin Irelande 03 Tbilissi Géorgie Données structurées : données dont les éléments sont catégorisés (valeurs d une base de données, étiquetage). Données non structurées : données présentes telles quelles (texte libre), sans traitement complémentaire. Mot : unité significative empirique de la grammaire traditionnelle. EXERCICE : souligner les mots de la phrase d exercice suivante : Le chat aime s installer derrière les fenêtres. Token : suite de caractères entre deux espaces. Tokénisation : processus qui consiste à découper un texte en tokens (séparer les ponctuations des mots). EXERCICE : découper la phrase de l exercice en tokens : Xq Lemme : forme générique des différentes formes d un mot (infinitif, forme masculin/singulier). EXERCICE : trouver les lemmes de la phrase d exercice (voir tableau 1, p. 13) : Xq Partie du discours/pos : étiquettes morpho-syntaxiques. EXERCICE : trouver les étiquettes en parties du discours de la phrase d exercice (voir tableau 1, p. 13) : Xq 2 Fouille de données vs. Fouille de textes La fouille de données (data mining) renvoie à l ensemble des méthodes et algorithmes pour l exploration et l analyse de gros volumes de données (bases de données informatiques) dans la perspective d une aide à la prise de décision. La fouille de données repose sur la mise en évidence de règles, de tendances invisibles pour un analyste humain. La fouille de données (i) repose sur des bases relationnelles et (ii) traite des données structurées. La fouille de textes (text mining) repose sur des données textuelles non structurées. Pourquoi faire de la fouille de données/textes? Les données sont disponibles et elles le sont massivement ; La production massive de données doit s accompagner d outils d exploitation de ces données ; L informatique permet de traiter toujours plus de documents : capacités de stockage, puissance de calcul, etc. 3 Quels éléments utiliser dans les textes? 3.1 Les mots mots simples : tokenization (récupération des chaînes de caractères entre deux espaces) : «chat», «fenêtre» mots composés : «pomme-de-terre» formes composées : «y a t-il?» 1

2 mots non fléchis : lemme (forme générique d un mot : l infinitif pour un verbe, le singulier pour les noms, le masculin singulier pour les adjectifs), lemmatisation (processus qui consiste à remplacer un mot par son lemme) : voir page 13 faut-il conserver tous les mots? Faut-il supprimer certains mots? mots fréquents (statistiques), quel seuil? mots outils (articles, conjonctions, pronoms, etc) : utiles : typage de textes, reconnaissance de la parole inutiles : indexation de documents. n-grammes : succession de n mots consécutifs : 1 mot : unigrammes de mots ; 2 mots consécutifs : bigrammes de mots ; 3 mots consécutifs : trigrammes de mots. EXERCICE : relever les unigrammes de mots dans la phrase «Le chat aime s installer derrière les fenêtres.» Xq EXERCICE : relever les bigrammes de mots dans la phrase «Le chat aime s installer derrière les fenêtres.» Xq EXERCICE : relever les trigrammes de mots dans la phrase «Le chat aime s installer derrière les fenêtres.» Xq 3.2 Les entités nommées Ce sont des éléments du texte (mots, chiffres), qu il est possible de catégoriser au niveau sémantique. Lors de la conférence MUC-6 (1995), trois catégories d entités nommées ont été définies : noms de personnes (nom, prénom) ; noms de lieux (ville, région, pays) ; noms d organisation (entreprise, organisation). Et ces catégories ont été complétées par des éléments numériques : dates (27/04/2015), montants (GEL 7). EXERCICE : souligner les entités nommées dans le texte suivant (extrait d un article 1 du journal Le Monde, 27/10/2013). En Kakhétie, région centrale de l industrie vinicole géorgienne située à 160 kilomètres au nord-est de Tbilissi, l humeur des habitants suit la courbe de la récolte. Quand la vendange est abondante et les prix d achat élevés, comme c est le cas cette année, les Kakhétiens ont le cœur léger. «On peut dire que nous avons le vin dans le sang», explique Rezo. Petit propriétaire terrien, il officie à la dégustation des crus locaux (Mukuzani, Kidzmarauli, Saperavi et d autres) dans le domaine musée des Princes Tchavtchavadze, perché sur les hauteurs du petit bourg de Tsinandali. La cuvée 2013 s annonce savoureuse, Rezo se frotte les mains. Les mauvais souvenirs sont oubliés. 3.3 Les caractères identification de la langue (environ 100 caractères nécessaires), deux étapes : 1. apprentissage : tri-grammes de caractères appris sur de gros corpus pour chaque langue à identifier ; 2. document inconnu : relevé des trigrammes de caractères et comparaison avec ceux de chaque langue (incrémentation de compteurs). typage de textes : par fréquence des caractères. EXERCICE : en fonction de vos connaissances du géorgien et du français, quelles différences voyez-vous entre ces deux langues au niveau des caractères? _3214.html 2

3 4 Les mesures d évaluation 4.1 Quoi? Comment? Différents types d évaluation Typage (classification, recherche d information) : un document est-il bien classé (objectif/subjectif)? Une entité nommée est-elle correctement étiquetée (personne, lieu, organisation)? Frontière (repérage d entités nommées) : les frontières de l entité sont-elles correctes (début et fin de la portion à annoter dans un texte)? Différents niveaux d évaluation Mono-classe (recherche d information) : quels documents correspondent à la requête d un utilisateur? Multi-classes (classification) : catégories d entités nommées. Définitions Pour une étiquette donnée, Vrais positifs : nombre d éléments étiquetés de la même manière dans l hypothèse et la référence ; Faux positifs : nombre d éléments de l hypothèse absents de la référence ; Faux négatifs : nombre d éléments de la référence absents de l hypothèse ; Vrais négatifs : nombre d éléments absents de la référence et de l hypothèse. référence hypothèse Faux négatifs Vrais positifs Faux positifs Vrais négatifs 4.2 Mesures Rappel Le «rappel» (recall), «sensibilité» (sensitivity) ou «taux de vrais positifs», est une mesure quantitative (formule 1). Elle mesure le nombre d éléments correctement étiquetés par le système (vrais positifs) rapporté au nombre d éléments étiquetés dans la référence (vrais positifs et faux négatifs). Rappel = vrais positifs vrais positifs + faux négatifs (1) Précision La «précision» (precision), ou «valeur prédictive positive», est une mesure qualitative (formule 2). Elle mesure le nombre d éléments correctement étiquetés par le système (vrais positifs) rapporté au nombre total d éléments étiquetés par le système (vrais et faux positifs). Précision = vrais positifs vrais positifs + faux positifs (2) 3

4 F-mesure Moyenne harmonique pondérée du rappel et de la précision F-mesure = (1 + β2 ) Précision Rappel β 2 Précision + Rappel La valeur attribuée à β permet : soit d équilibrer les poids du rappel et de la précision (β=1) ; soit de favoriser le rappel par rapport à la précison (β=2), ou la précision par rapport au rappel (β=0.5). 4.3 Exercices Recherche d information Un moteur de recherche a indexé le contenu textuel des documents suivants (i.e. le moteur de recherche a mémorisé l association entre chaque mot du texte et le numéro du document) : 1. Un projet de loi au printemps pour réformer la psychiatrie. 2. A Arbury Park, un projet immobilier moderne et séduisant paralysé par la crise économique. 3. Récession, chômage : le gouvernement prévoit que la crise sera longue. 4. Japon : un train atteint la vitesse record de 603 km/h. 5. Un champagne intact après avoir passé 170 ans sous la mer. Un utilisateur utilise ce moteur de recherche et effectue la requête suivante : Projet Le moteur de recherche renvoie les documents 1, 2 et 3 à l utilisateur. En fonction du contenu de chaque document d une part, et du contenu de la requête d autre part, calculez (i) le nombre de vrais positifs (nombre de documents renvoyés par le moteur qui correspondent à la requête), faux positifs (nombre de documents renvoyés par le moteur qui ne correspondent pas à la requête) et faux négatifs (nombre de documents non trouvés par le moteur qui correspondent à la requête), puis (ii) les valeurs de rappel, précision et F-mesure. OK Vrais positifs Faux positifs Faux négatifs Rappel Précision F-mesure Repérage d entités nommées (REN), classification Pour un travail de repérage d entités nommées parmi trois catégories (personne, lieu, date), nous disposons des annotations de référence (i.e. la liste des entités qu un système doit identifier dans un texte). Nous avons lancé un système automatique de repérage d entités nommées sur ce texte. Ce système produit des annotations, certaines sont correctes, d autres sont fausses. Votre objectif est d évaluer la qualité des annotations produites par le système, en comparant les annotations du système aux annotations de référence. Annotations de référence : Le cinéaste français personne Georges Lautner, auteur des personne Tontons flingueurs, est mort, date vendredi 22 novembre à lieu Paris, à l âge de 87 ans, a annoncé l ancien cascadeur personne Rémy Julienne, citant son entourage proche. Le metteur en scène s est éteint à la suite d une «longue maladie», a précisé personne Rémy Julienne, qui avait effectué les cascades dans nombre de ses films. Avec une quarantaine de films à son actif en soixante ans de carrière, lieu Georges Lautner aura tourné avec les plus grands. Annotations du système : Le cinéaste français personne Georges Lautner, auteur des personne Tontons flingueurs, est mort, date vendredi 22 novembre à lieu Paris, à l âge de date 87 ans, a annoncé l ancien cascadeur Rémy Julienne, citant 4

5 son entourage proche. Le metteur en scène s est éteint à la suite d une «longue maladie», a précisé Rémy Julienne, qui avait effectué les cascades dans nombre de ses films. Avec une quarantaine de films à son actif en soixante ans de carrière, lieu Georges Lautner aura tourné avec les plus grands. Exercice Comparez les annotations de référence avec les annotations produites par le système, et calculez en complétant le tableau suivant : (i) le nombre de vrais positifs, faux positifs et faux négatifs pour chaque catégorie, puis (ii) les valeurs de rappel, précision et F-mesure pour chaque catégorie. Vrais positifs Faux positifs Faux négatifs Rappel Précision F-mesure Date Lieu Personne 5 Corpus 5.1 Définitions Corpus : ensemble de documents (audios, vidéos, textes) contenant des données à exploiter. corpus enrichi/annoté : corpus dont les documents ont bénéficié de traitements complémentaires (étiquetage morphosyntaxique, sémantique, méta-informations, etc.) ; corpus alignés/parallèles : alignement de deux corpus (deux langues : français/anglais, spécialité/générale) à un/plusieurs niveaux (paragraphe, phrase, mot) ; corpus comparables : corpus non parallèles mais traitant du même sujet de manière différente ; corpus de référence : corpus que le responsable considère comme étant la version à atteindre par des moyens automatiques (version alignée/annotée de référence). 5.2 Annotation de corpus Annotation : processus qui consiste à apporter des informations supplémentaires à un corpus (informations syntaxiques, morphologiques, sémantiques). Pour annoter des documents, il est nécessaire de disposer d un guide d annotation : document qui indique quoi/comment annoter (définitions, exemples, contre-exemples), dans quel objectif. Le résultat de l annotation de documents peut servir, soit directement (repérage d entités nommées), soit être réutilisé par d autres systèmes (dans ce cas, les annotations apportent des informations utiles pour d autres traitements). De manière plus spécifique, le résultat de l annotation manuelle peut être utilisé pour évaluer la qualité des annotations automatiques. documents annotation manuelle (outil BRAT) documents annotés annotation automatique (outil WAPITI) documents annotés lexiques annotation automatique (outil DARK) documents annotés repérage d'entités nommées liste d'entités nommées règles FIGURE 1 Annotations manuelles et automatiques de corpus 5

6 5.2.1 Représentation des annotations annotations embarquées : annotations reportées directement sur le corpus (balises XML) < v i l l e > Paris< / v i l l e > est en <pays>france< / pays>. annotations débarquées : annotations renseignées dans un fichier extérieur au fichier de données (référence au texte par des indices de position de ligne, de caractère/de token) Fichier textuel Fichier d annotations Paris est en France. T1 ville 1 6 Paris Paris est du 1er au 6e caractère T2 pays France France est du 14e au 20e caractère Modalités d annotation annotation manuelle : processus d annotation réalisé par un humain annotation automatique : processus d annotation réalisé par une machine pré-annotation : processus d annotations grossières (base de travail) devant être repris/complété par un annotateur humain < v i l l e prénom> Paris< / v i l l e prénom> est en < v i l l e prénom>france< / v i l l e prénom>. 5.3 Annotation manuelle Guide d annotation On cherche à annoter tous les noms de lieux présents dans un corpus d extraits d articles Wikipédia sur les différents pays du monde, rédigés en français. Quatre catégories de lieux sont utilisées, du plus générique au plus spécifique (cf. figure 2) : régions (régions du monde qui regroupent plusieurs pays) : Asie, Caucase, Europe ; pays (forme courte des pays, correspondant à une dénomination officielle, pour un pays reconnu comme tel au niveau international) : États-Unis, France, Géorgie ; territoires (partie d un pays, plus ou moins autonome, mais pas indépendant) : Californie, Floride ; villes : Paris, Tbilissi, Washington. Régions Pays Territoires Villes FIGURE 2 Hiérarchisation des catégories utilisées pour l annotation de corpus Annoter les noms de lieux relevant des quatre catégories précédentes en respectant les règles d annotation suivantes : annoter toutes les occurrences de lieux dans un document, y compris si la même occurrence revient plusieurs fois ; annoter les formes courtes, pas les formes longues : on annote «Finlande» mais pas «République de Finlande» ; annoter uniquement les noms écrits en français : on annote «Finlande» (version française) mais pas «Suomi» ou «Suomen» (versions finnoises) ; annoter les noms de lieux actuels, pas les anciens noms : on annote «Géorgie» mais pas «Colchide» et «Ibérie» (anciens royaumes disparus). Consignes 1. Télécharger l archive suivante : https://perso.limsi.fr/grouin/tbilissi/exercices.tar.gz 2. Copier le répertoire corpus/brat/ dans le répertoire brat-v1.3_crunchy_frog/data/ 3. Lancer le serveur depuis les lignes de commandes : cd brat-v1.3_crunchy_frog/ python standalone.py 4. Ouvrir un navigateur à l adresse : 6

7 5. Se connecter (nom d utilisateur et mot de passe) puis sélectionner le corpus corpus/brat/ 6. Annoter toutes les noms de régions, pays, territoires et villes contenus dans les documents textuels de ce corpus en respectant le guide d annotation ci-dessus. 5.4 Annotation automatique Méthodes symboliques Méthodes qui reposent sur des connaissances d expert formalisées en listes/expressions régulières listes : fichier contenant des données relevant d une seule catégorie (adjectifs, noms de ville) ; dictionnaire : ensemble des mots (lemmes) d une langue classés par ordre alphabétique (mot, définition, exemple, information morphologique, prononciation) ; thesaurus : ensemble des mots (lemmes) d une langue organisés par thématiques en distingant les différents sens ; expressions régulières : séquences de caractères qui définissent un patron de recherche : [A-Z][a-z]+ patron syntaxique/motif : motif particulier cherché dans un texte (un mot commençant par une majuscule suivie de minuscules non accentuées) : Paris, France Méthodes par apprentissage Méthodes qui reposent sur des observations statistiques ; l utilisateur fournit à la machine des exemples de sorties attendues (supposent un corpus annoté). formalismes : CRF (champs aléatoires conditionnels), SVM (séparateurs à vaste marge), arbres de décision outils : CRF++, Wapiti, LibSVM, SVMLight, Weka caractéristiques : ensemble des informations associées à chaque token permettant de construire des modèles : caractéristiques de surface : propriétés inférées du token (capitalisation, taille) caractéristiques profondes : informations morpho-syntaxiques, syntaxiques, sémantiques caractéristiques externes : position dans le document, fréquence globale, cluster 6 Les expressions régulières 6.1 Présentation Une expression régulière est une suite de caractères qui décrit, de manière générique, un motif qu on souhaite identifier dans un texte, dans le but d appliquer un traitement sur la chaîne de caractères identifiée par le motif : ajout, remplacement ou suppression. Plusieurs langages de script et commandes permettent d appliquer des expressions régulières (grep, perl). Les expressions régulières sont généralement indiquées entre 2 barres obliques (/regex/), sauf pour les substitutions pour lesquelles 3 barres obliques sont utilisées (s/ancien/nouveau/). Des caractères spéciaux utilisés avant et après ces barres obliques permettent de préciser la portée de ces expressions : Avant : s/motif/remplacement/ (le «s» indique une substitution du motif par le remplacement ; dans ce cas, la règle contient 3 barres obliques) Après : /motif/i (le «i» indique que le motif peut s appliquer aussi bien sur un texte en majuscules qu en minuscules ; le motif est insensible à la casse typographique) Après : /motif/g (le «g» indique que le motif sera généralisé sur l ensemble du texte ; le motif sera appliqué sur le texte tant qu il est possible de le faire) Après : /motif/gi (combinaison des deux options précédentes) Entre barres obliques : /^motif/ (le caractère «^» après la 1e barre oblique indique que le motif doit être trouvé au début du contenu de la variable) Entre barres obliques : /motif$/ (le caractère «$» avant la 2e barre oblique indique que le motif doit être trouvé à la fin du contenu de la variable) Exemples (perl) 7

8 Ajout : $mot="dé".$mot; (on ajoute «dé» devant le contenu de la variable $mot et on enreigstre le résultat dans la variable $mot ; permet de générer de modifier le sens des mots : construire déconstruire) Remplacement : $texte=~s/é/e/g; (on remplace toutes les lettres «é» par la lettre «e» ; permet de désaccentuer un mot : éléphant elephant) Suppression : $mot=~s/s$//; (on supprime le caractère «s» dans la variable $mot s il s agit du dernier caractère ; permet de transformer un mot du pluriel vers le singulier : ordinateurs ordinateur) Test : if ($fichier=~/\.txt/) { print "Fichier texte"; } (on teste si la variable $fichier contient l extension «.txt») Il est possible de regrouper plusieurs caractères, soit en définissant un intervalle, soit en utilisant des classes de caractères. Intervalles [0-9] (tous les chiffres de 0 à 9) [0-3] (tous les chiffres de 0 à 3) [a-z] (toutes les lettres non accentuées en minuscules de «a» à «z») [a-zàçéèêëîïôûù] (toutes les lettres en minuscules de «a» à «z» plus les lettres accentuées utilisées en français) [A-Za-z] (toutes les lettres de «a» à «z», en majuscules et en minuscules) Classes de caractères (lua) Les classes de caractères permettent de regrouper des caractères de même valeur :. (n importe quel caractère) %a (n importe quelle lettre) %c (caractère de contrôle) %d (chiffres) %l (lettre en minuscule) %p (ponctuations) %s (caractère d espace ou de tabulation) %u (lettre en majuscule) %w (caractère alphanumérique) %x (chiffres hexadécimaux) %z (the character with representation 0). Quantifieurs (perl, lua) Ils permettent de fixer le nombre de caractères qu on cherche à faire correspondre dans un motif : + (1 caractère ou plus) * (0 caractères ou plus, chaîne de caractères la plus longue) - (0 caractères ou plus, chaîne de caractères la plus courte)? (0 ou 1 caractère). Exemples (lua) /%u?%l+/ (0 ou 1 caractère en majuscule, au moins 1 caractère en minuscule ; ce motif permet d identifier «Paris» ou «Tbilissi» dans un texte) /(19 20)%d%d/ (soit «19», soit «20» suivi de deux chiffres ; permet d identifier des années : «1995», «2015») 6.2 Exercices Dans le tableau suivant, indiquer le résultat de l application des expressions régulières sur le contenu textuel présenté. Texte Expression régulière Résultat 1995 /%a/ mars 1995 /^%a+/ le chat boit le lait s/chat/chien/ Pour le contenu textuel présenté ci-dessous, en fonction du résultat qu on souhaite obtenir, indiquer quelle expression régulière permet d atteindre ce résultat. Texte Résultat voulu Expression régulière mars 1995 Extraire le mois le chat boit le lait mon chat boit le lait 8

9 7 Annotation automatique à base de règles : outil DARK 7.1 Présentation Ce travail repose sur l outil DARK (Direct Annotation using Rules and Knowledge), Thomas Lavergne (LIMSI-CNRS). L ajout, la modification et la suppression de règles et de lexiques se font dans le fichier «regles.lua». Syntaxe Les lignes ne se terminent pas par un point-virgule «;», le symbole pourcentage «%» sert à déspécialiser ou pour les classes de caractères Les étiquettes sont précédées d une esperluette «&» : &chemical &disorder &sosy Les captures se font au moyen des crochets (énorme avantage par rapport à PERL qui emploie les parenthèses aussi bien pour les captures que pour la disjonction), et le premier élément qui suit le crochet ouvrant est l étiquette qui sera apposée si la règle s applique : [&weight /%d+/ kg] Les commentaires se font avec deux tirets, on ne met pas de commentaire en fin de ligne : -- Ceci est un commentaire Les opérateurs habituels des expressions régulières sont disponibles : début, fin, quantifieurs "greedy" (capture la plus longue) et "lazy" (capture la plus courte), classes de caractères, disjonction, etc. : ^ $ * +? *? +??? [0-9] [a-z] %d %a %l %u (un deux) Les éléments atomiques sont les tokens, pas les caractères! Initialisation (création d un pipeline, objet dans lequel DARK va réaliser les différentes étapes) : local main = dark.pipeline() Lexiques Chargement d un lexique depuis un fichier (un mot par ligne) : main:lexicon("&objet", "objets.txt") tous les mots du corpus identifiés dans le lexique contenu dans le fichier objets.txt recevront l étiquette «objet». Création d un lexique dans le fichier *.lua : main:lexicon("&animaux", {"chien", "chat"}) les mots chien et chat du corpus recevront l étiquette «animaux». Règles (reposent sur les expressions régulières) : Sur une ligne : Exemple 1 : main:pattern( [&ponct /%p/ ] ) tous les signes de ponctuation du corpus recevront l étiquette "ponct" Exemple 2 : main:pattern( [&weight /%d+/ kg] ) les séquences constituées de chiffres suivis du token kg recevront l étiquette «weight» Exemple 3 : main:pattern( [&weight /%d+/ /kg/] ) les séquences constituées de chiffres suivis d un token contenant la chaîne kg recevront l étiquette «weight» Sur plusieurs lignes (ne change rien, améliore la lisibilité) : main:pattern([[ [&info &animaux &VRB ] ]]) les séquences constituées d un premier token déjà porteur de l étiquette «animaux» et d un deuxième token porteur de l étiquette «VRB» recevront l étiquette «info» Affichage à l écran 9

10 On définit la liste des étiquettes qu on souhaite afficher, et la couleur associée à chaque étiquette : local tags = { animal = "red", objet = "blue", } On peut décider : soit d afficher toutes les étiquettes produites par les différentes règles, projections de lexiques, et autre étiquetage (utile pour débugguer) : print(main(line)) soit d afficher uniquement les étiquettes listées ci-dessus (plus lisible pour un humain) : print(main(line):tostring(tags)) Modèles DARK est fourni avec un modèle d étiquetage en parties du discours pour le français et l anglais. Chaque token est donc étiqueté avec l une des 13 étiquettes suivantes (taux d erreur de 5 % sur du texte journalistique) : ADJ (adjectifs), ADP (pré/post-positions), ADV (adverbes), CON (conjonctions), DET (déterminants), NNC (noms communs), NNP (noms propres), NUM (numéraux et cardinaux), OTH (autres), PCT (ponctuations), PRO (pronoms), PRT (particules), VRB (verbes). Il est donc possible d écrire des règles fondées sur l étiquetage en POS. 7.2 Fichier «regles.lua» -- Création d un pipeline pour DARK local main = dark.pipeline() -- Chargement d un modèle existant (.mdl) ou création du modèle à -- partir de données annotées (*.dat) au moyen des MaxEnt main:model("model/postag-fr") -- Création d un lexique ou chargement d un lexique existant main:lexicon("&animal", {"chien", "chat"}) main:lexicon("&objet", "objets.txt") -- Création de patterns en LUA. La capture se fait avec les crochets, -- l étiquette à afficher est précédée de &~: &word main:pattern( [&weight /%d+/ kg] ) main:pattern("[&np ( &ADJ &DET )* &NNC ( &ADJ &DET )* ]") -- Sélection des étiquettes voulues, attribution d une couleur (black, -- blue, cyan, green, magenta, red, white, yellow) pour affichage sur -- le terminal ou valeur "true" si redirection vers un fichier de -- sortie (obligatoire pour éviter de copier les caractères de -- contrôle) local tags = { animal = "red", NP = "yellow", objet = "blue", weight = "magenta", } -- Traitement des lignes du fichier for line in io.lines() do -- Toutes les étiquettes print(main(line)) 10

11 end -- Uniquement les étiquettes voulues --print(main(line):tostring(tags)) 7.3 Exercice EXERCICE : télécharger et copier les fichiers «regles.lua» et «objets.txt» dans votre répertoire de travail. echo "Le petit chat dort sur la table de 80 kg."./dark regles.lua doit produire ceci à l écran : <NP>Le p e t i t < animal>chat< / a nimal>< / NP> d o r t sur <NP> l a < o b j e t > t a b l e < / o b j e t >< / NP> de < w e i g h t >80 <NP>kg< / NP>< / weight>. 8 Annotation automatique par apprentissage statistique : outil WAPITI 8.1 L apprentissage statistique Modèles génératifs (en haut du schéma 2 ) : bayésiens naïfs, chaînes de Markov cachées (HMM). Ils modélisent la probabilité jointe P (y, x) c est-à-dire la probabilité de l étiquette y compte tenu du vecteur de caractéristiques x. Pour décider de l étiquette à apposer sur un token, il est nécessaire de modéliser la probabilité conditionnelle P (y x) et de calculer la probabilité d un vecteur de caractéristiques P (x) : P (y, x) = P (y x)/p (x) Bayésien naïf (Naïve Bayes) : prédiction d un label sur la base d observations. Chaînes de Markov cachées (HMMs) : prise en compte des transitions au niveau local, entre la position courante et la position précédente. Modèles discriminants (en bas du schéma) : régression logistique (Logistic Regression) = entropie maximale, champs aléatoires conditionnels (CRF) de chaîne linéaire (Linear-chain CRFs). Ils modélisent directement la probabilité conditionnelle P (y x) c est-à-dire la séquence de labels la plus probable pour une séquence donnée de tokens. 2. Source : 11

12 8.2 WAPITI Présentation L outil Wapiti repose sur le formalisme des champs aléatoires conditionnels (CRF Conditional Random Fields). Il implémente plusieurs alogirthmes (bcd, l-bfgs, rprop, sgd-l1). Il prend deux fichiers en entrée : Corpus avec annotations de référence format tabulaire (i.e., plusieurs colonnes séparées par une tabulation) ; un token par ligne (nécessite de réaliser une tokénisation) ; autant de colonnes que souhaité (même nombre de colonnes sur chaque ligne) ; la dernière colonne contient l annotation de référence. fichier.txt Le Mm 2 NUL DET O fichier.txt petit mm 5 NUL ADJ O fichier.txt chat mm 4 NUL NOM B-animal fichier.txt boit mm 4 NUL VRB O fichier.txt 2 NUL 1 DIGIT NUM B-quantite fichier.txt litres mm 6 NUL NOM I-quantite fichier.txt lait mm 4 NUL NOM O fichier.txt. NUL 1 NUL PCT O Ce fichier tabulaire contient, pour chaque token, des informations que l on espère utiles pour réaliser des prédictions. On distingue plusieurs types de caractéristiques : Caractéristiques de surface : informations qu il est possible d inférer directement depuis le token (nombre de caractères, casse typographique, présence de chiffres, présence de ponctuation, présence d affixes particulier, appartenance du token à une liste) ; Caractéristiques profondes : informations «riches» obtenues au moyen d outils externes (étiquetage en parties du discours, dépendances syntaxiques, appartenance du token dans un lexique) ; Caractéristiques externes : informations obtenues par rapport aux autres tokens, aux autres documents du corpus (fréquence du token en corpus, position du token dans le document, clustering non supervisé). Fichier de configuration pour préciser comment «lire» le corpus annoté. Système de coordonnées entre crochets [position:colonne] (avec position = 0 pour la ligne courante et colonne = 0 pour la première colonne). Pour les CRF : # Unigramme et bigrammes de tokens U10:%x[0,1] U11:%x[-1,1]/%x[0,1] U12:%x[0,1]/%x[1,1] # Unigramme de la casse typographique, de la taille U20:%x[0,2] U30:%x[0,3] # Bigram of output * Utilisation Création d un modèle : wapiti train -a rprop -p config.tpl corpus-appr.tab modele.wap (avec -a le nom de l algorithme utilisé l-bfgs/owl-qn/sgd-l1/bcd/rprop et -p le fichier de configuration). 12

13 Application d un modèle : wapiti label -m modele.wap corpus-test.tab >sortie.tab (avec -m le nom du modèle précédemment créé, et éventuellement -c pour contrôler les prédictions produites par label, et -s pour ajouter les scores en sortie, utile pour un post-traitement correcteur). A Étiquettes en partie du discours (POS) et lemmes Catégorie (POS) Mots Lemme Forme générique Articles (ART) la, le, les le un, une, des un Adjectifs (ADJ) petit, petite, petits, petites petit géorgien, géorgienne, géorgiens, géorgiennes géorgien masculin singulier chat, chatte, chats, chattes chat Substantifs (SUB) fenêtre, fenêtres fenêtre table, tables table suis, es, est, sommes, êtes, sont être ai, as, a, avons, avez, ont avoir Verbes (VB) vais, vas, va, allons, allez, vont aller infinitif aime, aimes, aimons, aimez, aiment aimer installe, installes, installons, installez, installent installer Adverbes (ADV) ici ici Conjonctions (CONJ) et et mais mais à à au, aux à+le Prépositions (PREP) de de en en sur sur je je Pronoms (PRO) tu tu il, ils il ( cas nominatif) elle, elles elle nous nous sans changement vous vous me, m me Pronoms (PRO) te, t te ( cas accusatif) se, s se France France Noms propres (NOM) Géorgie Géorgie Paris Paris Tbilissi Tbilissi TABLE 1 Exemples d étiquettes en partie du discours (POS) et de lemmes pour quelques mots B Architecture Scripts PERL pour l annotation automatique avec l outil DARK application de DARK sur les fichiers *.txt d un répertoire, en utilisant un fichier de règles : perl 01_appliqueDARK.pl repertoire/ regles.lua conversion du format balisé au format tabulaire des fichiers d une extension donnée présents dans un répertoire : perl 02_tag2tab.pl repertoire/ extension fusion de deux versions de fichiers tabulaires en un seul tabulaire au format BIO (format BIO mal géré) : perl 03_fusionne.pl repertoire/hypothese/ repertoire/reference/ >sortie 13

14 évaluation des prédictions réalisées par l outil DARK d après la référence manuelle : perl conlleval.pl -d \t <sortie corpus/dark/*txt 00_creeFichiersAnn.pl 01_appliqueDARK.pl corpus/brat/*ann BRAT corpus/dark/*dark corpus/ref/*ann 02_tag2tab.pl 00_brat2xml.pl corpus/dark/*tab corpus/ref/*tag 02_tag2tab.pl 03_fusionne.pl corpus/ref/*tab sortie conlleval.pl FIGURE 3 Chaîne de traitements pour l application de DARK sur le corpus Corpus corpus/ brat/ fichiers *.txt, *.ann et *.conf pour l annotation manuelle avec l outil BRAT (voir section 5.3, page 6) ; dark/ fichiers *.txt pour l annotation automatique à base de règles et de lexiques avec l outil DARK (page 9) ; ref/ fichiers *.txt, *.ann et *.tag contenant les annotations manuelles de référence pour lancer les évaluations ; wapiti/ deux sous-répertoires pour l annotation par apprentissage statistique avec l outil WAPITI (page 11) : train/ fichiers tabulaires pour la construction du modèle CRF (apprentissage) test/ fichiers tabulaires pour l application du modèle (décodage) 14

Projet TAL : traduction français-sms

Projet TAL : traduction français-sms Projet TAL : traduction français-sms 1 Objectif L objectif de ce projet est de concevoir un logiciel permettant de traduire un texte écrit en langage SMS vers le français. La traduction sera effectuée

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

Informatique tronc commun TP 02

Informatique tronc commun TP 02 Informatique tronc commun TP 02 15 septembre 2015 NB : 1. Lisez attentivement tout l énoncé avant de commencer. 2. Après la séance, vous devez rédiger un compte-rendu de TP et l envoyer au format électronique

Plus en détail

UTILISER le TRAITEMENT de TEXTE WORD 97 (ou 2 000)

UTILISER le TRAITEMENT de TEXTE WORD 97 (ou 2 000) UTILISER le TRAITEMENT de TEXTE WORD 97 (ou 2 000) 1. Démarrer l ordinateur et attendre l affichage du bureau Le bureau L image du bureau peutêtre changée : tous les ordinateurs n ont pas la même! 2. Double

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

GUIDE DE PUBLICATION AU BALO

GUIDE DE PUBLICATION AU BALO GUIDE DE PUBLICATION AU BALO TRANSMISSION D UNE ANNONCE ET RÈGLES DE NORMALISATION Une première partie vous présentera comment passer une annonce au BALO. Pour passer une annonce au BALO (Bulletin des

Plus en détail

Leçon : La phrase GRAMMAIRE. 1. La phrase est une suite de mots qui a du sens : elle raconte

Leçon : La phrase GRAMMAIRE. 1. La phrase est une suite de mots qui a du sens : elle raconte GRAMMAIRE La phrase 1 1. La phrase est une suite de mots qui a du sens : elle raconte quelque chose. 2. Au début de la phrase, on trouve une majuscule. 3. A la fin de la phrase, on trouve un point. Lis

Plus en détail

Introduction 2 Environnement de travail... 2 Groupement de commandes... 2 Caractères spéciaux... 2

Introduction 2 Environnement de travail... 2 Groupement de commandes... 2 Caractères spéciaux... 2 TP OS n 5 2012 tv - v.1.0 Sommaire Introduction 2 Environnement de travail....................................... 2 Groupement de commandes..................................... 2 Caractères

Plus en détail

GUIDE MEMBRE ESPACE COLLABORATIF. Février 2012

GUIDE MEMBRE ESPACE COLLABORATIF. Février 2012 GUIDE MEMBRE ESPACE COLLABORATIF Février 2012 Ce document est disponible sur le site WEB de l Agence de la santé et des services sociaux de la Montérégie, à l adresse suivante : http://extranet.santemonteregie.qc.ca/userfiles/file/espace-collabo/2012-02-04guide-membre-espace-collaboratif.pdf

Plus en détail

EXCEL 1 - PRISE EN MAIN

EXCEL 1 - PRISE EN MAIN EXCEL 1 - PRISE EN MAIN I - Qu est-ce qu un tableur? Excel est un logiciel permettant d élaborer des feuilles de calculs automatiques présentées la plupart du temps sur de grandes feuilles quadrillées.

Plus en détail

NLTK: Corpus et Segmentation. Les corpus NLTK. Corpus et pré-traitement. Les corpus NLTK. Claire Gardent. Construire un index. Segmentation 2007/2008

NLTK: Corpus et Segmentation. Les corpus NLTK. Corpus et pré-traitement. Les corpus NLTK. Claire Gardent. Construire un index. Segmentation 2007/2008 NLTK: Corpus et Segmentation Les corpus NLTK Claire Gardent CNRS/LORIA Campus Scientifique, BP 239, F-54 506 Vandœuvre-lès-Nancy, France Construire un index Segmentation 2007/2008 1/ 26 2/ 26 Corpus et

Plus en détail

TP 1. Prise en main du langage Python

TP 1. Prise en main du langage Python TP. Prise en main du langage Python Cette année nous travaillerons avec le langage Python version 3. ; nous utiliserons l environnement de développement IDLE. Étape 0. Dans votre espace personnel, créer

Plus en détail

Personnaliser et adapter SPIP Développeur SPIP

Personnaliser et adapter SPIP Développeur SPIP Personnaliser et adapter SPIP Développeur SPIP En Théorie Le fonctionnement de SPIP Qu est ce que SPIP? SPIP (Système de Publication pour l Internet Partagé) est un logiciel libre destiné à la production

Plus en détail

Microsoft WORD. Sommaire :

Microsoft WORD. Sommaire : Le traitement de texte avec : Microsoft WORD Sommaire : 1 Le traitement de texte : usages typographiques ITALIQUE Règles Typographiques On se sert de l italique pour attirer l attention sur un mot, sur

Plus en détail

Série 2 Premiers programmes

Série 2 Premiers programmes Licence pro. GTSBD 2013-2014 Structures de données, langage Python Série 2 Premiers programmes Programmes avec des affectations, des lectures et des écritures Exo 2.1 Le problème de la machine qui rend

Plus en détail

PC & Windows Livret d exercices Laurent DUPRAT Pratiquons

PC & Windows Livret d exercices Laurent DUPRAT Pratiquons Pratiquons ensemble PC & Windows Livret d exercices Laurent DUPRAT Pratiquons ensemble PC & Windows Livret d exercices Laurent DUPRAT Pratiquons ensemble PC & Windows Livret d exercices Laurent DUPRAT

Plus en détail

le Coin du petit programmeur...

le Coin du petit programmeur... le Coin du petit programmeur... 1: calcul d une expression numerique. L informatique est, de nos jours, partout autour de nous. Mais pour qu il se passe quelque chose à l écran, il faut souvent derrière

Plus en détail

MESSAGERIE ÉLECTRONIQUE

MESSAGERIE ÉLECTRONIQUE MESSAGERIE ÉLECTRONIQUE OUTLOOK EXPRESS DE MICROSOFT VERSION 5 1. LE «COURRIEL», «COURRIER ÉLECTRONIQUE», «MESSAGE ÉLECTRONIQUE», LES «E-MAILS» C EST QUOI ET ÇA SERT À QUOI? Premièrement, tous ces mots

Plus en détail

pour une mise à jour automatique d un catalogue de produits sur les sites de LeGuide.com Group

pour une mise à jour automatique d un catalogue de produits sur les sites de LeGuide.com Group pour une mise à jour automatique d un catalogue de produits sur les sites de LeGuide.com Group Table des matières Selon votre cas, vous devrez suivre tout ou partie de ce document pour créer facilement

Plus en détail

=FONCTION(DONNEE1;DONNEE2;DONNEE3;.)

=FONCTION(DONNEE1;DONNEE2;DONNEE3;.) EXCEL 2010 Page 1/9 Les formules 03 EXCEL LES FONCTIONS Pour toutes les formules, on va utiliser ce que l'on appelle des «fonctions». Ce sont des mots écrits en majuscule dans les formules et qui sont

Plus en détail

Sujet Projets 2 nd Semestre

Sujet Projets 2 nd Semestre Sujet Projets 2 nd Semestre Seuls les appels systèmes vus en cours sont autorisés. L usage d autres fonctions doit impérativement être validé par l enseignant. La date d ouverture pour l assignation de

Plus en détail

3. E n t r e r d e s d o n n é e s d a n s u n e f e u i l l e

3. E n t r e r d e s d o n n é e s d a n s u n e f e u i l l e 3. E n t r e r d e s d o n n é e s d a n s u n e f e u i l l e Ce document est disponible sur Internet à l adresse : http://perso.fundp.ac.be/~jmlamber Informations complémentaires : Jean-Marie.Lambert@fundp.ac.be

Plus en détail

Initiation WORD. Module 2 : Les fonctions de base

Initiation WORD. Module 2 : Les fonctions de base Initiation WORD. Module 2 : Les fonctions de base Système d exploitation utilisé : Windows XP Service Pack 2 Créé par Xavier CABANAT Version 1.0 Document créé par Xavier CABANAT Page 1 sur 14 Avant propos.

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

CREER UNE BASE DE DONNEES ACCESS AVEC DAO (étape par étape)

CREER UNE BASE DE DONNEES ACCESS AVEC DAO (étape par étape) CREER UNE BASE DE DONNEES ACCESS AVEC DAO (étape par étape) NIVEAU : PREMIERE RENCONTRE AVEC VB INITIES/EXPERIMENTES Pré requis pour comprendre ce tutorial : - Connaître les principales commandes de VB

Plus en détail

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation.

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. Dr L. ZEMOUR OBJECTIF Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. I. QU EST CE QUE SPSS? SPSS, dont le sigle anglais signifie «Statistical Package for Social

Plus en détail

Utilisation du client de messagerie Thunderbird

Utilisation du client de messagerie Thunderbird Outlook express n existant plus sur les systèmes d exploitation sortis après Windows XP, nous préconisons désormais l utilisation du client de messagerie libre distribué gratuitement par la Fondation Mozilla.

Plus en détail

Compilateurs : Analyse lexicale. Vous êtes ici 2. Analyse lexicale 4. Matthieu Amiguet. En entrée d un compilateur, on a généralement un fichier

Compilateurs : Analyse lexicale. Vous êtes ici 2. Analyse lexicale 4. Matthieu Amiguet. En entrée d un compilateur, on a généralement un fichier Compilateurs : Matthieu Amiguet 2009 2010 Vous êtes ici 2 Partie Avant Analyse syntaxique Analyse sémantique Arbre syntaxique abstrait (AST) Partie Arrière Optimisation de l AST Génération de code Optimisation

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

Éducatives Familiales

Éducatives Familiales Éducatives Familiales FICHE 6 : UN EXEMPLE, LE JEU DU MEMORY Type de jeu / description Jeu de mémoire (discrimination visuelle) 2 à 4 joueurs Choisir une thématique (Memory de la forêt, des animaux, de

Plus en détail

Convertisseur de monnaies

Convertisseur de monnaies Convertisseur de monnaies La logique algorithmique en première STG Propriétés Intitulé long Formation concernée Matière Notions Présentation Pré-requis Outils Mots-clés Auteur(es) Version 1.0 Description

Plus en détail

TP Compilation Analyse lexicale

TP Compilation Analyse lexicale TP Compilation Analyse lexicale Eric Ramat ramat@lisic.univ-littoral.fr 9 mai 2014 Durée : 6 heures 1 Introduction Le but de cet TP est de vous donner les bases nécessaires afin de pouvoir écrire votre

Plus en détail

Informatique TP4 : Manipulations de fichiers Manipulations de chaînes et de tableaux CPP 1A

Informatique TP4 : Manipulations de fichiers Manipulations de chaînes et de tableaux CPP 1A Informatique TP4 : Manipulations de fichiers Manipulations de chaînes et de tableaux CPP 1A Djamel Aouane, Frederic Devernay, Matthieu Moy Mars - avril 2015 1 Manipulations de fichiers Pour organiser des

Plus en détail

Maîtriser son clavier et apprivoiser sa souris

Maîtriser son clavier et apprivoiser sa souris Maîtriser son clavier et sa souris - 13 janvier 2014 p 1 Maîtriser son clavier et apprivoiser sa souris Le but de ce petit tutoriel est de vous aider à mieux connaître votre clavier, à insérer tous les

Plus en détail

4. La commande grep (ne demandez pas pourquoi grep!)

4. La commande grep (ne demandez pas pourquoi grep!) 4. La commande grep (ne demandez pas pourquoi grep!) 4.1. Ou alors si. Grep de la commande d'édition g/re/p 'globally search for RE and print it' ou RE est un raccourci pour RegularExpression. La commande

Plus en détail

OPEN OFFICE.org. Sommaire :

OPEN OFFICE.org. Sommaire : Le traitement de texte avec : OPEN OFFICE.org OpenOffice Writer est la partie traitement de texte d'openoffice. org, la suite bureautique libre. Cette suite bureautique est téléchargeable librement et

Plus en détail

Introduction aux exercices en Java

Introduction aux exercices en Java Introduction aux exercices en Java Avant de commencer les séries proprement dites, nous allons voir quelques informations utiles concernant le langage de programmation principal de ce cours d'informatique

Plus en détail

Présentation. Logistique. Résumé de la 1e Partie. Mise en place du système

Présentation. Logistique. Résumé de la 1e Partie. Mise en place du système Présentation Diapo01 Je m appelle Michel Canneddu. Je développe avec 4D depuis 1987 et j exerce en tant qu indépendant depuis 1990. Avant de commencer, je tiens à remercier mes parrains Jean-Pierre MILLIET,

Plus en détail

Présentation des données pour une analyse statistique

Présentation des données pour une analyse statistique Présentation des données pour une analyse statistique Ce document décrit les points essentiels à vérifier avant d analyser des données par un logiciel statistique. Sommaire I. Règles à respecter lors de

Plus en détail

Ecole Technique «Transformation de données documentaires» Poitiers, 14-16 mars 2011. Atelier 1: Sphinx. import, conversion, export de données

Ecole Technique «Transformation de données documentaires» Poitiers, 14-16 mars 2011. Atelier 1: Sphinx. import, conversion, export de données Ecole Technique «Transformation de données documentaires» Poitiers, 14-16 mars 2011 Atelier 1: Sphinx import, conversion, export de données Introduction à la Recherche d'ist via le Web INRA Grignon, 03/2011

Plus en détail

Contenu Microsoft Office 2013

Contenu Microsoft Office 2013 Contenu Microsoft Office 2013 Avec Windows 8.1 MODULE 1 INTRODUCTION À WINDOWS 8.1 SYSTÈME D EXPLOITATION WINDOWS 8.1 ENVIRONNEMENT DE WINDOWS 8.1 ÉCRAN D ACCUEIL DÉMARRAGE D UNE APPLICATION Revenir à

Plus en détail

CRÉATION D UNE ADRESSE DE MESSAGERIE

CRÉATION D UNE ADRESSE DE MESSAGERIE CRÉATION D UNE ADRESSE DE MESSAGERIE AVEC OUTLOOK.COM Outlook.com, la messagerie de Microsoft le successeur de Hotmail et de Live.fr dispose de nombreux outils (courriel, stockage de documents, suite allégée

Plus en détail

Le serveur SLIS - Utilisation de base

Le serveur SLIS - Utilisation de base Le serveur SLIS - Utilisation de base Le SLIS est un serveur de communication permettant entre autres de : Créer des adresses électroniques (des comptes de messageries)

Plus en détail

B2i Brevet Informatique. Internet. Livret de l enseignant

B2i Brevet Informatique. Internet. Livret de l enseignant B2i Brevet Informatique et Internet Ecole Livret de l enseignant 1. Maîtriser les premières bases de la technologie informatique. Toutes les activités nécessitant l utilisation de l ordinateur concourent

Plus en détail

SUPPORT DE FORMATION WORD : niveau 2

SUPPORT DE FORMATION WORD : niveau 2 SUPPORT DE FORMATION WORD : niveau 2 Espace public multimédia Le Cyber 49, rue Maurice Thorez 92000 Nanterre - Tél. : 01 41 20 08 41 www.nanterre.fr Sommaire Introduction...3 I. Bordures et trame... 4

Plus en détail

Sommaire. Qu est ce qu un blog? Blog / site : quelle différence? Les plateformes de blog

Sommaire. Qu est ce qu un blog? Blog / site : quelle différence? Les plateformes de blog Sommaire Qu est ce qu un blog? Blog / site : quelle différence? Les plateformes de blog Premiers pas sur Wordpress Créer un compte utilisateur Créer un blog Tableau de bord et administration Interface

Plus en détail

Portugais en ligne. Pour commencer votre apprentissage sur Portugais en ligne, accédez au site : portugaisenligne.com

Portugais en ligne. Pour commencer votre apprentissage sur Portugais en ligne, accédez au site : portugaisenligne.com Portugais en ligne Manuel de l étudiant... 1 Foire aux questions... 8 Manuel de l étudiant 1. Premiers pas 1.1 Devenir un utilisateur Sur le site du Portugais en ligne, les élèves mais aussi les professeurs

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Modèle d article et recommandations aux auteurs

Modèle d article et recommandations aux auteurs Rubrique Arima en pratique Le modèle A R I M A Modèle d article et recommandations aux auteurs Gaston Leblanc Département d informatique Université de Paris XXV 75099 PARIS Cedex FRANCE Gaston.Leblanc@univ-paris25.fr

Plus en détail

GUIDE Word (version intermédiaire) Version 2013

GUIDE Word (version intermédiaire) Version 2013 GUIDE Word (version intermédiaire) Version 2013 Table des matières 1. Les rubans... 2 2. Pagination... 4 3. En-tête et pied de page... 4 4. Note de bas de page ou des notes de fin de document... 6 5. Table

Plus en détail

Exploiter les EDI avec Optymo

Exploiter les EDI avec Optymo Exploiter les EDI avec Optymo Notes de lecture : dans ce document, les textes soulignés font référence aux libellés des fenêtres ou aux libellés associés à des boutons d Optymo, et les textes en caractères

Plus en détail

GED MARKETING. Page 1 sur 18

GED MARKETING. Page 1 sur 18 GED MARKETING I. Présentation du produit... 2 II. Page principale de l application... 3 L arbre... 3 Le menu... 4 La fenêtre de navigation... 4 III. La recherche de documents... 4 Rechercher tous les documents...

Plus en détail

MANUEL D UTILISATION DU SITE INTERNET (PUBLIER) Chapitre 18 : Remplir les champs pour une information, un récit,

MANUEL D UTILISATION DU SITE INTERNET (PUBLIER) Chapitre 18 : Remplir les champs pour une information, un récit, MANUEL D UTILISATION DU SITE INTERNET (PUBLIER) Chapitre 18 : Remplir les champs pour une information, un récit, (Nous ne ferons ici pas de rappel à d autres chapitres, sans quoi, chaque ligne écrite mériterait

Plus en détail

Norme de programmation pour le cours et les travaux pratiques

Norme de programmation pour le cours et les travaux pratiques Université du Québec École de technologie supérieure Service des enseignements généraux www.seg.etsmtl.ca INF130 Ordinateurs et programmation Norme de programmation pour le cours et les travaux pratiques

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

TP 8 : Créer son site web de D à Z...

TP 8 : Créer son site web de D à Z... TP 8 : Créer son site web de D à Z... Présentation Nous allons tenter de créer en 2 ou trois séances un site WEB de toute pièce. Vous devrez choisir un thème (ce que vous voulez, ou presque...). Vous établirez

Plus en détail

TECHNOLOGIE DE L INFORMATION

TECHNOLOGIE DE L INFORMATION Les FICHES-GUIDE du tableur-grapheur WORKS 4.5 pour WINDOWS TECHNOLOGIE DE L INFORMATION PRÉSENTATION de L ÉCRAN du TABLEUR de WORKS 4.5 pour WINDOWS Barre de titre Cellule sélectionnée ou cellule active

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Blerta Kokollari [INFORMATIQUE] Informatique Excel... 2. Les «Dollar» dans une formule... 2. Arrondir... 2. Graphique... 2. Formule...

Blerta Kokollari [INFORMATIQUE] Informatique Excel... 2. Les «Dollar» dans une formule... 2. Arrondir... 2. Graphique... 2. Formule... Informatique Excel... 2 Les «Dollar» dans une formule... 2 Arrondir... 2 Graphique... 2 Formule... 3 Formule dates... 4 Fonction Texte... 5 Fonction Recherche... 5 Rabais... 6 Validation... 7 Alerte d

Plus en détail

Fiche Pratique. MAJ le 10/04/2013

Fiche Pratique. MAJ le 10/04/2013 MAJ le 10/04/2013 Présentation du problème Vous avez deux choses à sauvegarder : 1. Votre système avec vos logiciels. On utilise dans ce cas un logiciel payant comme true image ou un logiciel gratuit comme

Plus en détail

Cours n 3 : Microsoft WORD

Cours n 3 : Microsoft WORD Cours n 3 : Microsoft WORD I. Introduction Il y a longtemps que l ordinateur a remplacé la machine à écrire, pour la saisie du texte. En effet, les gens on vite compris les apports et avantages que cela

Plus en détail

TD de statistique : introduction à R

TD de statistique : introduction à R TD de statistique : introduction à R Jean-Baptiste Lamy 11 octobre 2007 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre; il est disponible gratuitement

Plus en détail

CORRESPONDANCE WORD OPEN OFFICE WRITER

CORRESPONDANCE WORD OPEN OFFICE WRITER CORRESPONDANCE WORD OPEN OFFICE WRITER Table des matières La barre de menus...2 Remarques concernant les copies d écran des menus :...2 Menu Fichier...2 Menu Édition...3 Menu Affiche...4 Menu Insère...5

Plus en détail

TP Initiation au langage HTML

TP Initiation au langage HTML TP Initiation au langage HTML (1) Rappels de quelques généralités Un fichier HTML n'est pas compilé (ce n'est pas un programme) Un fichier HTML est un fichier texte simple, parfaitement lisible, respectant

Plus en détail

Manuel d utilisation de FormXL Pro

Manuel d utilisation de FormXL Pro Manuel d utilisation de FormXL Pro Gaëtan Mourmant & Quoc Pham Contact@polykromy.com www.xlerateur.com FormXL Pro- Manuel d utilisation Page 1 Table des matières Introduction... 3 Liste des fonctionnalités...

Plus en détail

INTERFACE WEB API ENVOI DE SMS EN MASSE NOTICE D UTILISATION MAJ : 22/06/2007

INTERFACE WEB API ENVOI DE SMS EN MASSE NOTICE D UTILISATION MAJ : 22/06/2007 INTERFACE WEB API ENVOI DE SMS EN MASSE NOTICE D UTILISATION MAJ : 22/06/2007 Ce document est destiné aux professionnels, qui ont choisi d utiliser notre API, via l interface WEB mise à leur disposition,

Plus en détail

Page 1/11. Préambule. Table des matières

Page 1/11. Préambule. Table des matières Page 1/11 Table des matières Préambule... 1 1- Le principe de «NuaFil»... 2 2 - Accueil de votre gestion de profil... 2 2-1 - La recherche de profils... 3 2-2- La liste de vos profils... 3 3 - Le référencement

Plus en détail

INITIATION A POWERPOINT

INITIATION A POWERPOINT INITIATION A POWERPOINT P. BESSON OCTOBRE 2000 SOMMAIRE Chap. 1 Découverte de POWERPOINT I. Démarrer Powerpoint 1. Lancement de l application 2. Boite de dialogue de démarrage de Powerpoint II. Structure

Plus en détail

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2 Sommaire I. SCENARII DE TRAITEMENTS...2 I.1 : Alimentation à partir d un fichier Access (.mdb)...2 I.1 : Vérification de l intégrité des traitements SQL sur la pyramide des ages...3 I.2 : Vérification

Plus en détail

Utilitaires Ellipses / Analyse des Ventes Activités des Caisses

Utilitaires Ellipses / Analyse des Ventes Activités des Caisses Utilitaires Ellipses / Analyse des Ventes Activités des Caisses I Préambule Cet utilitaire est accessible dans Ellipses via le menu «Utilitaires» / «C Compléments» puis «Analyse des Ventes» Ce programme

Plus en détail

Unix/Linux III. 1 re année DUT. Université Marne La vallée

Unix/Linux III. 1 re année DUT. Université Marne La vallée Unix/Linux III 1 re année DUT Université Marne La vallée 1 Recherche d un fichier find 2 3 4 5 6 La commande find permet de retrouver des fichiers à partir de certains critères. Syntaxe : find

Plus en détail

Le traitement de texte de la suite Open Office

Le traitement de texte de la suite Open Office Le traitement de texte de la suite Open Office Fichier utilisé : poesie.doc Open Office est une suite bureautique qui comporte traitement de texte, tableur, Présentation Assistée par Ordinateur (PréAO)

Plus en détail

GUIDE UTILISATEUR. http://mib.futuroffice.fr/

GUIDE UTILISATEUR. http://mib.futuroffice.fr/ GUIDE UTILISATEUR http://mib.futuroffice.fr/ SOMMAIRE Connexion Onglet E-mails 1. Gestion des expéditeurs 2. Gestion des e-mails stoppés Onglet Paramètres 1. Paramètres 2. Statistiques 3. Personnalisation

Plus en détail

Objectif. Insérer un tableau. Saisir du texte (passer d une cellule à l autre) Ajouter bordures et trames. Sélectionner une ligne, une colonne

Objectif. Insérer un tableau. Saisir du texte (passer d une cellule à l autre) Ajouter bordures et trames. Sélectionner une ligne, une colonne Objectif Après avoir saisi quelques lignes de textes avec les coordonnées de l école et le nom de la classe concernée, nous allons insérer un tableau pour dresser la liste des élèves d une classe. insérer

Plus en détail

Formation Communication Web Utiliser des outils de publications de contenus Tutoriel SPIP

Formation Communication Web Utiliser des outils de publications de contenus Tutoriel SPIP Formation Communication Web Utiliser des outils de publications de contenus Tutoriel SPIP Le SPIP utilisé par le site des Francas Pays de la Loire, qu est ce que c est? Le SPIP est un système de publication

Plus en détail

La Clé informatique. Formation Access XP Aide-mémoire

La Clé informatique. Formation Access XP Aide-mémoire La Clé informatique Formation Access XP Aide-mémoire Septembre 2003 Définitions de termes Base de données : Se compare à un énorme classeur ayant plusieurs tiroirs où chacun d eux contient des informations

Plus en détail

TD3 - Facturation avec archivage automatisé

TD3 - Facturation avec archivage automatisé TD3 - Facturation avec archivage automatisé Objectifs Insérer les formules nécessaires aux calculs d une facture. Créer une macro- commande avec l enregistreur de macros et l affecter à un bouton. Utiliser

Plus en détail

Manuel de mise en page de l intérieur de votre ouvrage

Manuel de mise en page de l intérieur de votre ouvrage Manuel de mise en page de l intérieur de votre ouvrage Merci de suivre strictement les recommandations de ce manuel qui a pour but de vous aider à préparer un livre dont la qualité de mise en page est

Plus en détail

I Open Résa. Sommaire :

I Open Résa. Sommaire : I Open Résa Sommaire : I Open Résa... 1 Définition :... 2 Identification... 3 Création d un nouveau dossier :... 8 Première méthode :... 10 Seconde méthode :... 10 Ajout d éléments à la proposition :...

Plus en détail

LA CREATION SOUS ORACLE DE VOTRE DOSSIER PERSONNEL SUR LE SITE INTERNET «INTRANET.U-PARIS10.FR»

LA CREATION SOUS ORACLE DE VOTRE DOSSIER PERSONNEL SUR LE SITE INTERNET «INTRANET.U-PARIS10.FR» LA CREATION SOUS ORACLE DE VOTRE DOSSIER PERSONNEL SUR LE SITE INTERNET «INTRANET.U-PARIS10.FR» JEAN-FRANÇOIS GUEUGNON (MODEM-UNIVERSITE PARIS X-NANTERRE) 2003-03 2 LA CREATION SOUS ORACLE DE VOTRE DOSSIER

Plus en détail

Le publipostage Word 2007

Le publipostage Word 2007 Le publipostage Word 2007 Définition Qu'est-ce que le publipostage? A quoi ça sert? S'il vous arrive de devoir envoyer un même courrier à un grand nombre de destinataires, le publipostage est fait pour

Plus en détail

OUTILS : Cliquez : Gestion + Cliquez : Editer catégories. Maxime MOLIMART UTM - Département de Sciences de l Education et de la Formation - 2006.

OUTILS : Cliquez : Gestion + Cliquez : Editer catégories. Maxime MOLIMART UTM - Département de Sciences de l Education et de la Formation - 2006. OUTILS : Durant la préparation de votre questionnaire ou à sa fin, il se peut que vous vous aperceviez que vous avez oublié et/ou commis des erreurs dans votre rentrée des données pour vos colonnes de

Plus en détail

Club informatique Mont-Bruno Windows : la gestion des dossiers et des fichiers Version Windows 7 Les initialisations

Club informatique Mont-Bruno Windows : la gestion des dossiers et des fichiers Version Windows 7 Les initialisations Club informatique Mont-Bruno Windows : la gestion des dossiers et des fichiers Document rédigé par Michel Gagné pour des séances de mars et avril 2013 Réédité pour des séances de mars 2014 Version Windows

Plus en détail

II. EXCEL/QUERY ET SQL

II. EXCEL/QUERY ET SQL I. AU TRAVAIL, SQL! 1. Qu est-ce que SQL?... 19 2. SQL est un indépendant... 19 3. Comment est structuré le SQL?... 20 4. Base, table et champ... 21 5. Quelle est la syntaxe générale des instructions SQL?...

Plus en détail

SEANCE 2 : REQUETES DE SELECTION & FORMULAIRES DE CONSULTATION

SEANCE 2 : REQUETES DE SELECTION & FORMULAIRES DE CONSULTATION SEANCE 2 : REQUETES DE SELECTION & FORMULAIRES DE CONSULTATION Année universitaire 20015-2016 Masters Économie Société - Finances Informatique appliquée SGBD Pierre-Henri GOUTTE La requête de sélection

Plus en détail

Formation tableur niveau 5 (Excel 2013)

Formation tableur niveau 5 (Excel 2013) Formation tableur niveau 5 (Excel 2013) L objectif général de cette formation est d améliorer les graphiques créés avec Excel pour qu ils soient plus percutants et de créer des graphiques originaux. Sommaire

Plus en détail

EXCEL 2007. Les bases de données

EXCEL 2007. Les bases de données EXCEL 2007 Les bases de données 1 LES BASES DE DONNEES a) Règles de bases... 3 b) Créer une base de données... 3 c) Le tri simple (1 seule clé)... 6 d) Le tri multiple (plusieurs clés)... 6 e) Les filtres...

Plus en détail

QUALIFICATION DE FICHIERS PROFESSIONNELS

QUALIFICATION DE FICHIERS PROFESSIONNELS QUALIFICATION QUALIFICATION DE FICHIERS PROFESSIONNELS 2 Téléchargement 3 Installation 7 Ecran d accueil 14 Qualification sur Score3 16 Qualification de fichiers sur Pages Jaunes 32 Configuration d internet

Plus en détail

1 Un objet aléatoire de base : le dé

1 Un objet aléatoire de base : le dé Dans le monde des statistiques, il est bien évident qu on ne fait plus aucun calcul à la main. Si nous le faisons en cours de mathématiques, c est pour mieux comprendre ce que font les divers logiciels

Plus en détail

Veuillez trouver ci-dessous les principales étapes à suivre ainsi que quelques conseils pratiques pour vous aider à soumettre la demande en ligne.

Veuillez trouver ci-dessous les principales étapes à suivre ainsi que quelques conseils pratiques pour vous aider à soumettre la demande en ligne. Bienvenus dans le Système de demande de subvention en ligne du Fonds de contributions volontaires des Nations Unies, disponible chaque année entre le 1 er janvier et le 1 er avril pour recevoir les demandes

Plus en détail

Fusion et publipostage d'étiquettes avec Word 2003

Fusion et publipostage d'étiquettes avec Word 2003 Fusion et publipostage d'étiquettes avec Word 2003 Pas mal de monde dit que le publipostage sous Word 2003 n'est pas aussi simple qu'avec les anciennes versions. Le publipostage d'étiquettes a effectivement

Plus en détail

Portail des communes Guide Référent ville

Portail des communes Guide Référent ville Portail des communes Guide Référent ville Services aux communes Introduction Vous êtes Référent pour votre commune et venez de recevoir vos identifiants de connexion à l ENT école. Ce document va vous

Plus en détail

pour apprendre le langage html

pour apprendre le langage html pour apprendre le langage html introduction : Voici ce que vous devez savoir avant de continuer : Tout d' abord, il faut préciser que le langage HTML est relativement simple mais que celui ci impose au

Plus en détail

5. Word - Ecrire un texte

5. Word - Ecrire un texte 5. Word - Ecrire un texte Entrons dans le vif du sujet en commençant par Word! Nous allons tout d'abord voir les bases de la mise en forme du texte, et l'insertion d'éléments. 1. Ecrire son premier texte

Plus en détail

Introduction : Le logiciel gère une pile des éléments textes du presse-papier de Windows.

Introduction : Le logiciel gère une pile des éléments textes du presse-papier de Windows. B. MALETTE : Fichier d'aide du logiciel «Presse papier» p. 1 Création mai 2013 dernière révision V 1.5._._ en mai 2015 Généralités : Le présent logiciel est libre de droit, il ne peut être vendu et reste

Plus en détail

Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA. Guide d'utilisation

Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA. Guide d'utilisation Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA Guide d'utilisation 8 novembre 2013 2/14 Table des matières 1 Introduction... 3 2 Accès au service... 3 3 Aperçu du service...

Plus en détail

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles

Plus en détail