La chaîne documentaire

Documents pareils
Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Documalis. Denis SCHIRRA GSM : Plus d information sur notre site Internet

Compte-rendu re union Campus AAR 3 mars 2015

PROSOP : un système de gestion de bases de données prosopographiques

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Master Technologies numériques appliquées à l'histoire Deuxième année

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

PRESENTATION 2009 L'ingénierie Documentaire

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

BES WEBDEVELOPER ACTIVITÉ RÔLE

Thierry BOULANGER. par la pratique. Bases indispensables Concepts et cas pratiques XML. 3 ième édition. Nouvelle édition

Catalogue des formations Edition 2015

Gestion Électronique de Documents et XML. Master 2 TSM

LES GRANDES ETAPES DE CREATION D UN WEB DESIGN

Gestion collaborative de documents

SII Stage d informatique pour l ingénieur

Conférence de presse

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Créer une base de données vidéo sans programmation (avec Drupal)

Couplage d une base de données documentaire à une visualisation interactive 3D sur l Internet

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

XML : documents et outils

Sommaire. Introduction. Nouveautés d Adobe InDesign CS3. Visite guidée d Adobe InDesign

La conservation à long terme de contenus numériques

Présentation générale du projet data.bnf.fr

PloneLabs un gestionnaire de contenu pour les laboratoires

Adobe Technical Communication Suite 5

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

Master Information et communication spécialité Produits et services multimédia

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

XML et travail collaboratif : vers un Web sémantique

Bases de données documentaires et distribuées Cours NFE04

Optimisez vos échanges avec vos clients. RF-CLOUD, l espace d échanges et de stockage sécurisés de vos documents professionnels!

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

Document d aide au suivi scolaire

LES REFERENTIELS DES TROIS BACCALAUREATS PROFESSIONNELS DU TERTIAIRE COMMERCIAL VENTE COMMERCE SERVICES

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar


Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

Traitement numérique de l'image. Raphaël Isdant

Solution documentaire globale. Présentation du 14 janvier 2010

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Le livre numérique désigne le contenu de lecture que l on intègre dans ces liseuses. Ses synonymes sont : le livre électronique, l ebook et le livrel.

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Programmation Internet Cours 4

Drive your success. «Un écosystème complexe implique une capacité de gestion temps réel des aléas»

Plan. Contexte technologique. Introduction. Environnement réseauté. Documents structurés. L écrit électronique. Introduction.

Quels apprentissages info-documentaires au collège?

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

Gestion documentaire (Extraits du CCI version 1.2)

Quels sont les enjeux?

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Modules Multimédia PAO (Adobe)

La Convergence des outils de veille et des sources

Initiation à la bureautique

«Expertise de ressources «pour l édition de revues numériques

LES FORMULES DE PUBLICATION

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

RESPONSIVE WEB DESIGN

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

May Lopez PETIT COUTEAU SUISSE CRÉATIF. May Lopez Petit couteau suisse créatif

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Atelier du 25 juin «Les bonnes pratiques dans l ing» Club

Votre référentiel documentaire. STS.net Solution de gestion et de conservation des actifs documentaires de l entreprise

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

VOLÉE Master of Advanced Studies RAPID APPLICATION DEVELOPMENT.

Annotation collaborative en ligne de l'archive manuscrite

Activité : Élaboration, mise en forme et renseignement de documents

RTDS G3. Emmanuel Gaudin

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Utilisation de l éditeur.

Système de gestion de contenu

Mon aide mémoire traitement de texte (Microsoft Word)

Big Graph Data Forum Teratec 2013

PHOTOSHOP - L'AFFICHAGE

Unix/Linux I. 1 ere année DUT. Université marne la vallée

! "! #! $%& '( )* &#* +,

Pérennisation des Informations Numériques

nom : Collège Ste Clotilde

Bibliothèque numérique de l enssib

MEMOIRE pour obtenir le Titre professionnel "Chef de projet en ingénierie documentaire" INTD niveau I. présenté et soutenu par Stéphane Héroult

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Archivage. des dossiers

Transcription:

La chaîne documentaire Cours Document et Web Sémantique Nicolas Malandain, Nicolas Delestre Chaîne documentaire - v1.0 1 / 29

1 Le document Description Contenu & Forme Diffusion Interprétation 2 La chaîne de traitements Problématique Reconstruction document papier Interprétation 3 Le sens du document Interprétation Indexation 4 Conclusion Chaîne documentaire - v1.0 2 / 29

Quelques définitions Définitions Larousse pièce écrite servant d information, de preuve Wikipedia ensemble de données informatives présentes sur un support, sous une forme permanente et lisible par l homme ou une machine Chaîne documentaire - v1.0 3 / 29

Évolution des supports La pierre les peintures rupestres La tablette d argile en Mésopotamie 4 e millénaire avant JC recto-verso, lecture haut-bas, droite-gauche (forme la plus ancienne d écriture) Le Papyrus Égypte et proche orient 3e millénaire avant JC craint le pliage, l humidité et le feu apparition du Volumen : rouleau formé de deux axes verticaux, que l on déroule. longueur jusqu à 15 mètres nécessite les deux mains pour le dérouler et lire ne permet pas de relire quand on écrit, pas de marquage possible très utilisé pour la lecture à haute voix Chaîne documentaire - v1.0 4 / 29

Le parchemin Pergame (aujourd hui Bergama, Turquie) 2 e millénaire avant JC fabriqué à partir de peau (mouton/chèvre) souple écriture des deux côtés apparition du Codex : assemblage de parchemins la bible est copiée par les chrétiens sur codex Le papier Chine 2 e millénaire avant JC monopole de 6 siècles se répand à partir de 751 arrive en Europe au 12 e siècle support souple et léger, il se conserve mieux au 15ème siècle apparition de l imprimerie avec Gutenberg Dématérialisation de nos jours le document se dit électronique ou numérique et n a plus de support spécifique. Chaîne documentaire - v1.0 5 / 29

Caractérisations Un document se caractérise par : Son contenu Sa forme Sa diffusion Son utilisation Son interprétation Chaîne documentaire - v1.0 6 / 29

Contenu Avant le document numérique contenu unique texte / image / vidéo / voix /... accès séquentiel ou direct quelques mélanges : livre avec texte et image duplication pouvant entraîner des pertes À l ère du document numérique contenu totalement hétérogène : texte + image + vidéo + voix... accès séquentiel / direct / hypertextuel duplication 100% conforme à l original Chaîne documentaire - v1.0 7 / 29

Forme Avant le document numérique support physique humainement déchiffrable stockage volumineux et relativement pérenne À l ère du document numérique le support est lié au stockage, mais non à l utilisation stockage peu volumineux quasiment humainement indéchiffrable le support est pérenne mais les documents non (problème de format) Chaîne documentaire - v1.0 8 / 29

Accélération de la diffusion Changement du support poids transport copie disparition du support Changement de la publication rédaction : des élites au quidam publication : des éditeurs au quidam moins de sélection disponibilité immédiate Chaîne documentaire - v1.0 9 / 29

Nombre de sites web source : www.netcraft.com Chaîne documentaire - v1.0 10 / 29

L évolution de son utilisation E-Book Interface Prototype Demo.mp4 Chaîne documentaire - v1.0 11 / 29

Le mécanisme de la communication Frontière Référentiel A Référentiel B Chaîne documentaire - v1.0 12 / 29

Le mécanisme de la communication Frontière Référentiel A Coder Référentiel B Décoder Décoder Coder Chaîne documentaire - v1.0 12 / 29

Le triangle sémiotique Signifié Concept Mot Signifiant Objet Référent Chaîne documentaire - v1.0 13 / 29

L interprétation d un document Elle dépend écriture/lecture asynchrone écriture/lecture référentiels différents homme homme / homme machine / machine machine codages multiples mises en forme Elle nécessite L ajout de données sur un document : métadonnées Par exemple : l auteur du document, la date de parution Ces métadonnées peuvent être intrinsèques ou externes Chaîne documentaire - v1.0 14 / 29

Une chaîne de traitements, pourquoi? Quels sont les problèmes liés aux documents? Pérennité la masse de documents papiers, audio et vidéo (analogiques) existante la masse d information papier/audio/vidéo en perpétuelle augmentation la masse de documents électroniques en perpétuelle augmentation la perte importante de documents le stockage Accès à l information accès distant mise en relation de documents recherche d informations : une aiguille dans une meule de foin langues méta-informations mises à jour format Chaîne documentaire - v1.0 15 / 29

Présentation d une chaîne de traitements générale <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/tr/xhtml1/dtd/xht ml1-transitional.dtd">... <dt class="portletheader"> <span class="portlettopleft"></span> <a href="http://www.insarouen.fr">évènements à venir à l'insa de Rouen</a> <span class="portlettopright"></span> </dt> <dd class="portletitem"> <a href="http://www.insarouen.fr/accueil/l2019insa-de-rouenaccueille-le-festival-regards-sur-lecinema-du-sud" Document papier Document électronique «structuré» Document image Document électronique «standardisé» retro-conversion Archivage et Indexation Exemple de chaînes de traitements Projets à grande échelle : BnF, Google (Google books) GED pour les entreprises : Nuxeo GED pour les particuliers : Paperwork https://github.com/jflesch/paperwork Chaîne documentaire - v1.0 16 / 29

Numérisation 3 formats format papier format électronique image format électronique structuré Chaîne documentaire - v1.0 17 / 29

Le document La chaı ne de traitements Le sens du document Conclusion Le format image Chaı ne documentaire - v1.0 issu de l utilisation d un scanner information de plus bas niveau format bitmap de crivant chaque pixel seul le pixel est connu de l ordinateur volumineux 18 / 29

Le document La chaı ne de traitements Le sens du document Conclusion Reconnaissance du document Quelques e tapes redressement binarisation et segmentation reconnaissance des caracte res typage de la structure logique traduction dans un format Chaı ne documentaire - v1.0 19 / 29

Le document La chaı ne de traitements Le sens du document Conclusion Reconnaissance du document Quelques e tapes redressement binarisation et segmentation reconnaissance des caracte res typage de la structure logique traduction dans un format Chaı ne documentaire - v1.0 19 / 29

Reconnaissance du document Quelques étapes redressement binarisation et segmentation reconnaissance des caractères typage de la structure logique traduction dans un format Chaîne documentaire - v1.0 19 / 29

Difficultés 1 / 2 Variabilité du contexte mise en page : journal, magazine, livre, article scientifique culture : langue, sens de lecture... Variabilité de la présentation police de caractère taille, style alignement... Chaîne documentaire - v1.0 20 / 29

Difficultés 2 / 2 Structuration caractères, mots, paragraphes,... structure logique typée titres, sous titres,... colonnes tableaux types d images (photo, schéma,...) fil de lecture Chaîne documentaire - v1.0 21 / 29

Interpréter un document Extraire du sens Mais dans quel but? L interprétation d un document n a de sens qu en fonction du besoin La compréhension en fonction de l objectif indexation recherche d information particulière (extraction) correction orthographique / grammaticale veille technologique résumé automatique traduction automatique... Chaîne documentaire - v1.0 22 / 29

Le document La chaı ne de traitements Le sens du document Conclusion Documents a indexer Contenu d un document e lectronique texte son image video une indexation principalement textuelle exemple de re sultats de l algorithme de Google Chaı ne documentaire - v1.0 23 / 29

Indexation de document xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx x... Objectif sélectionner les informations caractéristiques dans le document extraire ces informations pour en faire une représentation représentation structuré : métadonnées représentation structurée stockage : du document ou d'une référence de sa représentation document structuré texte représentation du texte requête sur la représentation MD images représentation des images documents approchant la requête... Deux types d indexation 1 manuelle 2 automatique Chaîne documentaire - v1.0 24 / 29

Indexation manuelle Caractéristiques Elle permet de fixer des valeurs à la représentation structurée : Ces valeurs peuvent être structurée (utilisation de thésaurus) ou pas (mots libres) Elle n est réalisable que lorsque le nombre de documents est faible Elle peut varier en fonction de l indexeur Paramètres variables personne (connaissance, subjectivité,...) temps technique objectif langue... Chaîne documentaire - v1.0 25 / 29

Indexation automatique Caractéristiques Elle permet d indexer de gros volumes de documents Elle permet de renseigner la représentation structurée et la représentation non structurée représentations structurée : à partir des métadonnées associées aux documents (facile si ce sont les mêmes, difficile sinon) ou à partir d une analyse du texte représentation non structurée : à partir d une analyse du texte Chaîne documentaire - v1.0 26 / 29

Indexation plein texte Principe Extraire automatiquement des informations caractérisant le texte Analyse du texte segmentation (tokenization) : découpage analyse lexicale : association des tokens à des lemmes + propriétés analyse syntaxique : détermination de la classe morpho-syntaxique dans le corpus... Extraire les informations pertinentes Qu est ce qu un mot pertinent : fréquence importante? mot seul? co-occurences? structure logique : résumé, titre,...... = pondération des mots = association des mots de poids important au document Chaîne documentaire - v1.0 27 / 29

Conclusion 1 / 2 Plan du cours Du document papier au document numérique Rappels : XML le métalangage de représentation des documents DTD le langage (non XML) de base de description de grammaires XML XPath le langage (non XML) d identification/de désignation d une partie d un document XML XSLT le langage (XML) de transformation de documents XML XSD le langage (XML) de description de grammaires XML Chaîne documentaire - v1.0 28 / 29

Conclusion 2 / 2 Plan du cours La recherche d information avec des représentations de documents non structurées Les métadonnées où la recherche d information avec des représentations structurées RDF et SPARQL où comment représenter et interroger des métadonnées RDFS et OWL où comment définir des schémas de métadonnées Prolog où comment raisonner/inférer sur des données Chaîne documentaire - v1.0 29 / 29