Les données orales du CRDO. Michel Jacobson Direction des Archives de France



Documents pareils
Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

Le standard d'échange de données pour l'archivage (SEDA)

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Outils informatiques de manipulation de la vidéo et du son : une introduction

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Business & High Technology

Programme national de numérisation. Ministère de la Culture et de la Communication. Appel à projets de numérisation 2010

Premiers pas avec NetSupport SCHOOL

NORMES DE LIVRAISON DES MESSAGES PUBLICITAIRES ET MESSAGES D INTÉRÊT PUBLIC COMMERCIAUX APTN

Gestion collaborative de documents

Un serveur d'archivage

La conservation à long terme de contenus numériques

Webinaires Recette de cuisine : transmission en direct des séminaires Aristote et autres événements

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

Référentiels de représentation des contenus

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

La modernisation technologique du réseau repose alors sur plusieurs axes de travail :

Conférence EDIFICAS. Le document électronique et sa valeur probante

SIP. Sommaire. Internet Multimédia

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Solution documentaire globale. Présentation du 14 janvier 2010

Livre Blanc WebSphere Transcoding Publisher

Compte-rendu re union Campus AAR 3 mars 2015

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Dafoe Présentation de la plate-forme UIMA

Advene, une plate-forme ouverte pour la construction d'hypervidéos

Initiation à Mendeley AUT2012

Architecte Logiciel. Unité de formation 1 : Développer en s appuyant sur les modèles et les frameworks 7 semaines

Avant-propos 1. Avant-propos Organisation du guide À qui s'adresse ce guide?...4

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

N SIMON Anne-Catherine

4. SERVICES WEB REST 46

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Annotation collaborative en ligne de l'archive manuscrite

Devenez un véritable développeur web en 3 mois!

Présentation de la plateforme WINDCHILL. Invitation à rejoindre la plateforme

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

PROSOP : un système de gestion de bases de données prosopographiques

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

UE11 Phonétique appliquée

Constituer et gérer une bibliographie avec le logiciel zotero. Support de cours et liens utiles

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

Alfresco Guide Utilisateur

La documentation, l archivage et la dissémination des micros-données au Sénégal NIANG Mamadou OBJECTIFS

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

May Lopez PETIT COUTEAU SUISSE CRÉATIF. May Lopez Petit couteau suisse créatif

Joomla! Création et administration d'un site web - Version numérique

WEB & DÉVELOPPEMENT LES BASES DU WEB LE LANGAGE HTML FEUILLES DE STYLES CSS HISTORIQUE D INTERNET ET DU WEB LES DIFFÉRENTS LANGAGES

Sextant V4.0. Le portail de diffusion de l information géographique de l Ifremer. Sextant Présentation générale

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Institut Supérieure Aux Etudes Technologiques De Nabeul. Département Informatique

Dispositif e-learning déployé sur les postes de travail

Master Technologies numériques appliquées à l'histoire Deuxième année

QoS et Multimédia SIR / RTS. Introduction / Architecture des applications multimédia communicantes

BES WEBDEVELOPER ACTIVITÉ RÔLE

Comment utiliser le lecteur MP3?

Annexe : La Programmation Informatique

Archivage pérenne : les formats conformes Version :

L importance des choix juridiques pour la médiation dans l environnement numérique

Les archives ouvertes

NIANG Mamadou Agence Nationale de la Statistique et de la Démographie (ANSD); Rue de St Louis x Rue de Diourbel Point E Dakar Sénégal Site web:

creer votre site internet en html/css

Etapes de création d une revue électronique

Gestion documentaire (Extraits du CCI version 1.2)

Alfresco et TYPO3 Présenté par Yannick Pavard dans le cadre des rencontres WebEducation Février 2008

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

ARCHIVES DEPARTEMENTALES DU NORD

Création d un site web avec le kit labo CNRS. Expérience au LMV - Ch. Postadjian (Laboratoire de Mathématiques de Versailles - UMR 8100)

Systèmes d Information (SI) Zohra Zelfani

Les ressources informatiques et la mise en ligne des documents numérisés Enquête DLL juin-décembre 2008

FileMaker Server 12. publication Web personnalisée avec XML

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Pourquoi migrer vers NAV 2013?

Cours: Administration d'une Base de Données

Une version javascript sera disponible directement dans le cours prochainement.

Application du logiciel ELAN à l'annotation linguistique

Apprentissage Automatique

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

FORMATION TALEND. Page 1 sur 9

Documentation utilisateur du front-office de Géo-IDE Catalogue

Ministère de la Culture et de la Communication

ORDONNANCEMENT CONJOINT DE TÂCHES ET DE MESSAGES DANS LES RÉSEAUX TEMPS RÉELS 4. QUELQUES EXEMPLES DU DYNAMISME ACTUEL DU TEMPS RÉEL

Mes documents Sauvegardés

FICHE 17 : CREER UN SITE WEB

Programme-cadre européen pour la recherche et l innovation. Horizon Lignes directrices pour la gestion des données dans Horizon 2020

Burckel Thomas. Formation. Compétences

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

Urbanisation des Systèmes d'information

Application Web et J2EE

Les outils de création de sites web

Transcription:

Les données orales du CRDO Michel Jacobson Direction des Archives de France 1

Plan 1.Les types d'objet manipulés par le CRDO 2.Les fonctions de pré-ingestion 3.Les fonctions d'accès 2

1. Les types d'objets manipulés Pour que les ressources soient éligibles il faut qu'il s'agisse: D'enregistrements de la parole Accompagnés éventuellement d'annotations Dont le but est d'étudier la langue ou le langage Constitués dans le cadre d'une démarche scientifique Par ou pour la communauté SHS 3

Le périmètre Un enregistrement de parole: Types de production orale: Récits, conversation, élicitations, textes lus, logatones... Type de locuteurs: Vous et moi, des enfants avant 2 ans, des personnes atteintes de trouble de la parole (pas actuellement dans l'entrepôt) Différentes langues. Il existe environ 6000 langues (ref. cataloge ethnologue) dont une infime partie possède une tradition d'écriture. Type de situation: interactions au travail, interviews, expériences en chambre sourde... 4

Le périmètre Un enregistrement de parole: Ca ne veut pas dire enregistrement audio Langues des signes Langage enfantin Interactions dans un groupe En général les enregistrements sont audio ou vidéo mais on rencontre aussi des enregistrements de mesures physiologiques (electroglotogramme, endoscopie, IRMf...) Ces enregistrements peuvent être accompagnés d'annotations (transcriptions, traductions, indications scénographiques, analyses syntaxiques, prosodiques, etc.) 5

Description des ressources Les enregistrements Audio format = wav, codage = pcm, fréquence: >= 44.1 Khz, taille de l'échantillon >= 16 bits Vidéo En attente des prescriptions du CINES Les annotations format = xml, encodage = utf-8, différents schémas et dtd format text seul, encodage ascii ou utf-8 format jpeg (pour les scans de manuscripts) Des métadonnées Format xml, encodage utf-8, schémas d'olac 6

Exemple d'une ressource type Récit de 7 minutes, enregistré en 2005, transcrits en 2007 par Guillaume Jacques (CNRS/CRLAO). Langue Japhug. Chine (Sichuan, Maerkang, Bar-khams) Démo 7

La nouvelle organisation 8

2. Les fonctions d'entrée Les fonctions de pré-ingestion 9

Pré-ingestion Interface avec les producteurs pour Aide à l'édition des données (outils d'édition, formations) Aide à la normalisation des données Aide à la construction des métadonnées Prévalidation des données un outil a été crée pour les fichiers audio: vérification du format, du codage, de la qualité utilisée... Xerces pour la validation des fichier xml Validation de l'exactitude et de la complétude des métadonnées par des documentalistes Constitution et versement du SIP au CINES lorsque tout est ok 10

3. Les fonctions d'accès Les fonctions d'accès 11

3. Les fonctions d'accès Des moteurs de recherche Des outils de consultation La Diffusion 12

3.1. Des moteurs de recherche Moteurs de recherche accéssibles sur le site web du CRDO Par simple mot-clef Par catégories Dublin-core Par une carte géographique (googlemaps) Par un axe temporel (simile timeline) La recherche peut être effectuée par les moteurs de recherche des fournisseurs de services qui ont moissonné l'entrepôt du CRDO En général exploite les catégories Dublin-Code (OAIster) ou OLAC (LinguistList) 13

Recherche par mot-clef 14

Recherche par categorie D-C 15

Résultats d'une recherche 16

Recherche par point d'enquête 17

Recherche par date de création 18

3.2. Des outils de consultation Feuilles de styles xslt pour présenter les transcriptions et les métadonnées Outil de synchronisation (plugin + javascript) Outil de découpage d'extrait sonore (servlet java) 19

Consultation des métadonnées 20

Consultation audio + transcription 21

Consultation vidéo + transcription 22

3.3. Publication référencement Le CRDO s'est organisé sous la forme d'un entrepôt OAI. Le protocole OAI-PMH est implémenté sous forme d'une sevlet java. Des fournisseurs de ressources moissonnent régulièrement l'entrepôt et offrent des moteurs de recherche dans un ensemble plus large d'entrepôts Des portails web moissonnent régulièrement l'entrepôt pour offrir des consultations particulieres des ressources ou des vues partielles de l'entrepôt Corpus de la parole: portail sur les langues de France Dallith: portail sur les langues de la zone himalayenne (archives du CRDO + Univ of Virginia) Lacito: portail sur les ressources des chercheurs de ce labo 23

http://corpusdelaparole.culture.fr/ 24

http://dallith.vjf.cnrs.fr/ http://corpusdelaparole.culture.fr/ 25