Une infrastructure pour les humanités numériques Une des TGIR en SHS (Progedo : données quantitatives, enquêtes). Très grande infrastructure de recherche (TGIR) pour les «humanités numériques». Généraliste, multidisciplinaire, centrée sur les données de la recherche +100 équipes impliquées Issue de la fusion en mars 2013 de la TGIR Corpus-IR et du TGE Adonis 3 tutelles (CNRS-INSHS / AMU / Campus Condorcet UMS avec comité de pilotage et comité scientifique
Missions Faciliter le tournant numérique de la recherche en sciences humaines et sociales dans la production et la réutilisation de données numériques Concertation collective par et avec les communautés scientifiques Coordonner la participation de la France dans DARIAH-EU Services numériques pour les données et les métadonnées de la recherche
Une cible : les données de la recherche Production de corpus Production de données (chercheurs, labos, msh) Concertation collective par les communautés (consortiums) Gestion temporelle des données
Accompagner les communautés Réseaux disciplinaires internationaux.ex Projets de recherche UMR et EA
Consortiums - Dariah Isidore Nakala Archivage à venir Activités 2014 1. Concertation (Consortiums-Dariah)
Consortiums - Dariah Isidore Nakala Archivage - à venir Consortiums
Les consortiums (2014) AG en janv. 2014 123 labos impliqués 50% MSH 2 créations (SHS3D ; Musica) sur 3 demandes Effet de la fusion, les consortiums utilisent les services de la TGIR : 9/11 consortiums proposent des contenus pour Isidore 11/11 consortiums utilisent la grille de service
2015 : consortiums Accroître l interaction entre les consortiums et les services de la TGIR (réflexion avec le CP/CS) Accroître l interaction consortiums + MSH + services de la TGIR
Consortiums - Dariah Isidore Nakala Archivage - à venir Dariah
1/ DARIAH, c est Une infrastructure européenne visant à développer et soutenir la recherche et la formation dans toutes les disciplines des sciences humaines et sociales o Distribuée o Pour les chercheurs, par les chercheurs Les données qualitatives sont privilégiées : textes, sons, images, vidéos
Des activités en réseau Entre 15 pays et pour toutes les disciplines des SHS Chaque pays membre met à disposition : Des plateformes Des données Des formations (écoles d été..) Des expertises Des compétences techniques (identifiants pérennes, préservation à long terme...) Des répertoires (de normes, de bonnes pratiques, de formations en HN ) Pays Membres : Allemagne, Autriche, Belgique, Chypre, Croatie, Danemark, France, Grèce, Irlande, Italie, Luxembourg, Malte, Pays-Bas, Serbie, Slovénie
Un ERIC ERIC ou European Research Infrastructure Consortium Consortium de pays (et non d institutions) Enjeu : pérennité des infrastructures (ERIC DARIAH créé en 2014 pour 20 ans) Gouvernance : l AG des pays membres est l organe décisionnaire souverain Siège social : France
Bref historique 2006 : DARIAH dans la feuille de route ESFRI 2008-2011 : Phase préparatoire (mise au point du projet scientifique et des statuts) 2011-2014 : Phase de transition (établir l ERIC DARIAH en intégrant les activités nationales) 2014 : création de l ERIC DARIAH (15 août : création officielle par la Commission Européenne, 17 novembre : inauguration au MENESR)
2/ Le réseau DARIAH Le contexte technologique en constante évolution pose un certain nombre de défis aux SHS : Accès à des quantités inédites de données Intégrité Origine et contexte de production Préservation sur le long terme Formats standardisés et interopérabilité Respect de la vie privée Propriété intellectuelle Etc.
Des éléments de réponse DARIAH promeut les principes suivants : Le libre accès pour les matériaux de la recherche La certification des entrepôts La fourniture d identifiants pérennes Le développement de l archivage à long terme Des recommandations (formats, bonnes pratiques) La promotion de la décentralisation et propose un réseau de ressources et d activités mises à disposition par les pays membres
Un réseau de plateformes Blogs scientifiques Données Annonces d événements Archives ouvertes
Un réseau pour les formations Universités d été (DE) Matériels pédagogiques multilingues Programme doctoral (IE)
Un réseau pluridisciplinaire Archéologie Histoire médiévale et contemporaine Bourses dans le domaine de l édition de textes Histoire de l holocauste Ontologie sur les méthodes (DH)
3/ Participer à DARIAH, c est : Accroître la visibilité de ses recherches au niveau européen Accroître l accès aux données de la recherche, aux outils et aux services dans le domaine des HN Bénéficier de ces outils et services, au-delà du temps de financement de son projet Développer son réseau de collaborations Faire partie de l écosystème (TGIR Huma-Num, DARIAH, Research Data Alliance ) Augmenter ses chances de financement sur le plan national et sur le plan européen (cf. H2020) La participation à DARIAH est ouverte
Consortiums - Dariah Isidore Nakala Archivage - à venir Activités 2014 2. Dispositif technologique (Archivage, Isidore, Nakala)
Dispositif technologique Une infrastructure numérique Archivage à long terme Isidore Nakala Grille de services en partenariat avec
Consortiums - Dariah Isidore Nakala Archivage - à venir Isidore
Service de signalisation de données
2014 : relance de l évolution d Isidore Passage crucial au multilinguisme : en, es, fr Travaux avec le CS sur la question du périmètre des sources Prospective : «Isidore Lab»
Isidore : 2015 mise en œuvre du multilinguisme Isidore on demand Isidore API Isidore Mobile
Consortiums - Dariah Isidore Nakala Archivage - à venir Nakala
Nakala : Un nouveau service Définition et mise en œuvre d un service de stockage, gestion, diffusion de données : Nakala (Swahili : copie)
Exposition de données 00111 10101 00111 10101 00111 10101 Données 00111 10101 00111 10101 Identifiant Affectation d un handle utilisé pour la citation et l accès Accès permanent à la ressource Accès interopérable à la description Documentation par des métadonnées standardisées associées à des protocoles d échange
Un identifiant 00111 10101 00111 10101 00111 10101 Donnée 00111 10101 00111 10101 Handle Plusieurs possibilités pour citer la donnée et l intégrer dans un autre site Une URL basée sur le nom de domaine Nakala http://nakala.fr/data/11280/13add6e9 Une URL plus générique associée au mécanisme du handle http://hdl.handle.net/11280/13add6e9
Accès interopérable 00111 10101 00111 10101 00111 10101 Métadonnée 00111 10101 00111 10101 Entrepôt OAI Triple Store Chaque déposant dispose de son propre entrepôt OAI Partager ses données et faciliter leur signalement dans ISIDORE Les métadonnées sont accessibles via les technologies du «Web de données» Bâtir des applications et relier les données à d autres entrepôts
En pratique Une interface pour traiter les lots de données (batch) Description des métadonnées en XML Envoi sous forme de paquets Script multi-plate-forme en Java <nkl:data xmlns:nkl="http://nakala.fr/schema#" xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xmlns:dcterms="http://purl.org/dc/terms/" xsi:schemalocation="http://purl.org/dc/terms/ http://dublincore.org/schemas/xmls/qdc/2008/02/11/dcterms.xsd"> <dcterms:title>venezuela : Estado Portuguesa : Guanare : Esquina Calle 13 et Carrera 5 : Vue d'une rue bordée d'habitations collectives et d'une friche urbaine</dcterms:title> <dcterms:creator>pouyllau, Michel</dcterms:creator> <dcterms:type>image</dcterms:type> <dcterms:created>1983</dcterms:created> <dcterms:subject>[shs:geo] Humanities and Social Sciences/Geography</dcterms:subject> <nkl:incollection>11280/a19a5e26</nkl:incollection> <nkl:relation type="http://purl.org/dc/terms/isversionof">11280/bf86bec2</nkl:relation> <nkl:relation type="http://purl.org/dc/terms/isrequiredby">11280/bf86bec2</nkl:relation> </nkl:data>
En pratique Une interface web Dépôt des données Gestion des métadonnées Gestion des collections Gestion des droits
En pratique Utilisation de la fédération d identité RENATER Permettre de se connecter avec les identifiants de son établissement Protéger l accès aux données Validation des formats avec le service FACILE du CINES Intégration de la validation de format dans l interface web et dans le batch
Pour résumer Nakala est un service de stockage Identifiant pérenne de niveau international (handle) Stockage sécurisé (avec câblage pour l archivage) et un service d exposition de données OAI-PMH Base de données RDF Il s adresse aux équipes et projets de recherche n ayant pas les moyens de mettre en œuvre ces fonctionnalités Service en mode SAAS (la TGIR prend en charge l évolution du service)
Autrement dit Vous décharge de la gestion des données Prends en charge le partage interopérable des données Dissocie les données de l outil (ou des outils) de présentation Prépare l entrée des données dans ISIDORE et facilite le processus d archivage à long terme
Consortiums - Dariah Isidore Nakala Archivage - à venir Archivage
L archivage à long terme Pourquoi? 00111 10101 00111 10101 00111 10101 Données 00111 10101 nativement numériques ou produit de numérisation 00111 10101 Destruction numérique Documentation(s) Aucune information sur le contexte Support Format Plus personne ne sait que le document existe Détérioration Dispositifs de lecture Plus d outils pour le lire Pas de documentation pour recréer un outil Système et/ou Matériel disparus
L archivage à long terme Différence entre stockage intermédiaire (Sharedocs, Seafile ) et archivage à long terme. Passage du projet pilote en production Convention avec le CINES (archivage données SHS) 5 nouveaux projets TEI/XML (avec les consortiums, le CLEO, MSHs, Atilf) 3D (avec le consortium SHS3D) Ethno/Musico avec la MMSH + MAE «pré-cablage» de services de la grille vers l archivage à long terme Coordination avec l Equipex Ortolang sur l archivage des données de linguistique
Bilan des objectifs 2014 Développement des consortiums : DARIAH-FR : accompagner les contributions à la création de l ERIC Relancer l évolution d Isidore : Ouvrir de nouveaux services pour les données : Mise en production de l archivage à long terme : Refonte de l architecture de la grille de service (2015)
Consortiums - Dariah Isidore Nakala Archivage - à venir À venir
Une nouvelle grille de services LE grand chantier 2014-2015 Diagnostic établi en 2013-14. Compétence mais faible visibilité des services, hébergement web disparate posant des problèmes de cycle de vie des projets et d accès aux données, de curation, de sécurité. Deux étapes 2014 : bilan, études, projets, tests 2015 : mise en place, version bêta, déploiement, mise en production
Grille de services : écosystème Equipex Biblissima OpenEdition Institutions, structures FMSH MSH Méthodologie partagées RNMSH Equipex Consortiums Grille Huma- Num
Grille de services : typologie des besoins Traiter des données Tester et découvrir Edition web Systèmes d information
Grille de services : propositions Encoder en XML, en RDF Expérimenter un outil Déployer un système d information Diffuser des corpus scientifiques
Les critères de la refonte «Du clef en main» au «sur mesure». Inciter la «montée» en compétence des équipes en proposant des outils maintenus par Huma-Num en proposant un éventail d offre s adressant aussi bien aux «débutants» qu aux projets «experts». Développement de services reposant sur la distinction entre données et diffusions / publications des données Multi-représentation des données : traiter la donnée avec «plusieurs regards» via plusieurs vues Porter cette vision dans DARIAH-EU Porter ce dispositif au cœur du Campus Condorcet
Grille de services : vers une nouvelle architecture SAAS (soft as a service) Packs logiciels (bibliothèques numériques, fond d archives scientifiques ) Systèmes d information ad hoc IAAS (infra as a service) Nakala Machines et conteneurs virtuels Service de jetons Stockage Archivage Serveur de licences Calcul
huma-num.fr contact@huma-num.fr @huma_num