Ce projet, ou un projet proche, a t il été soumis. Ce projet est il la suite, pour tout ou partie, d un ou plusieurs projets soumis à EQUIPEX 2010?

Dimension: px
Commencer à balayer dès la page:

Download "Ce projet, ou un projet proche, a t il été soumis. Ce projet est il la suite, pour tout ou partie, d un ou plusieurs projets soumis à EQUIPEX 2010?"

Transcription

1 e du projet / Ce document devra impérativement comprendre un maximum de 40 pages, corps de texte en police de taille 11. Ce maximum ne comprend pas le nombre de pages consacrées à la description des unités partenaires, dans les limites indiquées. e du projet/ of the project Titre du projet en français Outils et Ressources pour un Traitement Optimisé de la LANGue Project title in English Responsable scientifique et technique du projet/project manager (chercheur, enseignant chercheur ) Aide demandée/ Requested funding Champ(s) scientifique(s) du projet/scientific field(s) of the project Open Resources and TOols for LANGuage Nom, Prénom / Last name, First name : Jean-Marie PIERREL Etablissement / Institution : Université Henri Poincaré Nancy Laboratoire / Laboratory : ATILF Numéro d unité/unit number : UMR 7118 Tranche 1/Phase TVA non récupérable incluse Tranche 2/Phase TVA non récupérable incluse Sciences de la Matière et de l Energie Sciences du Système Terre Ecologie Environnement Sciences de la Vie et de la Santé 2 Sciences du Numérique et Mathématiques 1 Sciences Sociales et Humanités Ce projet, ou un projet proche, a t il été soumis pour EQUIPEX2010? Ce projet est il la suite, pour tout ou partie, d un ou plusieurs projets soumis à EQUIPEX 2010? Non Oui e du projet : Coordinateur du projet : Non Oui es des projets Coordinateurs Ce projet est il partie prenante d un projet d Idex? Non Oui INGEXYS (soumis à l appel 2) 1/46

2 e du projet / Etablissement coordinateur (voir définition ci-après) / Institution leading the project (project leader see definition in the call for proposals) Nom de l établissement / Institution name PRES Lorrain EPCS Statut / Status Etablissement gestionnaire de l aide (voir définition ci-après), à compléter si différent de l établissement coordinateur / Institution managing the fundings (see definition in the call for proposals), to be completed if different from the project leader Nom de l établissement / Institution name CNRS Statut / Status Organisme de recherche Affiliations des unités partenaires (voir définition ci-après) du projet/organization of the partner(s) (see definition in the call for proposals) Laboratoire(s)/ Laboratory Numéro(s) d unité/ Unit number Tutelle(s)/Research organization reference ATILF UMR 7118 Université Nancy & CNRS LPL UMR 6057 Université de Provence &CNRS LORIA UMR 7503 Université Nancy & CNRS & INRIA Modyco UMR 7114 Université de Parix X & CNRS LLL EA 3850 Université d Orléans INIST UPS 76 CNRS 2/46

3 e du projet / RESUME / SUMMARY DESCRIPTION SCIENTIFIQUE ET TECHNIQUE / TECHNICAL AND SCIENTIFIC DESCRIPTION OF THE ACTIVITIES Description du Programme / Description of the Programme... 7 Principaux enjeux de la proposition 7 Bilan des actions précédemment menées par les proposants (cf. annexe 1) 8 articulation entre les disciplines scientifiques et apports respectifs. 9 originalité et caractère ambitieux du projet 10 Impacts attendus Structure et composition de l equipement /Structure and building of the equipment Originalité, caractère novateur du projet d équipement/originality and innovative feature of the equipement project 13 Intérêt pour la communauté de recherche en linguistique Intérêt d une telle proposition pour la communauté de TAL (écrit et oral) Intérêt du point de vue culturel et pédagogique 15 Intérêt du point de vue des partenariats public privé 16 Les atouts du consortium proposant ce projet Environnement technique / Technical environnement Préservation à long terme 17 Centres diffusion compatibles CLARIN 18 Centre «Thématique» 19 Infrastructures nécessaires STRATÉGIE DE VALORISATION DE L ÉQUIPEMENT ET IMPACT SOCIO- ÉCONOMIQUE DU PROJET/ DISSEMINATION AND EXPLOITATION OF RESULTS Valorisation dans le monde scientifique : Valorisation culturelle au service de la langue française et des langues de France Valorisation et impact dans le monde socio-économique : MANAGEMENT DU PROJET / PROJECT MANAGEMENT Aspects organisationnels / Management Qualification du responsable scientifique et technique du projet /Relevant experience of the project manager : Jean-Marie Pierrel modalités de coordination/ Coordination modalities Un comité technique opérationnel Un comité d orientation Un comité scientifique Modalité d accès aux ressources et outils d Organisation du partenariat / Collaboration organization Description et adéquation des unites partenaires/partners description and relevance 24 L ATILF & CNRTL Le LPL et le SLDR Aix Le LORIA Le LLL MoDyCO L INIST Complémentarité des unites partenaires/partners complementarity 28 Qualification, rôle et implication des UNITES partenaires / Qualification, role and involvement of the partner units 29 3/46

4 e du projet / Partenaire ATILF et CNRTL Partenaire LPL et SLDR Partenaire LORIA Partenaire Modyco Partenaire LLL Partenaire INIST EVALUATION FINANCIÈRE DU PROJET/ FINANCIAL ASSESSMENT Justification scientifique et financière des montants demandés au titre du coût d investissement : Phase 1 48 mois Mise en place de l architecture informatique proposée 33 Matériels informatiques nécessaires (poste équipement) Pour les centres de diffusion Pour chacun des 3 centres thématiques Matériels spécifiques pour l élaboration de ressources et leur traitement au cours de la phase 1 du projet Investissement de développement informatique de la plateforme (poste fonctionnement personnel) Pour le centre de diffusion Pour les centres thématiques Un ensemble de ressources et d outils cohérents sur notre langue (Poste de fonctionnement Personnel) 38 Pour l ATILF et le CNRTL Pour le LPL Pour le LORIA Pour le pôle ModyCo et LLL Sous traitance pour les équipes externes au consortium acceptant de normaliser et mutualiser des ressources (Corpus) et de les verser sur Poste de fonctionnement La justification scientifique et financière des montants demandés au titre du coût de fonctionnement hors masse salariale : 496 K Bilan consolidé total de l aide demandée en K La justification scientifique et financière des autres frais engendrés par l acquisition et le fonctionnement de l équipement, qui ne seront pas financés Evaluation des apports existants des partenaires 46 4/46

5 e du projet / RESUME (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d outils sur la langue et son traitement clairement disponibles et documentés qui : - permette, au travers d une véritable mutualisation, à la recherche sur l analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ; - facilite l usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; - valorise le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. Un tel équipement a aussi pour objectif de généraliser et d assurer la pérennisation des efforts entrepris à travers les Centres de Ressources Numériques sur la langue, CNRTL (Centre de Ressources Textuelles et Lexicales et SLDR (Speech and Language Data Repository, anciennement CRDO Aix), mis en place par le CNRS. Il a aussi pour ambition de servir tout à la fois de nœud français et de support à l engagement de la France au sein de l infrastructure CLARIN (Common Language Resources and Technology Infrastructure : dont nous fumes partenaires dès le début. Enfin, il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires et Centres Ressources sont fortement impliqués. Les fonctions envisagées pour cet équipement sont : L identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils. Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES. Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques. se propose donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le modèle d reprend les entités de base du modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible par l archivage intermédiaire. propose d accompagner les chercheurs en fournissant plusieurs types d aides : 5/46

6 e du projet / Aide à la création de données : faciliter l accès à des instruments permettant l acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro encéphalographie, articulographe, etc.). Enrichissement de données : plusieurs outils permettent d enrichir automatiquement les données brutes (étiquetage morphosyntaxique, analyse prosodiques, syntaxiques, etc.). Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences complémentaires en - sciences du langage à travers l ATILF, le LPL, MODYCO et le LLL, - informatique avec le LORIA et l INIST mais aussi en partie l ATILF et le LPL qui demeurent des laboratoires d interface avec l informatique - base de données et accès à de l information scientifique, à travers l INIST, et à des ressources linguistiques, à travers les deux centre de ressources que sont le CNRTL et le SLDR (ex CRDO Aix). Au delà de la réunion de ces compétences disciplinaires différentes notre objectif est aussi de fédérer pour cet équipement de mutualisation de ressources et d outils sur la langue des partenaires représentant la diversité des approches d étude de la langue : modélisation linguistique (MoDyCo, LPL et ATILF), linguistique expérimentale (LPL, ATILF), production et de perception du langage (LPL, ModyCo), études diachroniques (ATILF, LLL), sociolinguistique (LLL, ModyCo), traitement Automatique des Langues (LORIA, LPL, ATILF), écrit (ATILF, MoDyCo), oral (LPL, LLL, ModyCo). Cette proposition s appuie sur une expérience acquise importante des équipes proposant cet équipement d excellence. A titre illustratif, nous explicitons ci dessous quelques atouts tant en termes de ressources et outils déjà proposés que d insertion nationale et internationale. - L acquis des partenaires, centres de ressources (CNRTL et SLDR) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d outils déjà disponibles en leur sein et dont les compétences recouvrent les trois principaux aspects visés : l oral, l écrit et la patrimonialisation des parlers de France. - L implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications dans les consortiums sur l écrit (J.M. Pierrel membre du comité de pilotage) et sur l Oral (Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateurs au sein du TGE ADONIS et un partenariat est mis en place pour exploiter la solution d archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES. - L implication et la cohérence avec l infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui a en charge de structurer le volet français de cette architecture. - La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France. 6/46

7 e du projet / 1. DESCRIPTION SCIENTIFIQUE ET TECHNIQUE 1.1. DESCRIPTION DU PROGRAMME PRINCIPAUX ENJEUX DE LA PROPOSITION Dans notre société de l information, seules les langues fortement outillées et modélisées, permettant des traitements automatiques, ont des chances de subsister comme langues véhiculaires de travail et d échange dans les domaines scientifiques, économiques, industriels et culturels, les autres risquant de se voir réduites à une dimension uniquement vernaculaire. Aujourd hui, contrairement à ce que quelques esprits chagrins prétendent en affirmant que seul un «anglais international» pourra subsister comme langue véhiculaire, les jeux sont loin d être faits 1. Il paraît donc important et urgent de doter le français des outils indispensables à son traitement automatique, si nous souhaitons qu à l avenir il continue à jouer un rôle majeur sur le plan intellectuel, économique et sociétal, tant dans le monde industriel que dans celui de la recherche ou de la culture. Une rapide analyse de l évolution des sciences du langage et du traitement automatique des langues (TAL) au cours des trente dernières années montre que la confrontation avec l informatique a permis de définir de nouvelles approches. C est ainsi qu au delà d une simple linguistique descriptive s est développée une linguistique formelle, couvrant aussi bien les aspects lexicaux que syntaxiques ou sémantiques, qui tend à proposer des modèles s appuyant sur une double validation, explicative d un point de vue linguistique, opératoire d un point de vue informatique. C est elle aussi qui a permis l émergence d une véritable linguistique de corpus 2 permettant au linguiste d aller au delà de l accumulation de faits de langue et de confronter ses théories à l usage effectif de la langue. Cette évolution a provoqué une véritable révolution qui fait de l informatique un outil indispensable pour : - étudier la langue et ses propriétés grâce à l exploitation de corpus de grande ampleur ; - structurer et normaliser les connaissances linguistiques (phonétiques, morphologiques, lexicales, syntaxiques, sémantiques, etc.) ; - valoriser, partager et mutualiser les résultats de la recherche sur notre langue qui passent le plus souvent par la production de ressources et d outils informatiques. Dans ce cadre les aspects de ressources informatisées (corpus annotés, lexiques et outils de traitement) sont particulièrement importants et stratégiques pour servir de support à la fois : - aux travaux de recherche pour lesquels la notion de corpus d étude et de ressources est incontournable spécifiquement en linguistique de corpus, en traitement automatique des langues et en didactique des langues ; - à la diffusion des résultats de ces travaux : un des aspects essentiels aujourd hui est leur informatisation et leur disponibilité sur la toile sous une forme facilement accessible et exploitable par l ensemble de la communauté scientifique et industrielle. Un équipement d excellence de mutualisation de ressources et d outils pour le traitement informatisé et la valorisation du français et des langues de France s impose donc aujourd hui pour les raisons suivantes : 1 Union Latine (2008), Langue et cultures sur la toile : enquête 2007, 2 Habert, B., Nazarenko, A. et Salem, A. (1997) Les linguistiques de corpus, Paris, Armand Colin. 7/46

8 e du projet / - Le coût de définition et de production de vastes ressources linguistiques de qualité (corpus, dictionnaires et lexiques), de même que celui de mise au point d outils d analyse (morphologique, morphosyntaxique, lexicale, syntaxique et sémantique) est important et c est un gâchis énorme de vouloir, pour chaque projet de linguistique ou de TAL, redéfinir l ensemble des ressources dont on a besoin 3. Sans vouloir plaider pour une rentabilisation de la recherche, il convient de prendre conscience que, sans une mutualisation de telles ressources dans le domaine du langage qui nécessite d aborder des aspects aussi divers que le lexique, la syntaxe, la sémantique, la pragmatique, chaque équipe de recherche ou chaque chercheur se verrait dans l obligation de tout réinventer, alors même que nul ne peut être spécialiste de chacun de ces sous domaines. - Un second point plaidant pour la mutualisation de ressources concerne l évaluation de nos productions de recherche (modèles, analyseurs, systèmes de traitement), qui nécessite, pour des besoins de comparaison, la disponibilité de ressources de référence (corpus textuels, lexiques, dictionnaires) accessibles, partagées et clairement identifiables. - De plus, le partage et la patrimonialisation des connaissances sur les langues de France est nécessaire afin de faciliter des études sociolinguistiques sur les parlers de France et de les faire bénéficier des apports de la recherche. - Enfin, en termes de valorisation et de partage de connaissances avec nos concitoyens, une disponibilité accrue, en particulier sur le web, de nos productions de recherche est indispensable. Outre le fait que cela peut permettre un meilleur partage entre le monde de la recherche et celui de l entreprise, cela répond aussi à un besoin, de plus en plus grand, de connaissance chez nos concitoyens 4. L association entre le pôle nancéien, regroupant le CNRTL, l ATILF, l INIST et le LORIA, le pôle aixois, regroupant le LPL et le SLDR (Speech and Language Data Repository, anciennement CRDO Aix), et le pôle regroupant Modyco de Nanterre et le LLL d Orléans, a pour objectif de créer, à travers un équipement d excellence, une infrastructure française en réseau de gestion, mutualisation, diffusion et valorisation de ressources et d outils de traitement sur le français qui permettent tout à la fois de répertorier et diffuser les ressources existantes et de tester différents outils de traitement de la langue. BILAN DES ACTIONS PRECEDEMMENT MENEES PAR LES PROPOSANTS (CF. ANNEXE 1) Sur cette même base de mutualisation de ressources le CNRS, en 2006, a impulsé la création de centres de ressources ( ressources numeriques.htm) permettant aux laboratoires et aux chercheurs de partager librement et gratuitement leurs données tout en assurant leur archivage pérenne selon le modèle OAIS. C est ainsi que furent mis en place : 3 A titre d exemple, la construction d un dictionnaire de langue tel le Trésor de la Langue française ( a nécessité près de cent personnes durant trente ans, et l établissement d une base de données textuelles tel FRANTEXT ( s est chiffré aussi en dizaines d hommes an. 4 A titre d illustration on ne peut qu être frappé par le fait que, sur le lexique du français, le CNRTL et l ATILF servent aujourd hui pas moins de requêtes par jour se répatrtyissant pour moitié entre l accès direct au TLFi ( et l accès au portail lexical du CNRTL ( 8/46

9 e du projet / - le CNRTL ( pour les ressources textuelles, lexicales et dictionnairiques. Adossé à l UMR ATILF ( son objectif initial était de réunir, au sein dʹun portail unique, le maximum de ressources informatisées et dʹoutils de traitement pour lʹétude, la connaissance et la diffusion de la langue française écrite. - le SLDR (Speech and Language Data Repository, anciennement CRDO Aix adossé au LPL ( aix.fr), avec un objectif analogue pour l oral. Ces deux centres de ressources ont pu se mettre en place grâce à l implication forte des laboratoires supports que sont respectivement l ATILF et le LPL. Cela nous a permis de tester la validité de ce concept de centres de ressources thématiques. Aujourd hui, nous pensons qu il est nécessaire de franchir une étape supplémentaire en proposant cet équipement d excellence pour la mutualisation de ressources et d outils sur les langue de France en associant au sein de cet équipement en réseau les partenaires complémentaires que sont le LORIA, l INIST, le LLL d Orléans et MoDyCo. Le LORIA ( possède en effet une longue expérience de traitement automatique des langues tant écrites qu orales. Pour l écrit des analyseurs syntaxiques du Français ont été développés, notamment par le biais des grammaires dʹinteraction et des grammaires LTAG (Lexicalized Tree Adjoining Grammars). (Cf Annexe 1.3) MoDyCo, dans son programme scientifique, réserve une place de choix aux corpus et outils pour l analyse et la modélisation des langues, et a une expérience importante dans le domaine lié à cette proposition plus particulièrement au travers de deux programmes : le projet PFC (Phonologie du Français Contemporain : pfc.net) qui a permis de constituer une base de données sur le français parlé suivant le même protocole et avec des méthodes d analyse et des outils communs ; le projet COLAJE (ANR ) dont l objectif est de reconstituer l émergence et le développement de la communication langagière chez le jeune enfant, avec une approche pluridisciplinaire et multimodale, et dont les données sont disponibles sur le site et sur celui de CHILDES ( Le LLL, en coopération avec MoDyCo, a mis au premier rang de ses objectifs une contribution exemplaire à la constitution d un corpus prototypique de référence sur le français parlé qui intègre les variations, sociolinguistiques, diachroniques et transcriptionnelles, et en permette l analyse : le projet ESLO L INIST ( dont la finalité est de faciliter lʹaccès aux résultats issus des différents champs de la recherche et qui possède une importante expérience en gestion, maintenance et distribution de ressources documentaires nous apporte son appui pour structurer nos serveurs de ressources. ARTICULATION ENTRE LES DISCIPLINES SCIENTIFIQUES ET APPORTS RESPECTIFS. Pour mener à bien ce projet, nous avons souhaité dès le départ réunir des compétences diversifiées représentant une couverture optimale des besoins pour aborder au mieux l objectif qui est d offrir une plateforme en réseau de mutualisation de ressources et d outils pour l étude, la diffusion, la valorisation et le traitement automatique de la langue française et des langues de France. s appuie essentiellement sur deux disciplines : la 9/46

10 e du projet / linguistique (ATILF, LPL, ModyCo, LLL) et l informatique (avec le LORIA et l INIST, mais aussi dans une moindre mesure l ATILF et le LPL, deux laboratoires fortement pluridisciplinaires). Il réunit des équipes qui ont déjà montré par le passé leurs capacités à gérer des centres de ressources (CNRTL à l ATILF et SLDR au LPL) ou qui possèdent une importante expérience en gestion, maintenance et distribution de ressources (INIST). Il fédère aussi des compétences linguistiques et des approches de la langue complémentaires : étude de l écrit pour l ATILF et le CNRTL, de l oral pour le LPL et le SLDR et approche multimodale au LPL, LORIA et MoDyCo ; avec une focalisation forte sur le TAL pour le LORIA, le LPL et l ATILF, sur la normalisation de ressources pour l ensemble des partenaires et sur la patrimonialisation de la langue et la sociolinguistique pour MoDyco et le LLL, ce dernier fortement associé au «Département des Documents Audiovisuels et Sonores» (ex Phonothèque Nationale) de la BnF. ORIGINALITE ET CARACTERE AMBITIEUX DU PROJET Forts de nos expériences passées, notre ambition est de définir et d offrir une plateforme unifiée de gestion et distribution de ressources et d outils sur la langue française. Une telle plateforme, que nous envisageons sous forme de réseau unifié de centres serveurs, a pour objectif de généraliser et d assurer la pérennisation des efforts entrepris à travers les CRN (Centre de Ressources Numériques) sur la langue mis en place par le CNRS et dont à ce jour seule la fonction de «centre de compétences» est effectivement soutenue par le TGE ADONIS. Une telle infrastructure a aussi pour ambition de servir tout à la fois de nœud français et de support à l engagement de la France au sein de l infrastructure CLARIN (Common Language Resources and Technology Infrastructure : dont nous avons été partenaires dès le début. Enfin, elle servirait de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires et Centres de Ressources sont fortement impliqués. En termes d usage, compte tenu des coûts de développement de ressources et d outils sur la langue, nous souhaitons qu puisse : - offrir une plateforme de partage et de mutualisation de ressources et d outils entre les diverses équipes de recherche, - permettre aux partenaires industriels de tester, dans le cadre de développement de prototypes, les ressources, modèles et outils mis au point par les laboratoires de recherche, - diffuser plus largement auprès du grand public des connaissances sur le français et les langues de France. IMPACTS ATTENDUS Les impacts attendus d une telle plateforme peuvent s analyser sous un triple point de vue : - permettre, au travers d une véritable mutualisation, à la recherche sur l analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international et contribuer à une présence du français au sein du réseau européen CLARIN à la hauteur de l importance et du rayonnement culturel de notre langue ; 10/46

11 e du projet / - faciliter l usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; - valoriser le français et les langues de France au sein de notre société de l information à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics STRUCTURE ET COMPOSITION DE L EQUIPEMENT La plateforme que nous proposons est à la fois une extension d un existant au sein de nos laboratoires et centres de ressources (CNRTL et SLDR) et la définition d un nouvel équipement en réseau assurant les fonctions suivantes : Identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils. Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES. Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques. L objectif d est donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le schéma ci joint récapitule le modèle d qui reprend les entités de base du modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible par l archivage intermédiaire. propose de l accompagner en fournissant plusieurs types d aides : Aide à la création de données : faciliter l accès à des instruments permettant l acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro encéphalographie, articulographe, etc.). Enrichissement de données : plusieurs outils permettent d enrichir automatiquement les données brutes (d alignement, analyse prosodiques, syntaxiques, etc.). Le modèle identifie par ailleurs pour chaque étape les connexions d avec les partenaires ou institutions extérieures. Ainsi, l étape de création est effectuée en connexion avec l IR Corpus (dont un des objectifs est l accompagnement des auteurs dans l élaboration des données), l archivage est coordonné avec les propositions du TGE ADONIS en partenariat avec le CINES et le CC IN2P3. Enfin, la 11/46

12 e du projet / diffusion se fera en relation avec CLARIN ainsi qu éventuellement avec les agences internationales comme ELRA ou le LDC. Une plateforme en réseau A ce jour, chercheurs ou industriels, mais aussi le grand public, ont besoin d un point d accès unifié sur les ressources et outils disponibles sur notre langue. Nous proposons de créer un tel service, permettant l accès à un ensemble de ressources gérées en réseau. Notre solution s appuiera sur des serveurs de données et de calcul répartis sur trois sites (Nancy, Aix en Provence et Paris). Nous proposons pour cela de définir un package standard d installation d un serveur qui puisse servir à terme à installer de nouveaux nœuds au sein de notre plateforme en réseau. L architecture matérielle s appuiera sur l existant au sein des partenaires en le complémentant et le mettant à niveau : serveurs de données du CNRTL, du SLDR et de l INIST, avec mise en place de systèmes de sauvegarde incrémentale de ces serveurs ; grille de calcul du LORIA, indispensable pour l apprentissage de certains modèles statistiques ; matériels d acquisition de données spécifique (Scanner et OCR, matériels d acquisitions audio et vidéo), instrumentation du Centre d Expérimentation sur la Parole. L architecture informatique reposera sur deux niveaux de nœuds. Des nœuds de diffusion (services versants vis à vis de lʹarchivage pérenne) devront assurer une qualité de service 24h sur 24 en matière : dʹaccès aux données et métadonnées, dʹentrepôt OAI PMH, de protection des données non entièrement publiques, dʹassociation dʹidentificateurs pérennes aux données et métadonnées et dʹidentification des utilisateurs (lors dʹaccès à des données non publiques) sur le principe de signature unique (SSO). Ces nœuds ne seront cependant que peu visibles des utilisateurs qui sʹadresseront à des nœuds thématiques permettant la navigation dans les collections et la recherche dans les métadonnées. Ce sont également les nœuds thématiques qui seront en charge dʹaider les déposants de ressources en matière de respect des formats de données et métadonnées. De façon plus précise, lʹarchivage sera assuré par le TGE Adonis ou par l INIST pour les données de la recherche en SHS, et éventuellement par la BNF pour certaines données patrimoniales. Un nœud de diffusion devra utiliser une plateforme de gestion dʹobjets numériques (telle que Fedora Commons). Néanmoins, cette plateforme devra être complétée pour prendre en compte un mécanisme de propagation d identité (tel que Shibboleth) et devenir un fournisseur de service sur la fédération dʹidentité française. Elle devra également être complétée pour gérer les identifiants pérennes et garantir lʹintégrité des objets. Un nœud de diffusion devra également exporter les métadonnées au format CMDI (métadonnées Clarin). Le respect de ces contraintes fait que ces nœuds seront de parfaits candidats pour le projet dʹinfrastructure européenne Clarin. Un nœud thématique devra moissonner les nœuds de diffusion en OAI et présenter aux utilisateurs des moyens dʹidentification des ressources via les métadonnées. Un des enjeux essentiels pour un nœud thématique est la gestion efficace de métadonnées structurées, la navigation dans les métadonnées afin de constituer des corpus de travail (pouvant contenir des données issues de plusieurs centres) en particulier via la sélection par facettes. 12/46

13 e du projet / Un ensemble de ressources et d outils cohérents sur notre langue a pour ambition d être un centre de mutualisation d outils et de ressources institutionnelles de référence sur notre langue. Il est donc indispensable d y adjoindre une fonction de complémentation des ressources et outils nécessaires à la communauté. En s appuyant sur les résultats de la phase de catalogage de l existant, nous proposons, en lien avec le TGIR CORPUS, de compléter les manques les plus criants en fonction des priorités établies par notre comité scientifique. Par exemple, il conviendrait de compléter les corpus textuels actuellement disponibles sur le site du CNRTL (FRANTEXT, Est Républicain, Sciences humaines) pour tendre vers un corpus plus représentatif du français, de mettre à jour un lexique morphosyntaxe à large couverture du français, d offrir à la communauté divers outils de base de traitement de corpus : outils de conversion de formats de codage, étiqueteur morphosyntaxique, outils d analyse statistiques de corpus, concordancier (cf. paragraphe 4 Evaluation des coûts de réalisation de ces compléments prioritaires) ORIGINALITE, CARACTERE NOVATEUR DU PROJET D EQUIPEMENT a pour but de former un réservoir de données et d outils clairement disponibles et documentés permettant de remplir un double objectif de partage de connaissance et de mutualisation d acquis. L usage de ces données ira dans le futur largement au delà des objectifs scientifiques aujourd hui au centre de nos préoccupations, notamment dans les domaines du lexique, de la sémantique, de la pragmatique, etc., et dans les divers domaines d applications. permettra à la communauté de franchir un pas décisif aujourd hui encore à peine ébauché. Il s agit, non seulement du contenu et de la variété des données ou outils disponibles (qui seront encore enrichis et améliorés pendant tout le déroulement du projet), mais aussi et surtout d assurer la diffusion de standards clairs, internationalement reconnus, afin de pouvoir rendre accessibles et permettre le partage, la réutilisation et la complémentation des informations. L intérêt de notre proposition peut en fait s analyser selon plusieurs points de vue complémentaires INTERET POUR LA COMMUNAUTE DE RECHERCHE EN LINGUISTIQUE Depuis une dizaine d années le paysage de la recherche en linguistique a largement évolué grâce à l apparition d importants corpus de langage aisément disponibles sur Internet. Si l existence d une linguistique de corpus n est pas nouvelle (Laks, 2008), cette évolution de l accès aux données dynamise de manière très importante le domaine, permet de démontrer l importance, du point de vue fondamental, de la notion de variation, et autorise de grandes avancées dans la modélisation des théories exemplaristes ou dites basées sur l usage. Si avant les années 2000, le paradigme générativiste dominait et conduisait à voir les théories et les modèles linguistiques comme fondamentalement sous déterminés par les données factuelles, ce nʹest plus le cas aujourdʹhui. Comme noté par Newmeyer (2003), ce sont dʹabord les travaux psycholinguistiques dʹobservation longitudinale, et spécialement ceux menés sur les acquisitions précoces qui ont ébranlé le paradigme cognitiviste chomskyen en documentant une hétérogénéité et une variabilité intrinsèque très importantes et peu compatibles avec lʹinnéisme de la grammaire universelle. Ces travaux ont récemment rencontré les problématiques de la linguistique variationniste conduites indépendamment 13/46

14 e du projet / depuis plusieurs décennies. La confrontation avec les analyses du changement linguistique en temps réel a par ailleurs souligné lʹimportance des dynamiques qui structurent, forment et déforment les systèmes linguistiques dans le temps. Enfin, le développement des travaux contrastifs et typologiques a conduit à relativiser la portée des grandes hypothèses universalistes au profit dʹune description plus fine et plus précise des données observées. Dans chacun des domaines et des sous domaines des sciences du langage, la notion dʹusages ou de pratiques attestées a ainsi été remise au premier plan, induisant un rapport nouveau aux modélisations explicatives et aux formalisations (Barlow & Kemmer, 2000). Ces théories sont basées sur la notion de constructions, qui sont des associations entre forme et fonction. Les constructions peuvent être extrêmement variées, allant de formes figées (un mot, une holophrase, une expression idiomatique) à des structures plus générales (par exemple la structure transitive sujet verbe objet), et en passant par de nombreux intermédiaires plus ou moins généralisés (par exemple la construction «c est X» où «X» peut prendre n importe quelle forme ; ou la construction «X aime Vinf» où «X» et «Vinf» sont mutuellement contraints). Les constructions peuvent se combiner pour produire des formes langagières de tout niveau de complexité. De telles théories permettent de modéliser la variété à tous les niveaux, de l interlocuteur à l intra locuteur. Elles font évoluer le système de catégorisation mis en place sur les exemplaires connus en élargissant sa base empirique, en modifiant le poids fréquentiel d une série d exemplaires, en favorisant la formation dʹune construction plus générale que celles qui étaient disponibles sous la forme d exemplaires auparavant. L apport de la linguistique de corpus à la compréhension des phénomènes langagiers est donc devenu fondamental. Le nombre d énoncés qu entend et produit une personne durant sa vie est très grand. Grace à l augmentation de la variété et de la taille des corpus, il est aujourd hui devenu possible de démontrer les faits langagiers à l aide d exemples attestés en grand nombre et de tester les propositions de la linguistique et de la psycholinguistique. Pour cela, un grand nombre de corpus contrôlés, bien décrits et variés, est nécessaire. INTERET D UNE TELLE PROPOSITION POUR LA COMMUNAUTE DE TAL (ECRIT ET ORAL) La multiplication des corpus offre également de nouvelles ouvertures hors du champ de la linguistique théorique et de la psycholinguistique, en matière de simulation et de traitement automatique du langage naturel aussi bien écrit qu oral. En effet, la majorité des traitements automatiques réalisés aujourdʹhui sur le langage naturel sʹappuie sur des approches dʹanalyse de grandes masses de données et exploite des modèles construits sur ces mêmes corpus. Cette nécessité dʹavoir accès à de telles bases de données se retrouve également dans les méthodes dʹévaluation standards des modèles ainsi conçus, qui requièrent des statistiques suffisantes pour garantir la validité des performances des modèles automatiques ainsi que leur robustesse aux diverses sources de variabilité du langage rencontrées en conditions réelles dʹapplication. La comparaison de différents modèles théoriques et la participation aux campagnes dʹévaluation qui tendent à se multiplier dans le domaine du TAL requièrent également de grandes quantités de données et qui participent sur le long terme à formaliser un domaine de recherche et contribuent significativement à sa 14/46

15 e du projet / progression, comme lʹillustre par exemple lʹévolution du champ dʹapplication de la transcription automatique de la parole au cours de ces dernières décennies. La mise à disposition pérenne de grands corpus normalisés et enrichis comme le propose constitue donc un progrès très important pour la communauté de recherche en TAL et en parole, et un accélérateur certain pour les recherches menées dans ces domaines. Ainsi, pour reprendre lʹexemple de la reconnaissance automatique de la parole, domaine de recherche dont la progression est structurée et rythmée par les campagnes dʹévaluations sur des corpus payants dédiées successivement aux informations radiophoniques (ESTER) et aux émissions de télévision (ETAPE), lʹambition unanimement affichée consiste à diversifier les styles de parole et ouvrir les évaluations, comme cela a déjà été réalisé aux Etats Unis, aux enregistrements de réunions (MEETINGS) et aux conversations spontanées (Switchboard). Le projet permettra la mise en place et la distribution de telles données dʹétude. Un autre exemple en TAL concerne les recherches en analyse syntaxique automatique, qui souffrent, particulièrement en France, du manque de corpus dédiés aux différents genres du français notamment oral. La récente campagne dʹévaluation PASSAGE des analyseurs syntaxiques illustre les besoins de la communauté en grandes masses de données annotées, comme lʹa démontré dans le reste de lʹeurope la succession des campagnes CoNLL. Les volets constitution, enrichissement et diffusion de corpus constitueront donc une base de travail unique et de grande valeur pour la communauté française du domaine. INTERET DU POINT DE VUE CULTUREL ET PEDAGOGIQUE La diffusion de données de langage, contrôlées et validées, est également fondamentale du point de vue culturel et pédagogique. Du point de vue culturel, pour la diffusion du patrimoine de la langue française, des langues de France et des langues en contact avec le français, l existence de ressources fiables et finement décrites est fondamentale. En particulier, depuis 1911, année de création des Archives de la parole en France, la conservation des enregistrements sonores et des documents écrits qui leur sont liés est une préoccupation qui repose sur une relation entre les chercheurs et les institutions de conservation. Si cette question est aujourd hui intégralement traitée, dans le cas de documents édités, par le biais du dépôt légal des archives sonores dont la BnF a la responsabilité et qui pourra, à travers son implication dans le LLL, faire profiter de son expertise, il n en est pas de même pour les corpus électroniques produits et exploités par les chercheurs dont le dépôt reste souvent difficile voire impossible pour des raisons techniques et juridiques, d autant qu ils ne correspondent que rarement aux produits commerciaux qui ont retenu l attention du législateur (musiques, dialogues de films ). Sur un plan technique, les besoins pour les opérations de catalogage sont la mise en place de descripteurs à intégrer dans une ontologie qui reste à construire et une indication déclarative des codages utilisés. Le catalogage doit prendre en compte les liens qui existent entre des données primaires audios ou vidéos et l incrémentation des transcriptions et annotations qui leur sont liées dès lors qu il s agit de corpus ouverts, évolutifs ou dynamiques. 15/46

16 e du projet / Sur un plan juridique, la prise en compte des conditions de conservation et d exploitation permet de résoudre les problèmes liés à la protection de la vie privée (données personnelles, droit moral) et à la gestion des droits patrimoniaux et de propriété intellectuelle. Du point de vue de l enseignement, l existence de données bien décrites, comprenant des métadonnées détaillées (y compris par exemple des descriptions de scènes), peut servir de source précieuse pour les supports audio visuels ainsi que pour les supports d enseignement à distance. Un tel type de données est également nécessaire pour l amélioration des supports de cours de langue française en apprentissage langue seconde. INTERET DU POINT DE VUE DES PARTENARIATS PUBLIC PRIVE Les applications industrielles de la linguistique, notamment en matière d accès à l information, de structuration de connaissance, majoritairement sous formes langagières, et de dialogue entre l homme et la machine, sont dépendantes de la qualité et de la taille des corpus d apprentissage et de référence dont elles disposent. Ces recherches ont un impact d un point de vue économique, à travers les entreprises qui consomment de la parole ou recherchent sur la parole comme les opérateurs téléphoniques, les créateurs de logiciels ou consoles pour la communication homme machine, et toutes celles qui créent des produits qui servent de support au langage humain (oral comme écrit, souvent associés), qui ont besoin de données de qualité et de grande taille sur lesquelles développer leurs produits. Or la plupart des entreprises du domaine, startups et PME, ne peuvent se permettre, compte tenu des coûts d investissement à prévoir d élaborer des ressources linguistiques à large couverture. Nous souhaitons donc ouvrir très largement les ressources et outils de notre plateforme aux partenaires industriels pour leur permettre de tester des modèles ou procédures d analyse, lors des phases de recherche et de développement de prototypes. A l image de ce que nous avons déjà testé avec la société XILOPIX, nous proposons un accès gratuit à ces ressources dans la première phase de test et de prototypage et une rémunération par royalties dès que l utilisation de ces ressources conduit à une exploitation commerciale. Une telle procédure devrait permettre ainsi d aider le tissu industriel français à développer ses outils de traitement de la langue sans nécessiter un ticket financier d entrée souvent incompatible avec les charges de nos startups ou PME. LES ATOUTS DU CONSORTIUM PROPOSANT CE PROJET Cette proposition s appuie sur une expérience déjà importante des équipes proposant cet équipement d excellence. A titre illustratif, nous explicitons ci dessous quelques atouts tant en termes de ressources et outils déjà proposés que d insertion nationale et internationale. - L acquis des partenaires, centres de ressources (CNRTL et SLDR, successeur du CRDO Aix) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d outils déjà disponibles en leur sein (cf. annexe paragraphe 1.x.2.) et dont les compétences recouvrent les trois principaux aspects visés : l oral, l écrit et la patrimonialisation des parlers de France. - L implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications dans les consortiums sur l écrit (J.M. Pierrel membre du comité de pilotage) et sur l Oral 16/46

17 e du projet / (Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateur au sein du TGE ADONIS 5 et un partenariat est mis en place pour exploiter la solution d archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES. - L implication et la cohérence avec l infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui a en charge de structurer le volet français de cette architecture. - La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France. - Les coopérations internationales avec des centres de ressources sur d autres langues, ceux participants à l infrastructure CLARIN et plus particulièrement le MPI, le centre de compétence de Trèves et les initiatives de type analogue menée à Oxford ENVIRONNEMENT TECHNIQUE Nous proposons un Equipex en réseau dont lʹarchitecture doit permettre : - l archivage pérenne des ressources à travers le modèle OAIS, - l instanciation de «centres diffusion» pleinement compatibles avec les recommandations du projet d infrastructure CLARIN, - et la mise en place de «centres thématiques» directement accessibles par les utilisateurs afin de permettre la navigation dans les collections de ressources ou lʹobtention de ressources via des requêtes sur les métadonnées. Nous envisageons, à terme, plusieurs centres CLARIN ainsi que plusieurs centres thématiques. De cette façon nous garantissons l ouverture et la possibilité dʹajout dʹautres centres, que ce soit au niveau centres de diffusion ou au niveau centres thématiques. Dans la suite, nous spécifions, tout d abord, ce qui nous paraît nécessaire dans chacune de ces 3 strates, en partant de la plus basse (préservation à long terme) vers la plus haute (centre thématique) en passant par les centre de diffusion, puis explicitons les infrastructures nécessaires à sa mise en place. PRESERVATION A LONG TERME Le Très Grand Equipement ADONIS assure (via une collaboration avec le CINES) la préservation à long terme de données issues de la recherche en SHS. Il va donc de soi que nous utiliserons cette facilité. Par ailleurs, certaines données à caractère patrimonial pourront être préservées à long terme à travers la BNF. Enfin, la participation de lʹinist, en partenariat avec le CINES, au projet d IDEX ISTEX dédié entre autres à la préservation à long terme de données bibliographiques pour les universités offre une troisième opportunité dʹarchivage. La seule contrainte pour chacune de ces solutions est le respect du modèle OAIS. 5 «La tribune d ADONIS, Partage d expérience, Le centre national de ressources lexicales et textuelles», Lettre de l INSHS, N 1er juillet, p /46

18 e du projet / CENTRES DIFFUSION COMPATIBLES CLARIN La seconde strate de cette architecture est constitué de centres de diffusion, 2 centres au départ (CNRTL et SLDR) sur lesquels vont peser des contraintes de qualité de service (disponibilité maximale) et une gestion des documents permettant dʹobtenir le DSA (Data Seal of Approval). Ces centres, peu visibles des utilisateurs, sont des dépôts fiables des données et ne présentent pas nécessairement dʹinterfaces de consultation. Les contraintes imposées dans le cadre du projet CLARIN matérialisent les critères de bonne gestion que nous devons atteindre. Bien évidemment le respect de ces contraintes permet également de se qualifier comme centre dans le projet CLARIN lui même. Les fonctionnalités attendues à ce niveau sont : - Lʹidentification de chaque ressource par un identifiant pérenne (Handle dans notre cas). Pour lʹinstant nous obtenons nos Handles à travers EPIC (une infrastructure européenne). Nous devrons probablement envisager dans le cadre de lʹequipex de gérer entièrement un préfixe Handle par centre. Une garantie doit être offerte à lʹutilisateur quʹun identifiant donné renvoie toujours exactement à la même donnée (et aux mêmes métadonnées) y compris sur le long terme. - Une preuve dʹintégrité de la donnée associée à un identifiant pérenne devra être fournie sous forme dʹune somme de contrôle (MD5, SHA) liée à lʹidentifiant pérenne. Enfin le lien entre lʹidentifiant pérenne de type Handle et lʹéventuel identifiant dʹarchivage à long terme devra être établi et garanti. - La gestion de version. Toute modification dʹune donnée doit donner lieu à une nouvelle version (non nécessairement préservée à long terme). Cette gestion des versions sʹeffectue à travers une relation dédiée dans les métadonnées. - Entrepôt OAI PMH. Les centres doivent implémenter un entrepôt de métadonnées moissonnable au protocole OAI PMH pour des métadonnées aux formats Dublin Core et CMDI (Format de métadonnées structurées du projet CLARIN). - Authentification des utilisateurs à travers un mécanisme de signature unique (Single Sign On) lors de lʹaccès à des données à accès restreint. Comme nous le verrons dans le niveau suivant, ce mécanisme est un des points clés pour la constitution de corpus contenant des données qui proviennent des différents centres tout en respectant les contraintes dʹaccès. - Implémentation de la notion de déposant (en dédiant un élément à cet effet dans les métadonnées). Un déposant pouvant être un individu, un projet, un laboratoire ou une institution. Bien évidemment, en pratique, il y a donc plusieurs déposants (un chercheur, un laboratoire, une université ou un EPST). Cette notion est essentielle pour au moins deux raisons : ne prendre en considération que des données issues de la recherche ou au moins utiles à la recherche et rendre visible la production de données par les individus et les institutions. - Mise à disposition dʹoutils de traitement de données sous forme de Web Services. Dans lʹarchitecture, les outils sont décrits également à lʹaide de métadonnées au format CLARIN. 18/46

19 e du projet / De plus, concernant lʹinteropérabilité des métadonnées, nous serons amenés à compléter le format CMDI sur deux points : - définition dʹun schéma minimal commun faisant intervenir la notion de déposant et la notion de contrôle dʹintégrité ; - Définition dʹun mécanisme de «dumb down», cʹest à dire dʹaplatissement de la structure de métadonnées permettant dʹobtenir les différentes vues thématiques. Bien évidemment, la gestion dʹun centre exige une équipe de gestion des données. De telles bases sʹadministrent au quotidien. En pratique, la gestion dʹun tel centre nécessite du personnel dʹune part pour garantir la haute disponibilité et dʹautre part pour administrer la base de ressources. Lʹactuel CNRTL et le SLDR, en combinant leurs précédentes expériences (projet pilote ADONIS pour la préservation à long terme et réalisation dʹun prototype dʹun centre CLARIN), sont bien armés pour entreprendre les développements informatiques nécessaires. Les compétences présentes à lʹinist en matière de haute disponibilité, de métadonnées et de gestion de bases bibliographiques importantes devraient nous garantir le niveau dʹexcellence visé. CENTRES «THEMATIQUES» La partie émergée de lʹéquipement directement visible pour les utilisateurs sera constituée de trois centres «thématiques», orientés respectivement vers les aspects linguistiques (textuels) les aspects études de la parole et enfin les aspects patrimoniaux. Lʹenjeu est de rendre visible lʹensemble des données hébergées dans les centres à partir de chaque centre thématique. Pour autant, des centres dʹintérêts différents peuvent amener à : - des méthodes de navigation et de recherches dans les métadonnées différentes - un filtrage dʹune partie des métadonnées jugées non intéressantes. Rien nʹempêche dʹenvisager dʹautres centres «thématiques», voire même des centres qui permettent des requêtes dans la totalité des métadonnées. Les centres «thématiques» n ont pas pour vocation d héberger des ressources, autres que celles en cours de définition. Ils moissonnent les centres de diffusion en utilisant le protocole OAI PMH afin de disposer des métadonnées de lʹensemble des dernières versions des ressources. Lʹaccès aux données elles mêmes se faisant par un renvoi vers ces centres. Les centres «thématiques» sont également les interlocuteurs des déposants. Il est de leur responsabilité de mettre en forme données et métadonnées avant transmission aux centres de diffusion. Les centres de diffusion étant eux responsables de la mise en forme vis à vis des opérateurs dʹarchivage. Les centres «thématiques» doivent donc permettre aux chercheurs de se constituer des corpus de travail de façon transparente quant à la localisation de données dans les différents centres CLARIN. Ils offrent trois modes dʹidentification des ressources : une navigation par collection, une interface simple de recherche dans les métadonnées et une interface complexe de recherche à facette INFRASTRUCTURES NECESSAIRES La mise en œuvre dʹun centre de diffusion suppose une plateforme de gestion dʹobjets numériques. Les prototypes actuels (SLDR et CNRTL) sʹappuient sur Fedora Commons. 19/46

20 e du projet / Certaines briques nécessaires existent sur des plateformes basées sur Fedora, pour autant lʹintégration de lʹensemble est incomplète et nécessite des développements supplémentaires (lʹensemble des développements se fera en open source). Un centre thématique nécessite la mise en œuvre dʹune base (RDF) pour une exploitation efficace des métadonnées structurées et hétérogènes pour permettre une sélection optimale de ressources en réponse à un besoin d un utilisateur. Il est également souhaitable de disposer dʹune indexation plein texte qui, pour des raisons d efficacité, devra se situer au niveau des centres de diffusion. Pour l infrastructure d accueil de ces centres, nous nous appuierons sur l existant au sein des partenaires. Il n y a donc pas lieu d envisager d investissement en termes de bâtiment, espace spécifique, alimentation électrique. Nos demandes portent donc sur : - Des équipements informatiques (serveurs de calcul et de données et postes de travail), des équipements spécifiques de saisies de données en vue de la constitution de ressources. - Définition, programmation et test de l architecture logicielle décrite ci dessus. - Finalisation et/ou constitution de ressources et d outils nécessaires à la version 1 de l Equipex. 2. STRATEGIE DE VALORISATION DE L EQUIPEMENT ET IMPACT SOCIO-ECONOMIQUE DU PROJET 2.1. VALORISATION DANS LE MONDE SCIENTIFIQUE : Comme nous l avons indiqué ci dessus, l objectif de notre plateforme de mutualisation de ressources et d outils sur les langues de France s appuie sur une politique de ressources et de logiciels libres partagés avec l ensemble de la communauté de recherche. Il n y aura donc pas de ce point de vue de facturation d usage de la plateforme ou de ses ressources et outils pour la communauté de recherche. L impact de ce point de vue devra être mesuré suivant d autres critères. Nous proposons les critères suivant comme indicateurs de réussite du projet : - Nombre de ressources et d outils mutualisés et ratio entre celles et ceux venant des partenaires et celles et ceux venant d autres laboratoires. Si la plateforme est amenée à gérer des ressources venant de laboratoires autres que l un des partenaires de l EQUIPEX nous aurons là un indice important de réussite du projet. Il convient de noter que dès à présent c est ce que nous avons réussi au sein de nos centres de ressources. Ainsi le CNRTL abrité au sein de l ATILF regroupe certes une majorité de ressources venant de l ATILF mais aussi des ressources d autres laboratoires ou organismes : Académie Française, ARTLF (Chicago), CRISCO (Caen), Ecole des Chartes, CLLE/ERSS (Toulouse), INIST, LDI (Cergy), LIA (Avignon), LORIA, Université de Laval (Québec), Université de Tours, etc. - Nombre d accès à ces ressources. Ce second indicateur, complémentaire du premier est aussi important pour mesurer la réussite d un tel projet. Nous souhaitons poursuivre nos efforts qui font par exemple que le seul portail lexical du CNRTL sert aujourd hui plus de 20/46

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

Position de l ASTEE sur l innovation en matière de services d eau et de déchets

Position de l ASTEE sur l innovation en matière de services d eau et de déchets Position de l ASTEE sur l innovation en matière de services d eau et de déchets Les services publics locaux de l environnement : des services discrets mais moteurs de développement Depuis leur mise en

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Université de Lausanne

Université de Lausanne Université de Lausanne Records management et archivage électronique : cadre normatif Page 2 Ce qui se conçoit bien s énonce clairement Nicolas Boileau Page 3 Table des matières Qu est- ce que le «records

Plus en détail

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice HAL, archives ouvertes Christine Berthaud, CNRS/CCSD - Directrice HAL - http://hal.archives-ouvertes.fr L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion d'articles scientifiques

Plus en détail

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations U Université dumaine Faculté des Lettres, Langues et Sciences humaines Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations Carole Lailler 1 L interrogation : une modalité

Plus en détail

MASTER LPL : LANGUE ET INFORMATIQUE (P)

MASTER LPL : LANGUE ET INFORMATIQUE (P) MASTER LPL : LANGUE ET INFORMATIQUE (P) RÉSUMÉ DE LA FORMATION Type de diplôme := Master Domaine : Arts, Lettres, Langues Mention : LITTERATURE, PHILOLOGIE, LINGUISTIQUE Spécialité : LANGUE ET INFORMATIQUE

Plus en détail

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos Laurent Veillard UMR ICAR (CNRS, Université Lyon 2, ENS de lyon)

Plus en détail

Compte-rendu re union Campus AAR 3 mars 2015

Compte-rendu re union Campus AAR 3 mars 2015 Compte-rendu re union Campus AAR 3 mars 2015 Table des matières Liste d actions... 2 I. Environnement d analyse : INA, Armadillo... 3 a. Connexion de l outil INA avec API Armadillo... 3 b. Outil d analyse

Plus en détail

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES 2007 21 Novembre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES 2007 21 Novembre 2007 L archivage pérenne du document numérique au CINES CINES (O.Rouchon) JRES 2007 21 Novembre 2007 Sommaire La mission d archivage du CINES Le contexte, la problématique et les constats Les défis, orientations

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) RFI-2013-09 Demande d information Page 1/9 DEMANDE D INFORMATION RFI (Request for information) Socle de Ged-Archivage SOMMAIRE 1. OBJET DE LA DEMANDE D INFORMATION... 3 2. PÉRIMÈTRE DE L INFORMATION...

Plus en détail

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1 Communauté d Universités et Établissements Stratégie Territoriale et Initiative d Excellence Université Côte d Azur (UCA) - page 1 En 2015 le paysage français de l Enseignement supérieur et de la Recherche

Plus en détail

Présentation générale du projet data.bnf.fr

Présentation générale du projet data.bnf.fr Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données

Plus en détail

Ministère de la Culture et de la Communication

Ministère de la Culture et de la Communication Paris, le 11 juin 2014 Secrétariat général Service de la coordination des politiques culturelles et de l innovation Département de la Recherche, de l Enseignement supérieur et de la Technologie Appel à

Plus en détail

Archives ouvertes : les enjeux dans les politiques d établissement et les projets internationaux

Archives ouvertes : les enjeux dans les politiques d établissement et les projets internationaux Archives ouvertes : les enjeux dans les politiques d établissement et les projets internationaux Bruno BOISSAVIT, Anne SLOMOVICI Séminaire MSH : Les archives ouvertes et HAL-SHS 13 Mars 2014 MSH Val de

Plus en détail

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007 L archivage pérenne du document numérique au CINES CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007 Sommaire La mission d archivage du CINES Le contexte, la problématique et les constats Les défis, orientations

Plus en détail

PRÉSENTATION GÉNÉRALE

PRÉSENTATION GÉNÉRALE PRÉSENTATION GÉNÉRALE Cadrage institutionnel : Arrêté du 27 août 2013 fixant le cadre national des formations dispensées au sein des masters «métiers de l enseignement, de l éducation et de la formation»

Plus en détail

Ministère de la Culture et de la Communication

Ministère de la Culture et de la Communication Par Thierry CLAERR, Service du Livre et de la Lecture Jean-François MOUFFLET, Service interministériel des Archives de France Ministère de la Culture et de la Communication Stockage et conservation des

Plus en détail

Infrastructure / réseau / sécurité /support utilisateur

Infrastructure / réseau / sécurité /support utilisateur Présentation du PSIR Pôle regroupant normalement 7 personnes (5 personnes actuellement) Les quatre axes de spécialisation du service sont: Pôle infrastructure et réseau ; Banques de données et données

Plus en détail

S8 - INFORMATIQUE COMMERCIALE

S8 - INFORMATIQUE COMMERCIALE S8 - INFORMATIQUE COMMERCIALE Les savoirs de l Informatique Commerciale doivent être abordés en relation avec les autres savoirs (S4 à S7). Les objectifs généraux sont : o de sensibiliser les étudiants

Plus en détail

I partie : diagnostic et proposition de solutions

I partie : diagnostic et proposition de solutions Session 2011 BTS assistant de manager Cas Arméria: barème et corrigé Remarque: la 1 ère partie doit être cohérente avec les éléments déterminants du contexte décrit dans cet encadré, qui n est pas attendu

Plus en détail

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal Direction des bibliothèques Sondage Ithaka S+R Questionnaire français Université de Montréal Décembre 2014 Modules retenus Découverte Activités de recherche numérique Compétences informationnelles des

Plus en détail

Création outil multimédia de restitution du projet «l intergénérationnel : un levier pour un levier pour créer du lien social en milieu rural

Création outil multimédia de restitution du projet «l intergénérationnel : un levier pour un levier pour créer du lien social en milieu rural CAHIER DES CHARGES Création outil multimédia de restitution du projet «l intergénérationnel : un levier pour un levier pour créer du lien social en milieu rural Juillet 2013 Sarah Pecas I - PRESENTATION

Plus en détail

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de 1 2 «Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de Copie, seules les références bibliographiques peuvent

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Master Audiovisuel, communication et arts du spectacle

Master Audiovisuel, communication et arts du spectacle Formations et diplômes Rapport d'évaluation Master Audiovisuel, communication et arts du spectacle Université Toulouse II - Jean Jaurès - UT2J Campagne d évaluation 2014-2015 (Vague A) Formations et diplômes

Plus en détail

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F) Paris Sciences et Lettres FICHE DE POSTE Intitulé du poste Gestionnaire des données du Portail des savoirs (H/F) Positionnement dans la structure Le gestionnaire des données du Portail des savoirs est

Plus en détail

Retour d'expérience avec : OCS Inventory & GLP

Retour d'expérience avec : OCS Inventory & GLP Accueil diaporama Unité mixte de recherche 7118 Titre de la diapositive Journées Thématiques JoSy http://www.resinfo.cnrs.fr/ "Gestion, déploiement et maintenance d un parc informatique" Retour d'expérience

Plus en détail

Mise en place d une politique institutionnelle d archives ouvertes

Mise en place d une politique institutionnelle d archives ouvertes Mise en place d une politique institutionnelle d archives ouvertes Sanaa DOUKKALI Directrice de la Bibliothèque Universitaire Mohamed Sekkat, Université Hassan II -Casablanca Tel: +212 614 00 04 52 e-mail

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Portail Vocal d Entreprise

Portail Vocal d Entreprise Portail Vocal d Entreprise Responsable et intégration IBM Communication Langagière et Interaction Personne-Système CNRS - INPG - UJF BP 53-38041 Grenoble Cedex 9 - France Conception, maquette Évaluation

Plus en détail

L IDEX DE TOULOUSE EN BREF

L IDEX DE TOULOUSE EN BREF L IDEX DE TOULOUSE EN BREF Pourquoi des Initiatives D EXcellence (IDEX)? Depuis 18 mois, les universités, les grandes écoles et les organismes de recherche ont travaillé ensemble pour répondre à l appel

Plus en détail

La modernisation technologique du réseau repose alors sur plusieurs axes de travail :

La modernisation technologique du réseau repose alors sur plusieurs axes de travail : EN 2011 LE RÉSEAU DES MÉDIATHÈQUES DE MONTPELLIER AGGLOMÉRATION OBTIENT LE LABEL «BIBLIOTHÈQUE NUMÉRIQUE DE RÉFÉRENCE». La modernisation technologique du réseau repose alors sur plusieurs axes de travail

Plus en détail

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE , chemin de la côte Saint-Antoine Westmount, Québec, HY H7 Téléphone () 96-70 RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE À TRANSMETTRE AU PARENTS Année scolaire 0-0 Document adapté par Tammy

Plus en détail

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?»

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?» «L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?» Introduction Le travail que nous présentons ici repose sur une expérience

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Les documents primaires / Les documents secondaires

Les documents primaires / Les documents secondaires Les documents primaires / Les documents secondaires L information est la «matière première». Il existe plusieurs catégories pour décrire les canaux d information (les documents) : - Les documents primaires

Plus en détail

Master Etudes françaises et francophones

Master Etudes françaises et francophones Master Etudes françaises et francophones 1. modèle scientifique et profilage des contenus de la filière / Présentation et spécificités de la filière Les études romanes à Leipzig sont considérées comme

Plus en détail

APPEL A PROJETS du Conseil Régional de Lorraine «TECHNOLOGIES NUMERIQUES POUR LES NOUVEAUX USAGES DE L IMAGE»

APPEL A PROJETS du Conseil Régional de Lorraine «TECHNOLOGIES NUMERIQUES POUR LES NOUVEAUX USAGES DE L IMAGE» APPEL A PROJETS du Conseil Régional de Lorraine «TECHNOLOGIES NUMERIQUES POUR LES NOUVEAUX USAGES DE L IMAGE» INTRODUCTION Pourquoi un appel à projets «Technologies numériques pour les nouveaux usages

Plus en détail

L Institut National des Sciences Mathématique et de leurs. Premiers éléments d un bilan à deux ans.

L Institut National des Sciences Mathématique et de leurs. Premiers éléments d un bilan à deux ans. L Institut National des Sciences Mathématique et de leurs Interactions (INSMI) : Premiers éléments d un bilan à deux ans. 1. Mise en place de l INSMI Au CNRS, l année 2009 a été une année de transition

Plus en détail

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE Un problème de recherche est l écart qui existe entre ce que nous savons et ce que nous voudrions savoir à propos d un phénomène donné. Tout problème de recherche

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES)

Plan. Un modèle d organisation. Pour les Archives numériques. Présentation Groupe PIN. Claude HUC (CNES) Un modèle d organisation Pour les Archives numériques Présentation Groupe PIN 1 septembre 2004 Claude HUC (CNES) 2004/09/01 1 Plan ½ Notre contexte : L archivage long terme des données spatiales l une

Plus en détail

Master Technologies numériques appliquées à l'histoire Deuxième année

Master Technologies numériques appliquées à l'histoire Deuxième année Master Technologies numériques appliquées à l'histoire Deuxième année Octobre 2014 Octobre Novembre Décembre Semaine 1 Semaine 2 Semaine 3 Semaine 4 Semaine 5 Semaine 6 Semaine 7 Semaine 8 Semaine 9 Semaine

Plus en détail

PROGRAMME DE CRÉATION ET INNOVATION TECHNOLOGIQUES EN CLASSE DE SECONDE GÉNÉRALE ET TECHNOLOGIQUE Enseignement d exploration

PROGRAMME DE CRÉATION ET INNOVATION TECHNOLOGIQUES EN CLASSE DE SECONDE GÉNÉRALE ET TECHNOLOGIQUE Enseignement d exploration PROGRAMME DE CRÉATION ET INNOVATION TECHNOLOGIQUES EN CLASSE DE SECONDE GÉNÉRALE ET TECHNOLOGIQUE Enseignement d exploration Préambule La société doit faire face à de nouveaux défis pour satisfaire les

Plus en détail

Enseignement au cycle primaire (première partie)

Enseignement au cycle primaire (première partie) Ligne directrice du cours menant à une qualification additionnelle Enseignement au cycle primaire (première partie) Annexe D Règlement 184/97 Qualifications requises pour enseigner Normes d exercice de

Plus en détail

Dafoe Présentation de la plate-forme UIMA

Dafoe Présentation de la plate-forme UIMA Laboratoire d Informatique de l université Paris-Nord (UMR CNRS 7030) Institut Galilée - Université Paris-Nord 99, avenue Jean-Baptiste Clément 93430 Villetaneuse, France 11 juillet 2007 Plates-formes

Plus en détail

Cycle de vie, processus de gestion

Cycle de vie, processus de gestion Les données scientifiques au CNES Cycle de vie, processus de gestion Danièle BOUCON Réunion PIN du 4 janvier 2013 Réunion PIN du 22 mars 2012 Outils CNES Contexte des données scientifiques au CNES SOMMAIRE

Plus en détail

Bibliothèque numérique de l enssib

Bibliothèque numérique de l enssib Bibliothèque numérique de l enssib Il y a une vie après MARC, 19 novembre 2007 : journée d étude en hommage à Pierre-Yves Duchemin De MARC à XML : Les nouveaux formats bibliographiques CLAVEL, Thierry

Plus en détail

Synthèse «Le Plus Grand Produit»

Synthèse «Le Plus Grand Produit» Introduction et Objectifs Synthèse «Le Plus Grand Produit» Le document suivant est extrait d un ensemble de ressources plus vastes construites par un groupe de recherche INRP-IREM-IUFM-LEPS. La problématique

Plus en détail

Le système d accréditation n est pas un système basé sur la conformité à la. de ce fait, il se différencie

Le système d accréditation n est pas un système basé sur la conformité à la. de ce fait, il se différencie Système d accreditation des organismes de formation Origine, objectifs et méthodologie du système d accréditation Carlos Capela Coordinateur du projet INOFOR - Institut pour l innovation dans la formation

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015) Chaîne opératoire de réalisation d une base de données ANF «Comment concevoir une base de données» (29-30/01/2015) En introduction 1- Phase d analyse ou d audit 2- Modélisation & développement de la base

Plus en détail

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes

Plus en détail

JEFYCO & Co. Paris le 03 Décembre 2004

JEFYCO & Co. Paris le 03 Décembre 2004 JEFYCO & Co Paris le 03 Décembre 2004 Ordre du jour Papaye Compta 2005 Taxe d apprentissage Conventions Dématérialisation Prestations Stocks & Inventaires Nouveau pôle édition Développements en cours et

Plus en détail

Programme de la formation. Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE

Programme de la formation. Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE Programme de la formation Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE o 36 h pour la préparation à l'épreuve écrite de français Cette préparation comprend : - un travail sur la discipline

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

RÉSULTAT DISCIPLINAIRE RÈGLE DE RÉUSSITE DISCIPLINAIRE Programme de formation de l école québécoise Secondaire - 1 er cycle

RÉSULTAT DISCIPLINAIRE RÈGLE DE RÉUSSITE DISCIPLINAIRE Programme de formation de l école québécoise Secondaire - 1 er cycle RÉSULTAT DISCIPLINAIRE RÈGLE DE RÉUSSITE DISCIPLINAIRE Programme de formation de l école québécoise Secondaire - er cycle Direction générale de la formation des jeunes Octobre 006 Introduction Dans le

Plus en détail

Contribution des TICE à l évolution du système éducatif. Anne-Marie BARDI IGEN honoraire

Contribution des TICE à l évolution du système éducatif. Anne-Marie BARDI IGEN honoraire Contribution des TICE à l évolution du système éducatif Anne-Marie BARDI IGEN honoraire Vision d acteur / Vision de chercheur Expérience durable Variété des fonctions Diversité des niveaux et des disciplines

Plus en détail

Formation «Système de gestion des documents d activité (SGDA)»

Formation «Système de gestion des documents d activité (SGDA)» Formation «Système de gestion des documents d activité (SGDA)» **** Norme principale : - ISO 3030X : Système de gestion des documents d activité (SGDA) ; Normes Connexes : - ISO 15489 : Records Management

Plus en détail

Devenez expert en éducation. Une formation d excellence avec le master Métiers de l Enseignement, de l Education et de la Formation

Devenez expert en éducation. Une formation d excellence avec le master Métiers de l Enseignement, de l Education et de la Formation Institut Universitaire de Formation des Maîtres Université de Provence - Aix-Marseille Université 20 ans d expérience dans la formation des professionnels dans les métiers de l enseignement, de l éducation

Plus en détail

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE PREMIER MINISTRE SECRÉTARIAT GÉNÉRAL DU GOUVERNEMENT CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE SUR LES SITES INTERNET GÉRÉS PAR LA DOCUMENTATION

Plus en détail

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines Constat Enquête auprès des laboratoires de recherche Besoin d information sur les enjeux de l'archivage

Plus en détail

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES Gestion Electronique de Documents (GED) Système d Archivage Electronique (SAE) Coffre Fort Numérique (CFN) et modules complémentaires

Plus en détail

Examen de la saisine Définition de l'architecture du SINP. Contributeurs : Frédéric Gosselin, Pascal Dupont

Examen de la saisine Définition de l'architecture du SINP. Contributeurs : Frédéric Gosselin, Pascal Dupont Examen de la saisine Définition de l'architecture du SINP Contributeurs : Frédéric Gosselin, Pascal Dupont Questions posées Question principale : Les résultats du groupe de travail «GT Architecture» apportent-ils

Plus en détail

RÉSUMÉ DU PLAN STRATÉGIQUE DE RECHERCHE (2013-2018) Une culture de l excellence en recherche et en développement

RÉSUMÉ DU PLAN STRATÉGIQUE DE RECHERCHE (2013-2018) Une culture de l excellence en recherche et en développement RÉSUMÉ DU PLAN STRATÉGIQUE DE RECHERCHE (2013-2018) Une culture de l excellence en recherche et en développement La recherche à l Université Sainte-Anne L Université Sainte-Anne, par son emplacement géographique,

Plus en détail

DECLARATION UNIVERSELLE DE L UNESCO

DECLARATION UNIVERSELLE DE L UNESCO DECLARATION UNIVERSELLE DE L UNESCO SUR LA DECLARATION UNIVERSELLE DE L UNESCO SUR LA DIVERSITE CULTURELLE CULTURELLE Adoptée par la 31 e session de la Conférence Générale de l UNESCO PARIS, 2 NOVEMBRE

Plus en détail

Commentaires de. l Association québécoise pour le patrimoine industriel (Aqpi) sur le document. Un regard neuf sur le patrimoine culturel

Commentaires de. l Association québécoise pour le patrimoine industriel (Aqpi) sur le document. Un regard neuf sur le patrimoine culturel Commentaires de l Association québécoise pour le patrimoine industriel (Aqpi) sur le document Un regard neuf sur le patrimoine culturel Dans le cadre de la consultation publique pour une révision de la

Plus en détail

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION KEOPS Automation Espace Performance 2B, rue du Professeur Jean Rouxel BP 30747 44481 CARQUEFOU Cedex Tel. +33 (0)2 28 232 555 -

Plus en détail

Introduction MOSS 2007

Introduction MOSS 2007 Introduction MOSS 2007 Z 2 Chapitre 01 Introduction à MOSS 2007 v. 1.0 Sommaire 1 SharePoint : Découverte... 3 1.1 Introduction... 3 1.2 Ce que vous gagnez à utiliser SharePoint... 3 1.3 Dans quel cas

Plus en détail

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012 La recherche documentaire et la recherche d informations professionnelles 1 Introduction : la pratique étudiante Où commencez vous habituellement votre recherche d information? 84% des étudiants de 1er

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

Panorama des contenus

Panorama des contenus journée professionnelle organisée par ABPN Association des Bibliothécaires de la Province Nord Panorama des contenus documentaires numériques Isabelle Gasser IRD Nouméa - Documentation Plan Contexte t

Plus en détail

Création d'un Portail partagé sur l'offre de formation en région Languedoc-Roussillon

Création d'un Portail partagé sur l'offre de formation en région Languedoc-Roussillon Création d'un Portail partagé sur l'offre de formation en région Languedoc-Roussillon Retours des entretiens téléphoniques 1. Présentation du contexte : Atout Métiers LR Offre de formation L association

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Table des matières détaillée

Table des matières détaillée Michel Roberge. La gestion intégrée des documents (GID) en format papier et technologiques : documents administratifs, documents d'archives, documentation de référence. Québec : Éditions Michel Roberge,

Plus en détail

Introduction en sciences de la communication: les grands secteurs de la communication

Introduction en sciences de la communication: les grands secteurs de la communication PETER STOCKINGER, PU Institut National des Langues et Civilisations Orientales (INALCO) Introduction en sciences de la communication: les grands secteurs de la communication (Cours ICL 2A 01 c) Communication,

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

UN PROJET SCIENTIFIQUE ET CULTUREL POUR LA SOCIÉTÉ DE LA CONNAISSANCE

UN PROJET SCIENTIFIQUE ET CULTUREL POUR LA SOCIÉTÉ DE LA CONNAISSANCE UN PROJET SCIENTIFIQUE ET CULTUREL POUR LA SOCIÉTÉ DE LA CONNAISSANCE Le regroupement du Palais de la découverte et de la Cité des sciences et de l industrie en un seul établissement apporte les atouts

Plus en détail

PROGRAMME DE MENTORAT

PROGRAMME DE MENTORAT CONSEIL SCOLAIRE ACADIEN PROVINCIAL PROGRAMME DE MENTORAT ÉNONCÉ PRATIQUE Le Conseil scolaire acadien provincial désire promouvoir un programme de mentorat qui servira de soutien et d entraide auprès des

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF 10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX

Plus en détail

Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur

Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur Déroulement des deux journées Mardi 26 Matin : Intervention des IEN Jeudi 29 Matin : Production en binôme. Après-midi

Plus en détail

Guide des déposants. Appel à projets générique 2014 relatif aux «Grands Défis Sociétaux» et au «Défi de tous les savoirs»

Guide des déposants. Appel à projets générique 2014 relatif aux «Grands Défis Sociétaux» et au «Défi de tous les savoirs» Guide des déposants Appel à projets générique 2014 relatif aux «Grands Défis Sociétaux» et au «Défi de tous les savoirs» Date de publication : 31 juillet 2013 Agence Nationale de la Recherche Guide des

Plus en détail

Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche

Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche Odile Contat (InSHS) Journée d étude Arpist - Urfist - MSH Poitiers Réseaux sociaux de chercheurs

Plus en détail

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge! Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Notre modèle d engagement

Notre modèle d engagement Notre modèle d engagement 1. EVALUER L évaluation des compétences que vous souhaitez améliorer implique un vrai échange entre nos deux équipes, et une étude plus approfondie des écarts et des actions préalablement

Plus en détail

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le Partie I BI 2.0 Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le SI classique avec l intégration de la

Plus en détail

UNIVERSITE DE LORRAINE Référence GALAXIE : 465

UNIVERSITE DE LORRAINE Référence GALAXIE : 465 UNIVERSITE DE LORRAINE Référence GALAXIE : 465 Numéro dans le SI local : 06MCF0567 Référence GESUP : Corps : Maître de conférences Article : 26-I-1 Chaire : Non Section 1 : 06-Sciences de gestion Section

Plus en détail

PASSEPORT INNOVATION Guide de présentation des demandes Janvier 2015

PASSEPORT INNOVATION Guide de présentation des demandes Janvier 2015 PASSEPORT Guide de présentation des demandes Janvier 2015 Le présent document a été produit par le ministère de l Économie, de l Innovation et des Exportations Coordination et rédaction Direction du soutien

Plus en détail

Plan d actions 2011/2014

Plan d actions 2011/2014 Plan d actions 2011/2014 Le présent plan d actions s organise en fiches actions, qui précisent les objectifs opérationnels des actions et explicite les modalités de mise en œuvre. Ces fiches répondent

Plus en détail

PASSEPORT INNOVATION Guide de présentation des demandes Mai 2015

PASSEPORT INNOVATION Guide de présentation des demandes Mai 2015 PASSEPORT INNOVATION Guide de présentation des demandes Mai 2015 Le présent document a été produit par le ministère de l Économie, de l Innovation et des Exportations Coordination et rédaction Direction

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Sécurisation de l hébergement et de la maintenance du plateau collaboratif d échange (PCE) du plan Loire III

Sécurisation de l hébergement et de la maintenance du plateau collaboratif d échange (PCE) du plan Loire III Sécurisation de l hébergement et de la maintenance du plateau collaboratif d échange (PCE) du plan Loire III Depuis 2008, l Etablissement assure la mise en place du plateau collaboratif d échange Intranet/Internet

Plus en détail

Les utilisations pédagogiques du Tableau Numérique Interactif (TNI) dans l enseignement d Économie-Gestion :

Les utilisations pédagogiques du Tableau Numérique Interactif (TNI) dans l enseignement d Économie-Gestion : Les utilisations pédagogiques du Tableau Numérique Interactif (TNI) dans l enseignement d Économie-Gestion : Pascal ROOS Professeur d Économie Gestion Lycée Edmond Rostand, Saint Ouen l Aumône (95) Face

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

BTS MUC Le système d information commerciale dans l épreuve d ACRC

BTS MUC Le système d information commerciale dans l épreuve d ACRC cterrier.com 11/09/2007 1 / 7 BTS MUC Le système d information commerciale dans l épreuve d ACRC Auteur : C. Terrier ; mailto:webmaster@cterrier.com ; http://www.cterrier.com Utilisation : Reproduction

Plus en détail