UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...



Documents pareils
Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Big Data: les enjeux juridiques

Faire du TAL sur des données personnelles : un oxymore?

CHARTE D UTILISATION DE GÉOANJOU : PLATEFORME MUTUALISEE POUR LE PARTAGE

CONDITIONS GENERALES D UTILISATION. L application VAZEE et le site internet sont édités par :

Open Data & informations publiques : les principaux aspects juridiques

DDN/RSSI. Engagement éthique et déontologique de l'administrateur systèmes, réseaux et de système d'informations

ENTRE LES SOUSSIGNÉS :

LICENCE SNCF OPEN DATA

CHARTE INFORMATIQUE LGL

CONTRAT DE LICENCE DE REUTILISATION DES INFORMATIONS PUBLIQUES MONTPELLIER AGGLOMERATION EN ACCES LIBRE

Charte de fonctionnement du portail Géocharente

Conditions générales. Utilisateurs de machine à affranchir

LICENCE SNCF OPEN DATA

DES RESSOURCES INFORMATIQUES DE L'IFMA

COMMISSION DE VALIDATION DES DONNEES POUR L'INFORMATION SPATIALISEE

Licence ODbL (Open Database Licence) - IdéesLibres.org

Diffusion AFRISTAT. Quels droits accorder aux utilisateurs? - sur les données - sur les documents numériques

Le BIG DATA. Les enjeux juridiques et de régulation Claire BERNIER Mathieu MARTIN. logo ALTANA CABINET D AVOCATS

Charte de la Banque ADN et de Cellules de Généthon

Projet d'accord relatif à l'aide pour la défense mutuelle entre les États-Unis et la CED (Mai 1954)

Quelles sont les informations légales à faire figurer sur un site Internet?

CHARTE INFORMATIQUE. Usage de ressources informatiques et de service Internet

Charte d hébergement de site web

Open data : les données libérées doivent-elles être gratuites?

Programme-cadre européen pour la recherche et l innovation. Horizon Lignes directrices pour la gestion des données dans Horizon 2020

Il n'existe pas de contrat "type", mais des types de contrat. Nous pouvons instruire ensemble ces différents types de contrat.

LES CRITÈRES D'ATTRIBUTION ET RÈGLES D APPLICATION DE RÉMUNÉRATIONS ADDITIONNELLES POUR LES EMPLOYÉS COUVERTS PAR L UNITÉ SCRC

Réutilisation d informations publiques provenant des Archives départementales de Saône-et-Loire

CHARTE D'UTILISATION ET CHARTE EDITORIALE DU PORTAIL ASSOCIATIF

CENTRE DE RECHERCHE GRENOBLE RHÔNE-ALPES

HES SO Fribourg. Directives d utilisation. des équipements informatiques

Guide d établissement des budgets des propositions soumises aux appels à projets de

CONTRAT DE MAINTENANCE

CHARTE DES BONS USAGES DES MOYENS NUMERIQUES DE L UNIVERSITE

Charte académique relative à L HEBERGEMENT DES SITES WEB

RÈGLEMENT NUMÉRO 12 RÈGLEMENT SUR L UTILISATION DES TECHNOLOGIES INFORMATIQUES ET INTERNET

Open Source Community Governance OpenJustitia

LA QUALITE DU LOGICIEL

MONITORING / SUIVI DES PATIENTS

ORGANISATION MONDIALE

CONDITIONS GENERALES DE VENTE ET D UTILISATION

Convention de Licence Érudit (Open Source)

REUTILISATION D'INFORMATIONS PUBLIQUES DETENUES PAR LES ARCHIVES DEPARTEMENTALES DE LA LOIRE REGLEMENT GENERAL

Référentiel C2i niveau 1 Version 2 :

Domaine D1 : Travailler dans un environnement numérique évolutif

Conformité aux exigences de la réglementation "21 CFR Part 11" de la FDA

Charte de déontologie SMS+ applicable au 01/10/2013

Conditions Particulières de Maintenance. Table des matières. Ref : CPM-1.2 du 08/06/2011

Charte du Bon usage de l'informatique et des réseaux informatiques au Lycée St Jacques de Compostelle

Les badges de chantier*

Médiathèque DASTRI Mentions légales

CHARTE D UTILISATION DU SITE

Contenus détaillés des habiletés du Profil TIC des étudiants du collégial

Charte de vacation. ENTRE LES SOUSSIGNES: D une part : L Ecole Supérieure de Technologie de Meknès, représentée par Monsieur le Directeur.

Gestion collaborative de documents

L ENREGISTREMENT DU COURRIER

Conditions Générales d utilisation de l Application «Screen Mania Magazine»

Annexe sur la maîtrise de la qualité

Thierry Aimé DGFIP, Bureau de l'architecture informatique Ministère du budget, des comptes publics et de la fonction publique

CONDITIONS GENERALES D UTILISATION DE L APPLICATION L@GOON Version Mai 2015

SPECIFICATION "E" DU CEFRI CONCERNANT LES ENTREPRISES EMPLOYANT DU PERSONNEL DE CATEGORIE A OU B TRAVAILLANT DANS LES INSTALLATIONS NUCLEAIRES

Agrément des hébergeurs de données de santé. 1 Questions fréquentes

Université du Québec à Trois-Rivières Politique de gestion des documents actifs, semi-actifs et inactifs de l'u.q.t.r.

Mise au point sur LA MAINTENANCE DES DISPOSITIFS MEDICAUX. Octobre Agence française de sécurité sanitaire des produits de santé

La Commission de la protection de la vie privée (ci-après "la Commission") ;

REGLES INTERNES AU TRANSFERT DE DONNEES A CARACTERE PERSONNEL

Les enjeux de la dématérialisation en assurance

RÈGLES ET PRATIQUES EN COMPTABILITÉ DE GESTION FACTURATION INTERNE Août 2000

Personnalisation Fiche Annuaire

INCIDENTS DE SECURITE : cadre juridique et responsabilités de l'entreprise

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

EXIGENCES MINIMALES RELATIVES À LA PROTECTION DES RENSEIGNEMENTS PERSONNELS LORS DE SONDAGES RÉALISÉS PAR UN ORGANISME PUBLIC OU SON MANDATAIRE

Les responsabilités des professionnels de santé

Article 2 : Conseils et meilleures pratiques pour gérer un cloud privé

plate-forme mondiale de promotion

de la commune organisatrice ou bénéficiaire, ci-après dénommée «société de transports en commun bénéficiaire». Par dérogation aux dispositions de

Charte de bon Usage des Ressources Informatiques, de la Messagerie et de l Internet

CODE PROFESSIONNEL. déontologie

Annexe A : tableau des Indicateurs GRI

4 rue Alfred Kastler 19, rue du Daguenet NANTES Angers

CONDITIONS GENERALES DE VENTES -REFERENCEMENT NATUREL

la Direction des ressources humaines et des relations de travail (langue du travail ; maîtrise du français par les employé(e)s)

Traçabilité et sécurité juridique Me Raphaël PEUCHOT, avocat, Ribeyre & Associés

Lignes directrices relatives à l instauration de redevances de réutilisation des informations publiques dans des circonstances particulières

COMMISSION DE VALIDATION DES DONNEES POUR L'INFORMATION SPATIALISEE

CONDITIONS GENERALES DE VENTE A DISTANCE DES PRODUITS DE TESTS ET DIAGNOSTICS EN LIGNE SUR LE SITE INTERNET BOUTIQUE AFNOR CERTIFICATION

CONTRAT DE CESSION DE DROITS D AUTEUR «INTERVENTION FILMEE»

Types de REA produites dans le cadre de la séquence pédagogique

N SIMON Anne-Catherine

LOCAL TRUST Charte Open-Source

Atelier CCI Innovation TECHNIQUE CONTRACTUELLE ET RECHERCHE-DÉVELOPPEMENT LA COMMUNICATION DU SAVOIR-FAIRE

Rapport de résultats : Consultation Open data et données personnelles

PRÉSENTATION DE LA MAINTENANCE INFORMATIQUE

Les Imprimantes EOLE 2.3. Documentation sous licence Creative Commons by-nc-sa - EOLE (http ://eole.orion.education.fr) révisé : Janvier 2014

Conditions d'utilisation de la plateforme Défi papiers

Conditions générales d'utilisation des services de P4X SPRL:

Transcription:

CHARTE ETHIQUE ET BIG DATA FACIILITER L ECHANGE ET LA DIFFUSION DES DONNEES

Sommaire UN TRAVAIL A PLUSIEURS VOIX...... 3 CONTENU DE LA CHARTE...... 3 COMMENT UTILISER CETTE E CHARTE?... 3 LICENCE......... 3 LES DONNEES... 4 TRAÇABILITE...... 5 PROPRIETE INTELLECTUELLE...... 9 REGLEMENTATIONS SPECIFIQUES... 10

La création, la maintenance, la diffusion et l'utilisation de données de toutes sortes est un enjeu économique majeur. Qu'il s'agisse de données démographiques, personnelles, de relevés de capteurs, de documents, thésaurus, ontologies. Ces bases de données sont essentielles à la création et la maintenance de nouveaux services. L'apparition du Cloud computing, de l'open Data et du Big Data rendent ces questions particulièrement sensibles. Cependant, l'utilisation ou la réutilisation des données se heurtent trop souvent à des freins qui en empêchent l'exploitation optimale : provenance parfois opaque (en particulier dans les cas de " crowdsourcing "), traçabilité inexistante, protection intellectuelle incertaine, une qualité difficile à évaluer a priori. Dès lors, sécuriser la création de données est un facteur de compétitivité. Cette charte Ethique & Big Data se donne comme objectif de fournir des garanties concernant la maintenabilité des données, leur traçabilité, leur qualité, l'impact sur l'emploi, réduire le risque juridique. Cette charte vise à harmoniser les rapports entre producteurs, fournisseurs et utilisateurs de données sur le plan du respect des lois, de celui de l'éthique, et garantir la confiance dans les rapports entre l'ensemble des acteurs impliqués. Alain Couillault, APROGED, Professeur associé Université de La Rochelle

Un travail à plusieurs voix Cette charte a été conçue à l initiative de l APROGED, de l ATALA et de l AFCP. Plusieurs associations et partenaires ont collaboré à sa rédaction et à sa diffusion. Contenu de la charte La Charte Ethique & Big data comprend quatre volets principaux qui concernent la description des données, la traçabilité, la propriété intellectuelle et les réglementations spécifiques. Pour chacun de ces volets, la charte considère ce qui se passe avant, pendant, et après la constitution des données. Comment utiliser cette charte? La Charte Ethique & Big data fournit une trame de description des corpus de données et sert de memorandum des points à décrire lorsque l'on met à disposition des données, que ce soit à usage commercial ou académique, payant ou gratuit. Les éléments prévus dans la charte sont à remplir par le fournisseur, qui s'engage ainsi sur son contenu. Il arrive, fréquemment, qu un jeu de données soit construits par rassemblement, enrichissement, altération d un ou plusieurs jeux de données existants. Dans ces cas, il convient de remplir les éléments de la Charte pour le seul jeu de données auquel elle correspond, en y faisant référence, le cas échéant, aux chartes des jeux de données utilisés. Licence Cette Charte Ethique & Big data est distribuée sous licence Creative Common CC BY-N 3.0 FR, avec attribution suivante : «Rédacteurs Gilles Adda, AFCP, CNRS-LIMSI, Christelle Ayache, Cap Digital, Alain Couillault, Apoliade, Aproged, Université de La Rochelle, Karën Fort, ATALA, Loria / LIPN, Pierre-Olivier Gibert, Digital Ethics, François Hanat, Cap Digital, Hugues de Mazancourt, Aproged, Eptica-Lingway. Animateur du groupe de travail «Ethique et Big Data» organisé par l Aproged : Alain Couillault, Contributeurs : Daniel Bourcier, CNRS CERSA, Marie-Odile Charaudeau, Aproged, Primaveri de Filippi, CNRS CERSA, Olivier Itéanu, Aproged, Benoît Sagot, Aproged, INRIA/Paris VII, Joseph Mariani, CNRS Limsi/IMMI, Jamel Mostefa, ELRA/ELDA, Laurent PREVEL, Aproged.» La charte est disponible en ligne à l adresse http://wiki.ethique-big-data.org

Les données Nom et coordonnées de l institution ou de la personne responsable du corpus : ATILF-CNRS Personne(s) à contacter : Christophe Benzitoun (christophe.benzitoun@atilf.fr) Responsable(s) de la charte : Christophe Benzitoun (christophe.benzitoun@atilf.fr) Disponibilité des données (site Internet, CD-ROM...) : http://cnrtl.fr/corpus/perceo/ Quelle est la nature des données fournies? Décrire les support, mode de fourniture (cf. support physique vs. flux d'informations) Si possible, indiquer précisément les références du document qui décrit les données fournies Enregistrements de français parlé transcrits en orthographe standard. 102 139 tokens annotés au niveau morpho-syntaxique en parties du discours et en lemmes (utf-8). Fichier paramètre pour l'annotation automatique de corpus de français parlé à utiliser avec le logiciel TreeTagger (utf-8), entraîné à partir de la ressource fournie. Voir Christophe Benzitoun, Karën Fort et Benoît Sagot. TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe Actes de Traitement Automatique des Langues Naturelles (TALN), Grenoble, France, 2012.

Traçabilité La notion de traçabilité couvre l'ensemble des aspects permettant de connaître le contenu d'une source de données, et de retracer le processus de fabrication, Origine des données S'agit-il : de données primaires (créées directement par le fournisseur), de données consolidées de différents fournisseurs de données construites à partir de données tierces (enrichissement)? Dans les deux derniers cas, fournir, pour chacune des sources la charte correspondante ou les coordonnées de l'organisation d'où viennent les données, ainsi que le contact permettant d'obtenir les informations afférentes, ou la mention explicite et argumentée que la charte ne s'applique pas. La corpus a été constitué à partir de TCOF, contacter Christophe Benzitoun (christophe.benzitoun@atilf.fr). Auteurs, processus de recrutement Dans le cas de données primaires provenant de contributeurs humains, préciser la typologie des contributeurs la nature des relations contractuelles avec le fournisseur le mode de rémunération Dans le cas d'utilisation de crowdsourcing, préciser : les critères de sélection des travailleurs, la ou les plateformes utilisées, le mode et le montant de la rémunération.

Si les données contiennent des données liées aux contributeurs humains, préciser : si un consentement a été demandé, si une trace matérielle existe de ce consentement. la nature de l'information fournie afin que le consentement soit éclairé, Processus de fabrication ou de transformation des données : A. Si les données dont l'origine a été spécifiée dans la section Origine des données ont subi une quelconque transformation: Décrire les processus de transformation. Seul le texte brut a été conservé représentant les paroles effectivement prononcées et les doubles transcriptions. B. pour les processus d'enrichissement de données, décrire la nature de l'enrichissement. Annotation morphosyntaxique du corpus d'origine Préciser pour chaque processus, s'il s'agit d'un travail manuel ou automatique Correction manuelle d'une annotation automatique C. Dans le cas où un travail manuel est impliqué, indiquer : la typologie des intervenants, Deux étudiantes en Sciences du langage de Nancy 2, M. Salcedo et M. Paquot, recrutées spécifiquement pour faire l annotation. Christophe Benzitoun et Lolita Bérard de l'atilf E. Jacquey, V Meslard, S. Ollinger et E. Petitjean de l'atilf ainsi que K. Fort et B. Sagot ont apporté une contribution significative à ce projet. 12 étudiants ayant collaboré à ce projet dans le cadre de leur cours la nature des relations contractuelles, Chercheurs membres du laboratoire pour C. Benzitoun, doctorantes pour L. Bérard () et K. Fort, contrats de travail (contractuelles du CNRS) pour M. Salcedo et M. Paquot. le mode de rémunération. La participation de K. Fort a été financée dans le cadre du programme Quæro, financé par OSEO, agence nationale de valorisation de la recherche. Celle de B. Sagot entre dans le cadre du projet ANR EDyLex (ANR-09-CORD-008). Financement projet interne ATILF pour C. Benzitoun

D. Dans le cas d'utilisation de crowdsourcing, préciser : les critères de sélection des travailleurs, la ou les plateformes utilisées, le mode et le montant de la rémunération. E. Dans le cas où un outil informatique est impliqué, décrire : la nature et la fonction de l'outil, Analyseur morpho-syntaxique Tree Tagger avec fichier de paramètres pour le français ; annotation des données automatiquement avant correction ; entraînement de Tree Tagger sur les données produites. la nature de la propriété intellectuelle et la nature de la licence attachées à cet outil. Licence spécifique : http://www.ims.uni-stuttgart.de/~schmid/tagger-licence sur l outil. Pas de restriction spécifique pour le fichier de paramètres. F. Dans le cas où les données contiennent des informations personnelles, préciser : les moyens permettant de s'assurer que la transformation est compatible avec le consentement décrit dans la section Auteurs, processus de recrutement, si une anonymisation a été effectuée, et la manière dont elle a été faite. Processus de validation des données G. Préciser si un processus de validation des données a été appliqué. Dans la négative, dire pourquoi un tel processus n'a pas été nécessaire Dans l'affirmative, décrire le processus de validation, et en particulier : o le pourcentage des données validées, 1/5 du fichier a été validé en totalité. Pour le reste, seuls les cas de divergence inter-annotateur ont donné lieu à adjudication. o le mode de sélection des données validées, o si la validation a été faite en interne ou en externe, Validation en interne si la validation a été externe, la nature de l'organisme de validation. o si la validation a été faite à l'aide d'outils automatiques, ou a nécessité une intervention humaine, décrire la nature des outils,

préciser le profil des validateurs. Linguiste (enseignant-chercheur en linguistique) o décrire la méthode de validation, et en particulier : les critères de validation, si ces critères impliquent l'utilisation de métriques, décrire ces métriques. La validation a été réalisée en fonction du guide d'annotation (http://cnrtl.fr/corpus/perceo/manuel_annotation.pdf) o donner le résultat (qualitatif et quantitatif) de la validation, cf question précédente o s'il s'agit de données évolutives, indiquer : si la validation est identique sur les données archivées, et les données nouvelles, na la fréquence de validation. na

Propriété intellectuelle Licence d'utilisation de(s) source(s) H. En cas de réutilisation de données, décrire les restrictions légales ou contractuelles tuelles sur les données utilisées (par exemple, nature de la licence, la source doit-elle être citée? Etc. ) Pas d obligation de citation. La fourniture respecte-t-elle ces restrictions? On veillera notamment à la viralité des licences affectées aux sources d'information. Par exemple, les sources sont- elles libres et ouvertes (OpenData...)? Le corpus et sa documentation respectent ces restrictions. Sont-elles soumises à une licence particulière? à droit d'auteur? Open Source licence sous Creative Commons BY-NC-SA 2.0 pour les données utilisées (corpus TCOF). Droits du fournisseur sur les données I. En cas d'utilisation de données tierces, le signataire de la charte a-t-il des obligations par rapport à ses fournisseurs? En particulier, l'origine des données (copyright) doit-elle être mentionnée? Pas d obligation de citation Altération de licence liée au traitement des données J. En cas d'intervention d'un tiers sur les données (salarié, contractant, stagiaire...), préciser le cas échéant quels sont les droits de chacun sur les données (dans la mesure du possible, utiliser une licence pour préciser les droits et les obligations de chacun). Voir section Licence ci-dessous. Licence d'utilisation Préciser la (ou les) licence(s) attachée(s) aux données fournies. (on veillera à ce que la licence précise s'il existe des restrictions quant à la rediffusion de ces résultats). Open Source licence sous Creative Commons BY-NC-SA 2.0.

Réglementations spécifiques Certaines données peuvent être soumises à des réglementations d ordre public qui s imposent pour des raisons impératives de protection, de sécurité ou de moralité. Les fournisseurs ne peuvent y déroger. Le non-respect de ces réglementations peut donner lieu à des sanctions pénales ou prononcées par des autorités administratives indépendantes (CNIL, AMF, Autorité de la Concurrence). Le respect de ces réglementations est donc une des conditions de la légalité de l'utilisation ou la réutilisation des données. Préciser si la nature des données fournies ressort d'une ou plusieurs réglementations spécifiques. Si oui, préciser la ou lesquelles. le fournisseur respecte-t-il ces réglementations? Il est de la responsabilité du fournisseur de rechercher les réglementations applicables. Pour information, il existe des réglementations d ordre public qui visent explicitement les données : Loi informatique et libertés relatives aux données personnelles Sur le site de la CNIL Droits des producteurs de bases de données (LIVRE III - Titre IV du Code de la Propriété intellectuelle) Par ailleurs, suivant les secteurs d activité, des réglementations spécifiques peuvent nécessiter de modifier les conditions de collecte d utilisation et de réutilisation des données. Préalablement, à la mise en œuvre du traitement, une recherche sur les réglementations applicables s impose. En particulier, les activités traitant des données personnelles, financières, de santé ou couvertes par un secret doivent faire l objet d une vigilance particulière. Le correspondant informatique et libertés (CIL), présent dans de nombreuses entreprises, administrations ou collectivités locales est par exemple à même de renseigner ou d'instruire ce type de demandes.