QUALIFICATION DES DONNEES DU SYSTEME D INFORMATION Quadrige²



Documents pareils
Présentation du SINP. DGALN/DEB/PEM4 mai 2014

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Sensibilisation des opérateurs à l hygiène des aliments

Bases de données Outils de gestion

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

1.2. REALISATION DES OPERATIONS DE PRELEVEMENTS ET D ANALYSES

Intégration du référentiel hydrographique Bd Carthage dans le Système d Information de l agence de l eau Adour Garonne

Rôle de l Assurance Qualité dans la recherche clinique

L a d é m a r c h e e t l e s o u t i l s p r o p o s é s

BNPE, Banque Nationale des Prélèvements d Eau : un outil fédérateur pour la connaissance des pressions quantitatives sur la ressource en eau

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

1. ACCES AUX FONCTIONNALITES

Gouvernance des mesures de sécurité avec DCM-Manager. Présentation du 22 mai 2014

janv-10 janv-11 oct-10 juil-11 juil-10 avr-11 avr-10

MASTER (LMD) INGENIERIE DE LA SANTE

Sextant V4.0. Le portail de diffusion de l information géographique de l Ifremer. Sextant Présentation générale

Appui SIE :Développement de services web ADES/SIE

Examen de la saisine Définition de l'architecture du SINP. Contributeurs : Frédéric Gosselin, Pascal Dupont

CATALOGUE DE PRESTATIONS FORMATION ET CONSEILS

SECTION II RELATIVE AU PRÉLEVEUR

FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles

Guide de prise en main

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Gestion des bases de données

Audit et Inspection Les contraintes extérieures B.Malivoir

FORMATION HYGIENE. (D après méthode HACCP) EN INDUSTRIE AGROALIMENTAIRE

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

OUVERTURE ET MISE EN PLACE

Annexe 4 Bonnes pratiques de fabrication des produits pharmaceutiques : Principes généraux 1

Comment se préparer à la certification

UE 8 Systèmes d information de gestion Le programme

L IRSN et la surveillance de l environnement. Etat des lieux et perspectives

Secteur Protégé d Hématologie

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

AUDIT 2009 des UCPC de Lorraine

Débuter avec EXPRESS. Alain Plantec. 1 Schema 2

Unity Real Time 2.0 Service Pack 2 update

DEVELOPPEMENT DU MEDICAMENT 4 ème, 5 ème et 6 ème année de pharmacie

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux

Les archives ouvertes

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

COMMISSION EUROPÉENNE DIRECTION GÉNÉRALE SANTÉ ET PROTECTION DES CONSOMMATEURS RAPPORT D UNE MISSION EFFECTUEE EN TUNISIE DU 4 AU 8 MARS 2002

Documents d'aide à la maintenance et à la conception des installations intérieur de distribution d eau

Législation et droit d'un administrateur réseaux

FORMATION ECLAIRAGE PUBLIC

De la collecte à son intégration : la vie juridique de la donnée e scientifique à l Ifremer. Présentation DAJ - 27 mars 2007

Maîtrise des Fournisseurs. La CAEAR. Commission d Acceptation des Entreprises en Assainissement Radioactif

M E T T R E E N P L A C E U N E V E I L L E

Une application sur tablette tactile pour la saisie de données naturalistes sur le terrain Linhota

Acquisition. d une centrale de surveillance des températures CAHIER DES CHARGES. Maître de l'ouvrage :

évaluation des risques professionnels

BNPE, Banque Nationale des Prélèvements d Eau un outil fédérateur pour la connaissance des pressions quantitatives sur la ressource en eau

REGLEMENT DE LA CONSULTATION ((RC) n de marché Date : Novembre 2014

Qualité Sécurité Environnement

molis result portal Description fonctionnelle La structure système Configuration système requise Architecture du système

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

Définir une politique de maintenance et sa stratégie de mise en œuvre de responsabilités

White Paper - Livre Blanc

Assainissement des campings janvier 2011

Le 10 ème programme ( ) de l Agence de l eau Seine-Normandie

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Galigeo Location Intelligence Solutions Galigeo Solution

La solution pour gérer vos connaissances techniques et scientifiques

Mise en œuvre de l architecture SINP. Forum ATEN des TIC 4 juin Y. Lebeau MEDDE/DGALN/DEB/PEM4

Liège, le 29 juillet APPEL INTERNE et EXTERNE AUX CANDIDATURES N

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

appliquée aux emballages alimentaires

Cadastre du bruit SIT-JURA. Connecteur Arcview9.x - MSAccess. Mode d emploi. Appel formulaire. Page 1 sur 15

MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ DES CONSEILS DE DÉVELOPPEMENT FONDÉS

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER 2 CONTAMINANTS EAU SANTE

Cahier des charges pour la création du site internet Pays Sologne Val Sud

GROUPE CASINO. L INTEGRATION DU DEVELOPPEMENT DURABLE DANS LE CHOIX DES PRODUITS. Claudine QUENTEL et Philippe IMBERT

Les bases de données Les systèmes d informations

Le Système d Information Routier

Cycle de vie, processus de gestion

REFERENTIEL PROFESSIONNEL - BAPAAT

Chaîne de production des médicaments

Qualité du Milieu Marin Littoral Bulletin de la surveillance 2013

Comment consulter la Photothèque de Paris 1

La certification des entreprises de Bâtiment et de Travaux Publics en Rhône-Alpes : les enjeux

Dailymotion: La performance dans le cloud

EOLIEN EN MER : Projet de Saint Nazaire. 15 Novembre Instance de Suivi et de Concertation

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

DEMANDE D INFORMATION RFI (Request for information)

Responsabilité du promoteur et obligations des soustraitants. cliniques : conformité aux Bonnes Pratiques Cliniques et point de vue de l inspection

Questionnaire GTA - Analyse des re ponses

ASSISTANCE ET RENFORCEMENT DES CAPACITÉS OFFERTS DANS D AUTRES INSTANCES INTERNATIONALES. Document soumis par l Unité d appui à l application *

Natura 2000 en mer Site FR Posidonies de la côte palavasienne

STAGE2 STAGIAIRE / NIKOLAOS TSOLAKIS. 16/02/2015 : choix des outils nécessités pour l application : Didier Kolb, le maitre de stage

Audit interne. Audit interne

SOMMAIRE. Travailler avec les requêtes... 3

Unité de Recherche Clinique St Louis - Lariboisière Fernand Widal Le 03 Février 2012

HOPITECH BORDEAUX. L'informatisation de la fonction restauration pour une meilleure gestion

Laboratoire Eau de Paris. Analyses et Recherche

étude de fonctions rémunérations Industrie du médicament

Filière Master Sciences et Techniques

Plan de maîtrise des risques de la branche Retraite Présentation générale

Transcription:

Quadrige² - Référentiel National de gestion des données de la surveillance littorale Emilie GAUTHIER, Antoine HUGUET, Catherine BELIN, Didier CLAISSE, Magali DUVAL Juillet 2014 QUALIFICATION DES DONNEES DU SYSTEME D INFORMATION Quadrige²

Qualification des données Quadrige² - SINP - Qualification 2 SOMMAIRE 1. Contexte... 3 1.1. Le Système d Information Quadrige²... 3 1.2. Historique de la qualification Quadrige²... 4 2. Définition des étapes de contrôle, validation et qualification... 5 3. Répartition des rôles... 6 4. Liste des niveaux de qualité avec définitions... 7 5. Qualification par donnée ou par jeu de données?... 8 6. Outils utilisés (procédure automatique? Expertise?)... 8 6.1. Qualification ponctuelle de quelques résultats... 8 6.2. Qualification d un jeu de données homogène... 9 6.2.1. Cas des «reprises» de données... 9 6.2.2. Cas des expertises sur jeux de données particuliers... 10 6.3. Qualification en routine des données intégrées régulièrement... 10 7. Les différents processus en fonction des thématiques... 11

Qualification des données Quadrige² - SINP - Qualification 3 1. Glossaire DCE DCSMM DDTM Directive Cadre sur l Eau Directive Cadre Stratégie pour le Milieu Marin Direction Départementale des Transports et de la Mer DYNECO/VIGIES Unité DYNamique de l Environnement COtier / service Valorisation de l Information pour la Gestion Intégrée Et la Surveillance IFREMER LER NODC R REMI REPHY RNO ROCCH SANDRE SI SQL Surval Institut Français de Recherche pour l Exploitation de la Mer Laboratoire Environnement Ressources (Laboratoire Ifremer) National Oceanographic Data Center (http://www.nodc.noaa.gov/) Logiciel R (http://www.r-project.org/) REseau de surveillance MIcrobiologique REseau de surveillance du PHYtoplancton et des PHYcotoxines Réseau National d Observation des contaminants Réseau d Observation des Contaminants Chimiques (suite du RNO) Service d Administration Nationale des Données et Référentiels sur l Eau Système d Information Structured Query Language Outil de diffusion des données Quadrige² (http://envlit.ifremer.fr/resultats/surval) 2. Contexte 2.1. Le Système d Information Quadrige² Le Système d Information (SI) Quadrige² contient des données issues de la surveillance sanitaire, environnementale et des ressources aquacoles des eaux littorales, dans le cadre de réseaux locaux et nationaux. Q² contient notamment toutes les données acquises pour l évaluation DCE de la qualité des masses d eau littorales. Cette base de données contient principalement des données : Hydrologiques : température, salinité, nutriments, et autres paramètres physicochimiques Microbiologiques : qualité microbiologique des coquillages Biogéochimiques : contaminants chimiques dans les sédiments, le biote et l eau Biologiques : suivi de la mortalité des huîtres, diversité et toxines phytoplanctoniques, faune et flore benthique. Ces données peuvent être des résultats élémentaires d analyse ou d identification, mais aussi des couches cartographiques, des photographies, ou des fichiers de mesure (fichiers issus d appareils de mesure ou de logiciels produisant un grand nombre de mesures sur un même échantillon).

Qualification des données Quadrige² - SINP - Qualification 4 Toutes ces données sont publiques, et doivent être diffusées : Aux gestionnaires du milieu marin A l ensemble de la communauté scientifique Au grand public. Un niveau de qualité est donc indispensable pour que chaque type d utilisateur sache ce qu il peut faire ou non des données. 2.2. Historique de la qualification Quadrige² L outil Quadrige (depuis 1996) puis Quadrige² (depuis 2008) permet aux utilisateurs de cette base d attribuer différents niveaux de qualité à leurs données au cours du temps : contrôle, puis validation, puis qualification. Le contrôle et la validation sont effectués en continu par les utilisateurs depuis la mise en service de Quadrige. Les travaux de qualification des données de Q² ont été réalisés depuis de nombreuses années sous différentes formes : - Années 2000 : échanges entre les coordinateurs du réseau REMI (microbiologie) et les laboratoires producteurs de données (LERs) pour corriger / qualifier les données douteuses. Les LERs ont fourni de nombreux retours sous forme de cahiers papier. - 2004-2005 : travaux de qualification des données de contamination chimique (réseau RNO) : réalisation de programmes informatiques d édition de graphiques automatisée, et qualification de presque 112 000 résultats. - 2007 : utilisation de l outil de qualification de l application Quadrige² pour qualifier des données de contamination chimique (plus de 130 000 résultats qualifiés). - 2009 : préparation d un processus de qualification automatique des données de toxines phytoplanctoniques (réseau REPHY). - 2009-2012 : mise en œuvre d un processus de qualification «automatisé» pour qualifier les données hydrologiques et microbiologiques. - 2010 : audit du processus de qualification «automatisé» par des «Data Manager» en recherche clinique : validation du processus et amélioration de la traçabilité. - 2013 : qualification en routine des données hydrologiques et microbiologiques - 2014 : qualification via le processus «automatisé» de l ensemble des métadonnées chimie (réseau RNO/ROCCH), et qualification par expertise des résultats d analyse chimique (même réseau). La communauté Quadrige² a ainsi acquis au fil du temps une expérience intéressante en termes de qualification des données. La suite de ce document détaille l organisation actuelle de l ensemble des étapes d attribution des niveaux de qualité aux données Quadrige².

Qualification des données Quadrige² - SINP - Qualification 5 3. Définition des étapes de contrôle, validation et qualification Les données de Quadrige² ont un cycle de vie commun à toutes les thématiques : Experts * Bon * Douteux * Faux Mesures Dénombrements Prélèvement Observations Saisie Quadrige² OU Import Quadrige² (SANDRE, Quadrilabo ) Accessibilité à la donnée Extractible depuis Quadrige² par les saisisseurs et les responsables de programme - Extractible depuis Quadrige² par tous sauf si moratoire - Diffusée via les outils de valorisation (Surval, rapportage européen, etc.) Les données sont acquises sur le terrain et/ou en laboratoire, puis saisies dans la base de données Quadrige² via l application du même nom. Le contrôle consiste à éditer les données saisies (résultats et métadonnées) pour vérifier leur cohérence vis-à-vis du cahier de paillasse (ou des fiches terrain). Une fois ce contrôle effectué et les corrections éventuelles apportées, les données sont validées : Confirmation de la validité technique de la donnée (elle correspond bien au résultat de l analyse réalisée) Verrouillage de la donnée (elle n est plus modifiable, même par son saisisseur) Diffusion de la donnée : les données validées sont extractibles par tous les utilisateurs Quadrige² ayant accès à la base de données, et diffusées via Surval 1 (sauf si la donnée est protégée par un moratoire). La qualification intervient après ce premier processus de vérification de la donnée. Elle correspond à : la recherche des données douteuses voire aberrantes du point de vue scientifique la correction des données lorsque cela est possible l attribution d un niveau de qualification aux données : ce niveau est o bon : la donnée a un sens scientifiquement parlant : son analyse sera pertinente, 1 http://envlit.ifremer.fr/resultats/surval 1

Qualification des données Quadrige² - SINP - Qualification 6 o o douteux : la donnée est peut-être fausse : sa prise en compte risque de biaiser l analyse qui en sera faite faux : la donnée ne doit pas être intégrée aux analyses de données car elle est aberrante ou présente un problème connu (ex : mauvaise série analytique et impossible de la refaire). Le niveau de qualification correspond au niveau de confiance des données. Il conditionne les modalités de diffusion de ces données (seules les données qualifiées «Bonnes» et «Douteuses» sont diffusées vie Surval 1 ), et l utilisation dans le cadre de traitement spécifique. La qualification se décompose en 2 grandes étapes : 1) une qualification «automatique» qui consiste à rechercher des erreurs «grossières» et facilement identifiables. Exemples : erreur de paramètre, de support analytique, erreur de saisie de nombre (température de 100 C au lieu de 10 C par exemple) ou incohérences (données saisies sur le niveau «surface» avec une immersion de 20 m par exemple). Ces erreurs peuvent être décelées informatiquement en définissant des règles de contrôle simples (ex : heure = 00:00:00). 2) Une qualification «experte» qui consiste à mettre en évidence les données statistiquement aberrantes via des méthodes adaptées (séries temporelles, tests statistiques ). Par exemple, pour déceler qu une salinité de l eau est anormale pour la saison à laquelle elle a été mesurée, il faut replacer la donnée dans une série temporelle et tenir compte de la saisonnalité. La qualification automatique aboutit à l attribution (éventuellement provisoire) d un niveau de qualité aux données (Bon, Douteux ou Faux). Seules les données qualifiées bonnes ou douteuses sont utilisées pour la qualification experte. A l issue de cette qualification experte, les données sont qualifiées de la façon suivante : Niveau initial Niveau final Qualification experte BON DOUTEUX FAUX Qualification automatique BON X X X DOUTEUX FAUX Possible, mais rare (cas des données dont l analyse statistique peut lever le doute) X X cas non concerné 4. Répartition des rôles Le contrôle est de la responsabilité du saisisseur de la donnée et/ou des personnes ayant accès aux fiches terrain et de laboratoire (pour vérifier la cohérence des saisies). La validation est opérée par les mêmes opérateurs que le contrôle à la demande des coordinateurs de réseaux : les personnes de terrain / laboratoire sont ceux qui valident techniquement la donnée et confirment la véracité des saisies. La diffusion de la donnée, qui est sous la responsabilité des coordinateurs de réseaux, est déléguée implicitement aux laboratoires saisisseurs par cette validation (cf. 3). La qualification est de la responsabilité d experts thématiques, ayant les connaissances scientifiques nécessaires à l interprétation des données. Les qualificateurs doivent être identifiés par les coordinateurs et/ou les maîtres d ouvrage des réseaux de surveillance. L Ifremer qualifie les données dont la chaîne d acquisition est sous maîtrise d œuvre interne. Les données acquises par les partenaires et/ou sous-traitants de l Institut peuvent être qualifiés par les experts Ifremer s ils estiment avoir suffisamment d informations pour le faire. L échelle de contrôle / validation / qualification est d abord locale, puis nationale :

Qualification des données Quadrige² - SINP - Qualification 7 Producteur de données local Qualificateur national Acquisition de données Saisie Q² Contrôle / Validation Qualification «automatique» Qualification «experte» Les producteurs de données sont des laboratoires Ifremer, des universitaires, des bureaux d études, des associations, des services déconcentrés de l Etat (DDTM), et toute autre structure qui acquiert de la donnée de surveillance environnementale. Dans le cas des données qualifiées «en routine» actuellement à l Ifremer, ce sont principalement les Laboratoires Environnement Ressources (LERs) qui sont concernés. Les qualificateurs sont les coordinateurs de réseaux de surveillance, assistés par des experts thématiques de laboratoires de recherche. Ces experts sont reconnus internationalement. 5. Liste des niveaux de qualité avec définitions Les niveaux de qualité utilisés dans la base de données Quadrige² font partie d une liste standardisée 2 contenant 10 niveaux de qualité : 0 = «non qualifiée» (valeur par défaut au chargement de données en base) 1 = «bonne» (respect du protocole et aucune erreur détectée) 2 = «hors statistique» 3 = «douteuse» (non respect du protocole, non confiance dans la valeur enregistrée) 4 = «fausse» (erreur détectée à l issue d un test) 5 = «corrigée» 8 = «incomplète» 9 = «absente» (valeur manquante) Dans Quadrige², seuls les niveaux 0 (Non qualifié), 1 (Bon), 3 (Douteux) et 4 (Faux) ont été retenus. La qualification d une donnée est composée de trois informations : Niveau de qualité (cf. ci-dessus) Date de qualification Commentaire de qualification : obligatoire si le niveau est «Douteux» ou «Faux». 2 Cette liste de niveaux de qualité provient d un standard reconnu au niveau international (standard NODC : http://www.nodc.noaa.gov/gtspp/document/codetbls/gtsppcode.html#qual). Cette grille de niveaux de qualité est également utilisée dans le Système d Information Halieutique (SIH).

Qualification des données Quadrige² - SINP - Qualification 8 Dans l application Quadrige², on reconnaît les données qualifiées par un carré vert à côté de leur symbole (Figure 1). Remarque : la couleur verte n indique pas que le niveau de qualité est «Bon», mais uniquement qu un niveau de qualité a été attribué. Figure 1 : Exemple de symbologie de données qualifiées dans l'application Quadrige² : en violet, les données uniquement validées (Non qualifiées), et en vert les données qualifiées. 6. Qualification par donnée ou par jeu de données? Dans Quadrige², chaque donnée élémentaire est qualifiable : Métadonnées : couple lieu/date (nommé «passage»), prélèvement et échantillon. Chaque niveau de métadonnée peut être qualifié. Par exemple, les informations du passage (lieu, date, heure, hauteur d eau sous le bateau ) peuvent être qualifiées «Bonnes», mais un souci lors de la conservation de l échantillon peut le faire qualifier «Douteux». Résultats : tous les résultats d analyse ou d observation, qu ils soient de nature physique, chimique, biologique, ou même sous forme de fichier (couche cartographique, fichier de sonde de mesure, fichiers issus de capteurs automatiques, photos, etc.) sont qualifiés individuellement. Chaque résultat porte son propre niveau de qualité. Le processus de qualification permet en revanche d attribuer ces niveaux de qualité par lot de données (généralement lots annuels), sans avoir à saisir manuellement chaque niveau de qualité un par un. La qualification experte consiste à analyser statistiquement les données par lots plus grands (séries temporelles), car l analyse de tout l historique permet plus facilement de discriminer les données qui sortent des valeurs classiques. Seuls les résultats sont traités en qualification experte. 7. Outils utilisés (procédure automatique? Expertise?) Quadrige² permet de qualifier les données de différentes façons en fonction du besoin : qualification «ponctuelle» de quelques résultats, qualification d un jeu de données homogène, qualification en routine de données intégrées régulièrement dans la base. 7.1. Qualification ponctuelle de quelques résultats Exemples : on sait qu un échantillon a été mal conservé et que les résultats de son analyse seront douteux, ou on a détecté un problème analytique et on sait que les résultats sont faux.

Qualification des données Quadrige² - SINP - Qualification 9 Dans ce cas, on peut qualifier ces quelques données via des interfaces dédiées dans l application Quadrige² (Figure 2). Figure 2 : Menu d'accès à l'outil de qualification de l'application Quadrige². Cet outil permet de choisir des critères de requête pour sélectionner les données à qualifier, puis d afficher ces données dans une grille permettant d attribuer un niveau de qualité aux données (Figure 3). Figure 3 : Grille de qualification de données dans l'outil de l'application Quadrige². Pour accéder à ce menu, il faut disposer des droits de qualificateur dans Quadrige². Concrètement, ce sont les experts thématiques qui sont les qualificateurs (coordinateurs de réseaux de surveillance, qui gèrent les données de leur réseau dans Quadrige²). Ils réalisent l opération de qualification généralement sur la demande d un producteur de données. 7.2. Qualification d un jeu de données homogène 7.2.1. Cas des «reprises» de données Certains jeux de données sont intégrés dans Quadrige² sous forme de lots importants, migrés dans la base via des scripts informatiques. Selon la provenance de ces jeux de données, le fournisseur / producteur de la donnée peut définir le niveau de qualité de ses données. Ex : données de surveillance des mammifères marins, ayant fait l objet d expertises précises par le producteur de données : ces données peuvent être intégrées dans Quadrige² avec un niveau de qualité «Bon». Ex : intégration de données historiques dont certaines informations essentielles sont manquantes (le protocole analytique par exemple) : intégration de ces données avec un niveau de qualité «Douteux». Le niveau de qualité est défini par le producteur de données en accord avec la cellule d administration Quadrige² qui gère l intégration des données. Dans les deux exemples ci-dessus, le niveau de qualité est déterminé dans le script informatique de migration dans Quadrige².

Qualification des données Quadrige² - SINP - Qualification 10 7.2.2. Cas des expertises sur jeux de données particuliers Si un expert thématique travaille sur un jeu de données précis, que ce soit pour un rapport d étude, une publication scientifique, ou toute autre analyse statistique, il peut transmettre les résultats de son expertise à la cellule d administration Quadrige², et des niveaux de qualité peuvent être attribués aux données. Dans ce cas, l expert définit le périmètre du jeu de données avec la cellule d administration Quadrige². Il définit les niveaux de qualité à attribuer, et la cellule exécute les requêtes de qualification des données (langage informatique : SQL). Ex : qualification des données de zooplancton acquises dans le cadre du programme IGA (Impact des Grands Aménagements), travaux de thèse sur une thématique pour une période donnée, etc. 7.3. Qualification en routine des données intégrées régulièrement Cette qualification concerne les données acquises dans le cadre des réseaux de surveillance pérennes comme le REPHY, le REMI, le ROCCH, etc 3. Un processus de qualification dit «automatique» a été mis en place depuis 2009 pour qualifier chaque année les données des années précédentes. Le principe est le suivant : 1) Les qualificateurs = experts thématiques définissent des «anomalies» à rechercher dans les données (ex : température hors des bornes [0 ;30 C]). 2) La cellule Quadrige² effectue une extraction des données de Quadrige² à qualifier (fichier au format.csv) et lance des programmes informatiques (développés sous le logiciel R) pour rechercher ces anomalies dans le jeu de données. 3) Les données sans anomalie sont qualifiées «Bon» dans la base immédiatement. 4) Les données avec anomalie (potentielle) sont envoyées aux producteurs de données (laboratoires côtiers) pour correction / qualification (format.csv). 5) Les retours des producteurs de données sont centralisés par la cellule d administration Quadrige² qui les envoie au(x) qualificateur(s) pour validation (format.csv). 6) Le(s) qualificateur(s) renvoie le fichier.csv d anomalies corrigées / qualifiées à la cellule Quadrige² qui intègre les corrections / qualifications en base de données via un script R (qui exécute des requêtes en SQL). Suite à cette qualification «automatique», une qualification dite «experte» est réalisée. Elle consiste à analyser les résultats selon des modèles statistiques définis avec l équipe de biostatisticiens du service DYNECO/VIGIES de l Ifremer 4 (service auquel appartient la cellule d administration Quadrige²). Ces analyses statistiques sont réalisées via des programmes R, éditant des graphiques au format.pdf et des tableaux de données associées au format.csv. Le principe est le suivant : 1) Les qualificateurs et les biostatisticiens de DYNECO/VIGIES définissent les analyses statistiques à réaliser pour identifier les données potentiellement douteuses ou fausses. 2) La cellule Quadrige² effectue une extraction des données à qualifier (format.csv) et lance les programmes informatique R éditant les sorties graphiques et les tableaux de données à qualifier. 3 Présentation des réseaux de surveillance : http://envlit.ifremer.fr/surveillance/presentation 4 Cf.

Qualification des données Quadrige² - SINP - Qualification 11 3) Les qualificateurs analyses ces fichiers, et attribuent un niveau de qualité aux données (soit elles sont confirmées bonnes, soit elles sont qualifiées douteuses ou fausses avec un commentaire expliquant pourquoi). Les fichiers de données qualifiées (format.csv) sont renvoyés à la cellule Quadrige². 4) La cellule Quadrige² intègre les niveaux de qualité dans la base de données. Un exemple d édition graphique de qualification experte est présenté sur la Figure 4. 8. Les différents processus en fonction des thématiques Pour les qualifications «automatique» et «experte», les règles de recherche d anomalie diffèrent selon les données. Par exemple, une des anomalies recherchées consiste à vérifier la cohérence entre les engins de prélèvement utilisés, les niveaux de prélèvements (surface, fond ), et la profondeur à laquelle est réalisé le prélèvement. En hydrologie, la combinaison «Bouteille Hydrobios Fond 25m» est cohérente (ce n est pas une anomalie), alors que cette même combinaison serait aberrante pour des données de qualité microbiologique des coquillages (on ne prélève pas des coquillages avec une bouteille hydrologique). Pour des données biodiversité, il en irait de même : une espèce peut présenter une forte variation d abondance au cours de l année si elle prolifère dans certaines conditions («blooms»), alors que d autres espèces ont une abondance beaucoup plus stable. La qualification des données est à l initiative des responsables thématiques des données (coordinateurs de réseaux de surveillance). Toute donnée intégrée dans Quadrige² pourrait donc être qualifiée selon un des processus mentionnés dans ce document, y compris les données de biodiversité (invertébrés benthiques, macroalgues, phanérogames, coraux, etc.).

Qualification des données Quadrige² - SINP - Qualification 12 Figure 4 : Exemple de sortie graphique pour la qualification experte des données de DDTpp' (réseau RNO). Les points plus gros cerclés de noir sont les données identifiées comme "outliers" (données potentiellement douteuses ou fausses à vérifier).