Statistiques, crowdsourcing et biodiversité



Documents pareils
Data issues in species monitoring: where are the traps?

Editing and managing Systems engineering processes at Snecma

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Instructions Mozilla Thunderbird Page 1

Face Recognition Performance: Man vs. Machine

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

VTP. LAN Switching and Wireless Chapitre 4

Contents Windows

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Agile&:&de&quoi&s agit0il&?&

Forthcoming Database

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

VMware : De la Virtualisation. au Cloud Computing

We Generate. You Lead.

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Notice Technique / Technical Manual

Application Form/ Formulaire de demande

1.The pronouns me, te, nous, and vous are object pronouns.

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Exemple PLS avec SAS

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

CLOUD COMPUTING et Relation Client/Fournisseur Une Révolution culturelle?

How to Login to Career Page

Thank you for choosing the Mobile Broadband USB Stick. With your USB Stick, you can access a wireless network at high speed.

DOCUMENTATION - FRANCAIS... 2

Monitoring des classes de neige des calottes polaires par Envisat

WEB page builder and server for SCADA applications usable from a WEB navigator

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Les Portfolios et Moodle Petit inventaire

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

EU- Luxemburg- WHO Universal Health Coverage Partnership:

MODERN LANGUAGES DEPARTMENT

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

Once the installation is complete, you can delete the temporary Zip files..

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

L. Obert, T. Lascar, A. Adam

Bourses d excellence pour les masters orientés vers la recherche

DOCUMENTATION - FRANCAIS... 2

Paxton. ins Net2 desktop reader USB

Archived Content. Contenu archivé

Tex: The book of which I'm the author is an historical novel.

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Innovation in Home Insurance: What Services are to be Developed and for what Trade Network?

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Revision of hen1317-5: Technical improvements

MANUEL MARKETING ET SURVIE PDF

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Frequently Asked Questions

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

ERA-Net Call Smart Cities. CREM, Martigny, 4 décembre 2014 Andreas Eckmanns, Responsable de la recherche, Office Fédéral de l énergie OFEN

Technical Assistance for Sustainable National Greenhouse Gas Inventory Management Systems in West Africa (West Africa GHG Project)

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Gestion des prestations Volontaire

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

Dans une agence de location immobilière...

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

RAPID Prenez le contrôle sur vos données

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

APPENDIX 6 BONUS RING FORMAT

Institut français des sciences et technologies des transports, de l aménagement

PARIS ROISSY CHARLES DE GAULLE

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Edna Ekhivalak Elias Commissioner of Nunavut Commissaire du Nunavut

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Guide d'installation rapide TFM-560X YO.13

Plan. Department of Informatics

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Acce s aux applications informatiques Supply Chain Fournisseurs

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Exercices sur SQL server 2000

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Principe de TrueCrypt. Créer un volume pour TrueCrypt

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

GIGABIT PCI DESKTOP ADAPTER DGE-530T. Quick Installation Guide+ Guide d installation+

CEST POUR MIEUX PLACER MES PDF

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

Lavatory Faucet. Instruction Manual. Questions?

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

AUDIT COMMITTEE: TERMS OF REFERENCE

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

UML : Unified Modeling Language

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

ARCHOS Activity Tracker

Transcription:

Statistiques, crowdsourcing et biodiversité Romain Julliard, Emmanuelle Porcher, MNHN-CNRS, Vincent Bretagnolle, David Pinaud, CNRS Chizé, Olivier Gimenez, CEFE-CNRS Montpellier, Christophe Giraud, Camille Coron, Labo de Math, Orsay Pascal Monestiez, Joël Chadoeuf, INRA d Avignon Sylvie Huet, INRA Jouy, Clément Calenge, ONCFS Frédéric Gosselin, Jérémy Piffady, IRSTEA

Statistiques, crowdsourcing et biodiversité Romain Julliard, Emmanuelle Porcher, MNHN-CNRS, Vincent Bretagnolle, David Pinaud, CNRS Chizé, Olivier Gimenez, CEFE-CNRS Montpellier, Christophe Giraud, Camille Coron, Labo de Math, Orsay Pascal Monestiez, Joël Chadoeuf, INRA d Avignon Sylvie Huet, INRA Jouy, Clément Calenge, ONCFS Frédéric Gosselin, Jérémy Piffady, IRSTEA Ecologie Biométrie Statistique

La «data-valanche» touche (enfin) la biodiversité! - XX ème : pour n>30, loi des grands nombres - XXI ème : Réseaux d observateurs + Internet = base de données collaborative (des millions de données dites opportunistes ; crowdsourcing) - + virage technologique : la saisie en ligne in situ

These datasets have the potential to cover gaps: - Rare species, species difficult to monitor (eg reptiles) - Space (eg Tropical region) - Finer spatial grain => Nouvelles méthodes pour l analyse

Analyse des données naturalistes : approche classique étection) rreur) apportage) Standardization / Detectability issue Distribution de la biodiversité Espèce(s) Espace Temps Présence/abondance Démographie Traits / phylogénie Géographie Habitat Echelles Saison Interannuel Long-terme

Une observation dans une base de données multiobservateurs c est le résultat : Distribution des observateurs Distribution de l effort P(détection) P(erreur) P(rapportage) Distribution de la biodiversité Echantillonnage préférentiel Non-indépendance des données Distribution de l effort d observation

X i,j abondance observée de l espèce i sur le site j

The multi site multi observer problem : X ij ~ Poisson(A ij.o ij ) Observation process True Abundance

Le problème multi-espèces multi-sites : X ij ~Poisson(A ij.e j.p i ) Probabilité de détection Effort d observation Abondance réelle => IJ observations ; IJ + I + J paramètres à estimer

Le problème multi-espèces multi-sites, effort connu : X ij ~Poisson(A ij.e j.p i ) Effort d observation connu, à une constante près c => Species specific relative abundance => IJ observations ; IJ paramètres à estimer

Exemple d effort connu : suivis standardisés. En France: 1000 sites suivis pour les oiseaux 300 sites suivis pour les chauves-souris 120 sites suivis pour les papillons 80 sites suivis pour les plantes Idée :combiner données standardisées et données opportunistes

Le problème multi-espèces multi-sites multi-protocoles : X ijk ~Poisson(A ij.e jk.p ik ) Probabilité de détection Effort d observation Abondance réelle

Le problème multi-espèces multi-sites multi-protocoles : X ijk ~Poisson(A ij.e jk.p ik ) Effort d observation Abondance réelle Probabilité de détection => IJK observations ; IJ + JK + IK paramètres à estimer Mais! Pas identifiable

The multi site multi observer multi scheme problem : X ijk ~Poisson(A ij.e jk.p ik ) Species specific detectability Site specific Observation Effort True Abondance => IJK observations ; IJ + JK + IK parameters But! Not all identifiable The math tells us: We need to add I + J + K - 1 constraints

We show that if effort is known for scheme k=0 (standardized data set), then then E jk pour k 0 can be estimated, as well as P ik / P i0 So that the relative abundance estimated can be But can be estimated with the standardized data set alone! What is the gain?

X ij ~Poisson(A ij.e j.p i ) Jeux de données effort connu : IJ observations ; IJ paramètres à estimer X ijk ~Poisson(A ij.e jk.p ik ) + 1 jeux de données effort inconnu : + IJ observations ; + (I+J-1) paramètres à estimer

- Indeed whe show that the précision of A ij estimates is always improved compared to the use of the standardized data set alone - The gain in precision may be substantial if opportunistic data are abundant

- In addition, we show that, provided that there are some species in common to the standardized and the opportunistic dataset, we may get for species only detected in the opportunistic dataset!! (E j1 is estimated from the common set of species; no discontinuity in variance estimation when X i0 = 0)

Illustration based on a bird dataset from Aquitaine, south-western France -Site j = 100x100 km square -STOC = standardized, sampling design -LPO= opportunistic dataset

100 km LPO STOC1 + STOC2 Pour les 22 espèces représentées dans tous les lots

Comparaison des variations d abondances entre grands carrés STOC2j STOC2j STOC1j STOC1j LPOj LPOj (STOC1+LPO)j (STOC1+LPO)j

Comparaison des variations d abondances entre grands carrés STOC1 LPO(*) (STOC1+LPO) STOC2 R² = 8.3% R² = 8.8% R² = 26.5% (*) effort = nombre total d observations par grand carré

- Avec cette méthode, nous pouvons estimer les Aij pour des espèces présentes uniquement dans le jeu de données K=1 (effort inconnu). => Nouvelle manip, nous enlevons une espèce de STOC1 et on l estime avec STOC1incomplet+LPO

Comparaison des variations d abondances entre grands carrés STOC2 (STOC1+LPO) R² = 26.5% (STOC1incomplet+LPO) R² = 26.3%

Rapportage relatif des espèces dans les données opportunistes: Moineau D 0.19 étourneau 0.22 tourterelle T 0.36 troglodyte 0.40 F à tête noire 0.46 Pinson 0.48 Merle 0.48 corneille 0.49 pigeon ramier 0.53 M charbonnière 0.55 Hirondelle R 0.56 Rougegorge 0.56 M Bleue 0.61 verdier 0.63 P véloce 0.64 Grimpereau des J 0.67 Pic épeiche 0.75 Sittelle 0.80 Geais 0.85 Hypolaïs 0.86 Rougequeue N 1,0

What are the key hypotheses? X ijk ~Poisson(A ij.e jk.p ik ) HYP Effort only depend on site and scheme Detectability only depend on species and scheme => no special effort toward some species in some sites!! => Homogénéité du comportement des observateurs

What are the key hypotheses? X ijk ~Poisson(A ij.e jk.p ik ) HYP A ij are the same for standardized and opportunistic schemes BBS: random sampling design, so that estimated A ij coincides with true A ij Opportunistic: observers attention likely biased toward some habitat (eg avoid intensive farmland) Effect will partly be taken into account by P ik (farmland species will be underdetected in opportunistic data) But this only approximate if habitat heterogenity does not vary too much among site j and attention is not too biased toward some habitats

Perspectives Introduire une stratification: l habitat A ij E X j2 P X ihk Répartition des espèces en fonction de leur préférence S ih et de l offre en habitat V hj Biais d attention q h des observateurs vers habitat h parmi ceux présent dans lieu-dit l

Dialogue avec les producteurs de données - La bonne nouvelle : les données opportunistes ont une potentialité inattendue Deux problématiques émergentes : - «Validation» des données vs «contrôle de cohérence» - Vers une coopérative de bases de données

Data information content Vie et mort des données Data published Details are lost through time Accident Retirement of career Death of investigator Time

Data information content Sauvetage des données dans des bases avec format «élémentaire d échange» (début XXI) Data published Data are merged into existing database and become fully accessible but common ontology leads to irreversible information loss Time

Data information content Et demain? Data is updated by other research group with fundamental improvements All data analysis are stored and linked to original database Future technology might add some unexpected information to the data Data quality increases after colleagues evaluation Data published, with needed information and stay in the Cloud Time

Perspectives 2014 pour «Biodiversité, Crowdsourcing, Statistiques»: Poursuivre le «capacity building», notamment en animant cette thématique dans différents cercles - le nouveau GDR «écologie et statistique» - le projet «écoscope», un (méta-)soere porté par la FRB - un groupe de réflexion équivalent au niveau européen porté par Robert O'Hara (Université de Frankfort), sur financement allemand Participer largement à l'international Statistical Ecology Conference (ISEC 2014), 1-4 July 2014 à Montpellier

Merci de votre attention!