1
Afin de définir les axes d innovation liés à l observation de la Terre dans le domaine des risques naturels et de l agriculture, des «réservoirs d innovation» ont été définis. Ils correspondent à des groupes de travail réunissant des chercheurs d AllEnvi, qui ont essayé d établir quels étaient les travaux scientifiques en cours, ou qui devraient être définis, pour permettre une innovation dans ces domaines. 2
Il s agit de lister les éléments de contexte, les enjeux et les difficultés potentielles. Pour le contexte, insister sur la spécificité des problématiques européennes. Pour les difficultés. Point 1. Il y a un manque d habitude française de l innovation conjointe. Or sur ce sujet, les spécificités définies pour les services obligent à rassembler des recherches innovantes dans l ensemble des instituts et labos de recherche car les besoins sont multiples. Point2. Une difficulté provient de la dispersion des filières scientifiques sur un problème interdisciplinaire. La définition d un service va faire appel à une étude ou un modèle de l Inra par exemple, à des outils HPC du CEA, à des méthodes d assimilation de données ou d apprentissage de l Inria. Point3. Une difficulté potentielle est la présence des GAFAV (Google, Amazon, Facebook, Apple, Virgin). Le budget est une chose, mais ce qui manque potentiellement c est la capacité de grouper des scientifiques de domaines différents et des entreprises. Ce qui renvoie aux points 1 et 2. Point4. Le point3 conduit à la nécessité de construire des écosystèmes ouverts. Ce qui pose des problèmes de financement. De modèle économique. Ce qui demande de résoudre des problèmes d open data Source : 3
Meteosat : http://www.esa.int/our_activities/observing_the_earth/meteosat_second_generatio n/msg_overview2 3
Les données d observation de la terre sont utilisées dans de nombreuses études concernant les risques naturelles et l agriculture. On peut par exemple citer sous forme de liste à la Prévert L étude de l occupation des sols Le suivi de la végétation La gestion des forêts Les applications maritimes comme par exemple la détection et le suivi des pollutions Le suivi des glaces Les inondations Les feux de forêts Les glissements de terrain par interférométrie radar L érosion du littoral L aménagement du territoire L urbanisation 4
Des informations sont disponibles sur les programmes d observation de la terre. On peut par exemple citer le document : Observing Systems and Capability Analysis and Review Tool du WMO et la base de donnée du CEOS Le slide illustre ainsi une page du document du WMO qui indique différents types de mesure disponibles pour l étude de la végétation. Et donc potentiellement utiles pour l agriculture. The CEOS database : Programmes et satellites actuels, futurs et passés Instruments : types et caractéristiques Pour toutes les agences spatiales 5
L observation de la terre est faite par des vecteurs très différents. Il s agit des satellites, des drones, des capteurs installés sur les équipements tels que les robots et les tracteurs ou de capteurs in situ installés par exemple sur les parcelles agricoles. Les observations fournies par ces différents capteurs sont complémentaires, en terme de mesure physique, de résolution spatiale, de fréquence temporelle. Dans de nombreuses applications, il est nécessaire d utiliser différentes modalités d observation pour avoir un résultat optimal. Cette contrainte multi capteur, multi physique, multi résolution, multi temporel est une des sources de difficulté pour les études scientifiques à mener lors de la définition de services. On assiste donc à un déluge de données qui s accompagne d un changement de paradigme à plusieurs niveaux. En 1, on assiste à une politique d open data des données. On peut citer le programme Copernicus, la plate forme PEPS du CNES, le projet Theia de la maison de la télédétection. En 2, le déluge de données ne fait que débuter. On assiste en effet à la multiplication d objets communicants bon marché. Leur faible coût va permettre d équiper les matériels (tracteurs, robots) et les sites (parcelles). Cela va à court terme accroître la 6
quantité et le type de données disponibles. En 3, on assiste à une avancée phénoménale du matériel informatique, en terme de capacité mémoire et capacité de calcul. Cela permet de définir de nouvelles problématiques de recherche dans le contexte des contraintes opérationnelles des services en conception. En 4, on assiste (je crois) à une prise en compte des scientifiques sur le couplage nécessaires des données et des modèles car chacun des deux représente une vue imparfaite d un même système. En 5, on constate, qu à côté des données initiales et des données de sortie des modèles, les données dérivées ont une valeur scientifique et économique non négligeable. On peut par exemple citer l information contenue dans les traces des utilisateurs de Google et dans les factures EdF. Dans ce contexte, se pose la question de l exploitation des données et de la définition de nouveaux types de recherche afin de permettre des innovations sur les risques naturels et l agriculture. 6
Les réunions de travail des participants à l étude d AllEnvi a permis de définir 3 réservoirs de recherche majeurs qui sont nécessaires pour permettre l innovation. 7
8
Parmi les verrous scientifiques étudiés par les organismes appartenant à AllEnvi, un certain nombre concerne le stockage des données au sens large. Il s agit d abord du stockage matériel proprement dit. Il est caractérisé par différents paramètres comme la densité d info par inch carré, la vitesse d accès aux données, le coût de ce stockage et encore la pérennité de ces données. Les stockages actuels sont le résultat de recherches effectuées sur les 50 dernières années et ce sujet est toujours l objet de recherches dans les laboratoires. Sur le critère coût, fondamental pour la réalisation de services on peut définir le coût de stockage d un gigabyte. Cela valait 10millions de dollars en 1956, 100 dollars en 1995 et 4 centimes de dollars en 2015. Le deuxième sujet associé au stockage est la nécessité de disposer de métadonnées par discipline et de métadonnées interdisciplinaires. Dans le domaine de l Observation de la Terre, il s agit de compléter la directive Inspire et d en faciliter son application. Le troisième sujet concerne l intégrité des données, leur probité et leur qualité. Il est fondamental pour la mise en place de services d avoir une certitude de qualité des données utilisées. Le quatrième point concerne la pérennité d accès à ces données et la tolérance aux pannes de ces systèmes d accès. On peut citer par exemple les contraintes sur la plateforme PEPS d accès aux données Sentinel. Un déluge de données hétérogènes dans un contexte multi applications et multiutilisateurs nécessite la mise en place de standards. On peut ainsi citer le protocole ISOBUS (protocole international de communication entre tracteurs, équipements et 9
ordinateurs) et l AEF (Agricultural Industry Electronics Foundation). Il faut aussi s intéresser aux protocoles de communications, en particulier basse consommation afin que les capteurs puissent être opérationnels sur le long terme. On voit également apparaître les sujets concernés par la cybersécurité. Il s agit par exemple du contrôle de vols de drône ou du programme d apport d intrants dans une exploitation. 9
On arrive aux verrous scientifiques étudiés dans AllEnvi sur l analyse des données. Le premier sujet concerne le big data, que ce soit la gestion ou le traitement des données. Le mot big data est très utilisé, mais l open data pour les données d observation de la Terre et l arrivée d objets communicants à bas coût conduit de plus en plus à des problématiques big data. On voit également les problèmes HPC High Performance Computing. Il s agit face à des masses de données de reconsidérer les schémas numériques utilisés par les modèles par exemple. Il faut aussi reconsidérer les problèmes d entrée sortie des codes, l optimisation, la visualisation, toutes les composantes des services pour que ceux ci puissent fonctionner dans des contraintes temporelles opérationnelles malgré la taille des données. Le troisième sujet scientifique d importance concerne l apprentissage, également appelé data mining ou deep learning. Il s agit de faire de la modélisation à partir des données, de rechercher des connaissances dans les données. On peut par exemple citer la recherche de motifs dans les données, ou l extraction d anomalie dans ces domaines. Le quatrième point concerne la modélisation. C est un sujet qui a été largement étudié dans la communauté scientifique. On peut par exemple considérer la capacité de l Inra et du Cirad sur la modélisation dans le domaine agricole. Ces modèles doivent interagir avec les données pour fournir des résultats pertinents. Il y a aussi pertinence de réaliser des émulateurs statistiques de ces modèles de façon à réduire les temps de calcul et les contraintes de mémoire. 10
Il faut s intéresser aux problèmes d incertitude. Une sortie de modèle est incertaine pour plusieurs raisons : plusieurs modélisations physiques, des schémas numériques différents, des données d entrée incertaines.une façon de prendre en compte l incertitude des modèles est de réaliser des ensembles de simulations. Prendre en compte l incertitude permet de fournir une information améliorée pour les outils d aide à la décision, qui sont requis pour définir des services aux utilisateurs. 10
Un point important concerne donc les modèles. Le slide présente le point de vue de l agriculture mais l argumentaire peut être transposé pour les risques naturels. Les programmes internationaux et européens FACCE et AGMIP fournissent une comparaison des modèles disponibles en agriculture. Il y a les modèles descriptifs qui permettent d analyser la croissance du végétal et son impact sur les épidémies. Il y a les modèles mécanistes qui permettent de simuler les pratiques agricoles et les conditions environnementales et leur impact sur le végétal. Il y a les modèles de culture à l échelle de la parcelle. Par exemple le modèle STICS de l INRA permet l estimation des rendements avec pour entrées des données sur le climat, le sol et les pratiques culturales. Il y a des modèles à l échelle du paysage. On peut citer Nitroscape pour l atténuation des émissions d azote et MAPOD pour la transmission des pollens du maïs dans le contexte OGM/non OGM. Dans la définition de services, il est naturellement nécessaire de considérer des modèles couplés agriculture, économie, environnement. Les modèles doivent couplés en multi échelle au niveau de la plante, de la parcelle, de l exploitation, du paysage, de la filière. Il faut avoir une modélisation temporelle pour tenir compte à la fois de la saisonnalité et de l évolution du climat. 11
Comme dit précédemment, il faut prendre en compte l incertitude associée à la simulation réalisée par les modèles. 11
On voit arriver des déluges de données et on dispose de modèles de processus, se pose donc la question des interactions entre les modèles et la donnée. Les données et en particulier les données d Observation de la Terre, sont utilisées pour estimer les valeurs des paramètres des modèles. Il s agit d une modélisation inverse. Les données d observation de la terre sont utilisées également comme données d entrée des modèles. On peut donner l exemple du calcul de la quantité d eau reçue par la plante au moyen des données radar dans le modèle CybeleTech. Les méthodes d assimilation de données dans un modèle permettent d améliorer la connaissance du système modélisé par le modèle et observé par les données. Les données d OT permettent de spatialiser les mesures ponctuelles. On peut citer par exemple les méthodes de krigeage et de reconstruction optimale. Enfin il faut prendre en compte le fait que les modèles sont eux mêmes producteurs de données, qui doivent également être stockées et peuvent être utilisées par des services. 12
Ce slide a pour but de définir ce qu est l assimilation de données. Il s agit de combiner deux types de connaissance sur un même système : d un côté le domaine, de l autre les observations. Les deux types de connaissance sont imparfaits et les combiner a pour but d obtenir une meilleure estimation. L assimilation de données a été utilisée historiquement en météorologie. C est la première source d amélioration des prévisions météorologiques sur les trente dernières années. L objectif est d utiliser les données pour corriger les sorties de modèles et avoir de meilleures descriptions des systèmes étudiées. Cela peut ensuite être utilisé pour réaliser de meilleures prévisions. Un autre objectif est d améliorer la connaissance des paramètres des modèles, qui permet également de réaliser de meilleures prévisions. Par ailleurs l assimilation de données permet de contextualiser un modèle sur un nouveau site et de caractériser son adaptation au climat. POUR LE SCHÉMA. Les paramètres de contrôle sont utilisés par le modèle pour réaliser des simulations et des prévisions (LIGNE DU HAUT). Par ailleurs des données d observation et des connaissances a priori (comme des climatologies par exemples) (BOITES ROUGES) sont disponibles sur le système. L assimilation de données (BOITE VERTE) permet de corriger les paramètres de contrôle 13
et donc d avoir de meilleures simulations et de meilleures prévisions. 13
Il s agit dans cette journée de voir comment la recherche peut accompagner la création de service. Il faut donc définir avec quelles données et quelles méthodes. Big data et big user. Un premier point concerne le fait que le big data s accompagne du big user. On a parlé des GAFAV. Mais il faut d emblée considérer qu il y a une hiérarchie de données et de services. Il y a tout d abord des services initiaux qui sont établis sur la donnée. Par exemple, des services météo pour les agriculteurs. On a ensuite des services dédiés qui nécessitent des données spécifiques acquises sur les parcelles. Par exemple la localisation des traitements dans les champs, par exemple utiliser moins d intrants, en fonction de l hétérogénéité de la parcelle. Mais il faut d emblée considérer les services dérivés. Par exemple, si on cite ClimateCorp qui peut offrir un service d assurance en faisant l économie d expertise, puisqu elle a toutes les données sur les parcelles assurées. Ce qui démontre la valeur économique de la donnée. Création de service. Il est important de définir spécifiquement le besoin, les contraintes financières (si on a pas de quoi s offrir une Ferrari on peut avoir une Twingo). Il faut faire une détermination fine des données et des méthodes en prenant en compte l évolution attendue. Il faut intégrer le service dans une hiérarchie de services : de façon à avoir des tarifs différenciés pour des fonctionnalités différentes. Il faut aussi penser au cycle de services dérivés. Cela permet d assurer des services gracieux aux agriculteurs pour les rétribuer de la valeur économique des données qu ils fournissent. La concurrence des GAFAV avec l interdisciplinarité qu ils permettent nécessitent la 14
création d écosystèmes ouverts, instituts, entreprises. 14
Sources : «Indicateurs pertinents» : http://www.espacedev.fr/index.php?option=com_content&view=article&id=49:presentation delunite&catid=59&itemid=54 InSpace Institute : http://www.inspace institute.com/fr/content/notre histoire 15