BIG DATA & AGROALIMENTAIRE : UN POTENTIEL D INNOVATION A EXPLOITER Petit Déjeuner Débat Technopole Quimper 29 avril 2016 ALINE CARANICOLAS
COMMISSARIAT À L ÉNERGIE ATOMIQUE ET AUX ÉNERGIES ALTERNATIVES DÉFENSE SÉCURITÉ TECHNOLOGIES GÉNÉRIQUES ÉNERGIES BAS CARBONE [DAM] 4500 personnes Direction Recherche Technologique [DRT] RECHERCHE FONDAMENTALE Direction Sciences de la Matière [DSM] Direction Sciences de la Vie [DSV] Défense et sécurité nationale 4500 personnes Indépendance énergétique de la France [DEN] Compétitivité économique de l industrie française 4500 personnes 2500 personnes 16000 personnes 10 4,3 Mds budget 4800 5600 750 115 >500 centres de recherche publications scientifiques familles de brevets en portefeuille (2014) brevets prioritaires déposés/an startups innovantes créées depuis 2000 partenariats directs de R&D avec l industrie 2
BIGDATA ET AGROALIMENTAIRE
HIER : DE LA TERRE A L ASSIETTE 4
AUJOURD HUI : DU CAPTEUR AU BIEN ETRE 5
DES DONNEES A MOISSON 6
POUR MAITRISER LA CONSOMMATION 7
DES ENJEUX MULTIPLES Préserver et s adapter à l environnement Développer la compétitivité durable Nourrir 9 milliards d humains en 2050 Satisfaire les consommateurs 8
BIG DATA : OPPORTUNITES ET MENACES Gérer les territoires et ressources Cultiver la biodiversité, agro-écologie Garantir la santé, surveiller la nutrition Adapter la consommation 9
DES TRANSFORMATIONS PROFONDES 10
EXEMPLES D APPLICATIONS Maîtrise des sols Réduction des pesticides Suivi du bien-être animal Sélection de semences Optimisation de procédé Monitoring consommables, gestion énergétique Maintenance prédictive Planification des investissements Optimisation logistique et traçabilité Design alimentaire personnalisé Prédiction de non conformités Sécurité alimentaire, prévention nutrition Prédiction de comportement microbien Contrôle continu diététique, régime durable Prédiction de consommation Recommandation de levier de consommation saine Evaluation des politiques publiques en alimentation 11
BIG DATA : OBESITE DES DONNEES 2,5 trillions de téraoctets / jour, 90 % en 2 ans Coca Cola 35 Matrice de corrélation 1 30 25 0.9 0.8 0.7 capteurs 20 15 0.6 0.5 0.4 10 0.3 5 0.2 0.1 0 0 5 10 15 20 25 30 35 capteurs 0 Analyse et traitement de données CONNAISSANCE Acquisition, stockage, accès DONNEES BRUTES Management : fiabilisation, Structuration, annotation DONNEES UTILISABLES 12
TECHNOLOGIES DE TRAITEMENT DES DONNÉES Extraire de la connaissance et produire du savoir Recherche d information à partir d une demande utilisateur Découverte de connaissances par croisement de données Données hétérogènes Données structurées Connaissances Aide à la décision Ressources métier Web sémantique Forces Recherche d information (Data Retrieval) Découverte d information (Data Mining) Maîtrise de l équilibre qualité/prix Intégration de connaissances métier Vers des systèmes d Intelligence artificielle 13 PAGE 13
TECHNOLOGIES DE COLLECTE DE DONNÉES Rassembler des données hétérogènes Des sources de données vers du stockage Nécessité de nettoyer les données avant stockage (en temps réel) Crawl intelligent Fiabilisation de données capteurs Détecter des données anormales Electrical instalation testing regulation in india WEB SEARCH 35 Matrice de corrélation 1 30 25 0.9 0.8 0.7 2 / 200 k capteurs 20 15 10 5 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 capteurs 0 Compléter/prédire les données Force Adaptation rapide à de nouveaux signaux, domaines, langues, critères de qualité 14 PAGE 14
TECHNOLOGIES D ANALYSE DE DONNÉES Enrichir les données d information pour simplifier leur traitement Des données non-structurées aux données structurées (vers une Base de données) Données structurées homogènes : normalisées et/ou sémantiques Annotation d images Annotation de textes Tour Eiffel template Force Deep Learning Coca Cola 17 000 concepts 300 millions d images Augmentation du vocabulaire de description, crossmodal Temps réel : rapidité et robustesse d analyse sur volume de données complexes 15 PAGE 15
TRAITEMENT DE DÉCOUVERTE D INFORMATION Extraire de l information d'un ensemble et transformer en connaissance Application de statistiques sur des données structurées Visualisation ergonomique de masses importantes d information (synthèse) Analyse de la consommation d eau Modes de fonctionnement CLUSTERING Données capteurs hétérogènes Forces Intégration de connaissance métier Fusion de données capteurs et multimodales (texte, image, vidéo, localisation, temps, vitesse, ) Augmentation de la quantité/complexité des données variables/paramètres d intérêt Usages réels et/ou atypiques Modèles statistiques de prédiction Signaux faibles de défauts ou pannes 16 PAGE 16
TECHNOLOGIES DE LOGIQUE FLOUE EN TEMPS REEL Surveillance cancer Données hétérogènes multisources Données patient et antécédents Examens médicaux (sang, genetique) Données Open Food Aide à la décision Modélisation d expertise Avis médical Recommandations juridiques Forces Architecture brevetée temps réel et embarqué Extraction de connaissances par logique floue Ecriture de règles expertes Découverte de nouvelles règles par apprentissage statistique Interface personnalisée d aide à la décision Diagnostic & Recommandations 17
TECHNOLOGIES DE RECHERCHE D INFORMATION Obtenir des sources pertinentes à un besoin d'information de l utilisateur Analyse du contenu de documents multimédia / multilingue description Distance entre la description d une requête et des documents indexés Requêtes utilisateurs Electrical instalation in india Documents pertinents Forces Recherche crossmedia, crosslingue (11 langues) Adaptation rapide à de nouveaux domaines / langues Explainability et navigation dans les résultats 18 PAGE 18
DES RISQUES : BIODIVERSITE, SANTE ET COMPETITIVITE Ouvrir et partager les données, les pratiques et les mesures 19
BON DÉJEUNER! 20
INITIATIVE FRANÇAISE FEDERATRICE Mathématiques, statistiques, microbiologie, procédés de fabrication Au service de la microbiologie prévisionnelle 21
aline.caranicolas@cea.fr philippe.morganti@cea.fr //www.youtube.com/user/cealistinstitute Commissariat à l énergie atomique et aux énergies alternatives Institut List CEA SACLAY NANO-INNOV BAT. 861 PC142 91191 Gif-sur-Yvette Cedex - FRANCE www-list.cea.fr Établissement public à caractère industriel et commercial RCS Paris B 775 685 019