Livrable D1.2a. Anticipation du prototype Waves

Projet : Des flux de données brutes et hétérogènes à l information qualifiée N du contrat F1411006 Q Date de début 2 juin 2014 Durée 36 mois Livrable D1.2a Anticipation du prototype Waves

Statut Niveau dissémination Publique Date d échéance Mois 12, 31/07/2015 Date de soumission 20/03/2016 Work Package 1 Tâche T 1.2 statut d'approbation Final Version 1 Nombre de Pages 25 Nom du fichier D1.2-waves-tutoriel-usecase 2

Historique Version Date Revu par 1 23/03/2016 Zakia KAZI-AOUL 2 24/03/2016 Houda KHROUF 3 25/03/2016 Francis CAMPAN 3

Auteurs Organisation Nom Contact ISEP Zakia KAZI-AOUL zakia.kazi@isep.fr ISEP Yousra CHABCHOUB yousra.chabchoub@isep.fr ATOS Houda KHROUF houda.khrouf@atos.net Ondeo Systems Francis CAMPAN francis.campan@suezenv.com 4

Plan Contexte Problématiques et défis Objectif du projet Introduction du cas d usage Les données à traiter L architecture de Les possibilités de la plateforme 5

Contexte (1) De plus en plus de données sont produites: Capteurs Réseaux sociaux E-commerce Logs Web Données météorologiques Trafic routier Consommation électrique Etc. 6

Contexte (2) Nous souhaitons avoir à tout instant la bonne information afin de: Satisfaire des clients Gagner et/ou économiser de l argent Être plus compétitif Générer de nouveaux revenus Rassurer les investisseurs Protéger l environnement Etc. 7

Problématique Les données peuvent être : Trop volumineuses Hétérogènes Brutes Volatiles Pas liées Ces données peuvent avoir plus de valeur ajoutée en cas de: Sémantisation Interconnexions avec d autres sources Raisonnement Archivage Résumé intelligent 8

Nos défis Gérer efficacement ces flux massifs de données en temps réel Interconnecter différentes sources de données Données de capteurs Données statiques géographiques Données ouvertes liées ou pas Statiques / Dynamiques Sémantiques ou pas Enrichir les données Raisonner sur les données Filtrer ces données en cas d afflux massifs Distribuer les traitements afin de monter en charge 9

Objectifs du projet Concevoir et développer une plateforme générique qui gère en temps réel et d une façon intelligente des flux de données massifs provenant de sources hétérogènes 10

Notre cas d usage La supervision des réseaux de transport et de distribution de l eau potable Détecter rapidement des anomalies, par exemple: Les fuites d eau La défaillance des capteurs Une dégradation de la qualité de l eau 11

Motivations -12 - : Eau non facturée à l échelle mondiale Combien de perte? Value proposition Eau potable livrée Eau facturée aux consommateurs = Eau non facturée Eau facturée $ Eau non facturée 35% 48.6 milliards m 3 /an = Perte de 14 milliards $/an 2x la consommation annuelle domestique aux USA 12

Motivations -13 - : Eau non facturée à l échelle mondiale Quels sont les facteurs? Pertes physiques 32 milliards m 3 /an Eau livrée Pertes commerciales 16 milliards m 3 /an Value proposition Fuite 90%des pertes sont invisibles Fraude Erreur de facturation Mesures incorrectes Erreurs de manipulation de données Enjeu environnemental Eau facturée Enjeu économique 13

-14 - Motivations: Eau non facturée Challenge La demande en eau devrait augmenter de 55% à l'échelle mondiale entre 2000 et 2050 La demande viendra principalement de : Value proposition o Industrie: +400% o Electricité: +140% o Utilisation domestique: +130% Une meilleure gestion globale des réseaux de distribution d eau doit être mise en place Source: The OECD Environmental Outlook to 2050 (OECD, 2012) 14

Réseaux de capteurs Ondeo Systems Des réseaux de capteurs sont déployés sur les systèmes d'approvisionnement en eau potable et mesurent en temps réel certaines métriques relatives à l eau telles que : le débit la pression le taux de concentration en chlore Le ph Ondeo Systems a développé Aquadvanced: Fournir une aide au diagnostic, des outils d'analyse, des rapports et des tableaux de bord Faciliter la prise de décision en temps réel et le contrôle du réseau 15

-16 - Gestion du réseau AQUADVANCED REAL-TIME DATA MANAGEMENT Value proposition Monitors and manages sectors equipped with sensors - leakage early detection and localization -water quality monitoring Collects and centralizes data Manages and optimizes water network performance in real time Integrates Customer Relationship Management and workforce management systems Optimizes energy consumption - pumping strategy - consumption forecasts 16

Surveillance en temps réel et gestion des réseaux de distribution d'eau Source: http://www.ondeosystems.com/en/smart-water-2/real-time-monitoring-and-management-ofwater-distribution-networks/ 17

Quel est l apport de pour le monitoring de réseaux? Aller au-delà de la solution Aquadvanced en: intégrant les réseaux sociaux utilisant des données contextuelles telles que la météo ou des données géographiques Comme conséquence, nous devons : Qualifier la donnée Traiter de grandes quantités de données hétérogènes 18

Flux de données hétérogènes Quelle solution? XML TTL JSON CSV DAT Traduction RDF RDF N3 Hétérogénéité Différents formats et modèles de données! Homogénéité Plus de connaissance 19

Architecture générale de Enrichissement de la données / statistiques Analyse et visualisation de la données Supervision, alertes, prise de décision Base de données /Triplestores Filtrage et raisonnement des flux sémantique Flux RDF Conversion sémantique Flux de données sémantiques Flux de données hétérogènes Données hétérogènes statiques Capteurs 20

Pourquoi distribuer le traitement? Dans le contexte des flux de données sémantiques, centraliser tous les traitements peut faire cracher la machine => Nécessité de distribuer Cloud Computing 21

Architecture logicielle de 22

Architecture logicielle de Data Cleansing: It is the role of Native Filter which should detect and remove corrupt and inaccurate data. Data Semantization: The heterogeneous incoming data are converted into RDF-based unified model. KAFKA: It is a distributed publish-subscribe messaging system which serves a set of brokers to store data. Data are produced in Kafka by RDF converter, and consumer by the distributed system nodes. STORM-based Smart OP:It consists of Storm topology composed of a set of spouts and bolts. At least, there are a Kafka spout, a windowing bolt, a step bolt and a query bolt. This topology should consume data from Kafka et execute continuous SPARQL queries. Data Storage Redis: in-memory key/value data storage used to hold the intermediate processing data (compression patterns, events, etc.) Triple Store: an external RDF storage to hold the static data and background knowledge (descriptions of sensors, water network, etc.) 23

Domaine d application de Solution générique Logs de sites Web Supervision des réseaux Services financiers Prévisions météorologiques Économie circulaire ecommerce Supervision du trafic Consommation électrique 24

Merci Questions?