Intégration de données complexes pour une vision 360 du client Chloé Clavel EDF R&D Département ICAME
Contexte : projet R&D sur l intégration de données complexes pour la connaissance client Objectif : Développer des méthodes automatiques d analyse de données complexes pour la connaissance du client et de son contexte
Positionnement de notre projet par rapport à la communauté Open Data «Nos OPEN DATA»= données collectées sur le web : -données collaboratives de type forum, réseaux sociaux - site de presse - bases de connaissance Stimulation et animation (ex: SNCF) Notre problématique : Comment exploiter les données ouvertes externes pour enrichir les données internes pour la connaissance client? Les données Open Data: Fournisseurs de données (ex: portails gouvernementaux et organismes publics) Aggrégateurs de données (ex : Data Publica et Generability) Données collaboratives Nos données internes: Données client stockées dans les SI : contact, profil de consommation Les traitements : développement de service et d outils d analyse (laboratoires académiques, entreprises, développeur indépendant) Données complémentaires /données internes Les sorties : Information et services Notre sortie : plateforme d intégration de données complexes
Objectifs et plan de la présentation Les données open Data: Quelles données pour la connaissance client? Données externes, données internes Les méthodes de collecte de données Les traitements développés: analyse des données textuelles, analyse des courbes de charge, intégration de données. Perspectives pour l open Data
«Nos OPEN DATA»= données collectées sur le web : -données collaboratives de type forum, réseaux sociaux - site de presse - bases de connaissance Notre problématique : Comment exploiter les données ouvertes externes pour enrichir les données internes pour la connaissance client? LES DONNÉES WEB POUR LA CONNAISSANCE CLIENT 5 - Weblab juin 2012
Deux types de données web Les données non structurées: Les textes, les vidéos et les images publiées sur le web Les données structurées: Les bases de connaissance
Données non structurées pour la connaissance client - Texte, audio et image du web Opinions des clients/citoyens et des médias autour d EDF (ex: réclamation) Informations sur le contexte sociétal (ex: tendances énergie renouvelable) forums, plateforme de microblogging (twitter), YouTube, médias en ligne et les blogs etc. texte Vidéo/audio Image
Données non structurées pour la connaissance client - Texte, audio et image du web Information sur la concurrence sur les sites corporate (texte) : les tarifs, l image, la stratégie de communication
Données non structurées pour la connaissance client - Texte, audio et image du web Données externes/données internes Sources/Modalités Texte Audio Image Vidéo Enquêtes de satisfaction Écrites téléphoniques Centres d appels Données SI conversations Médias traditionnels Écrite Radio et télé Écrite Télé Web Forums, blogs, sites, réseaux sociaux, chat, twitter, Flickr Site radio, radio internet, YouTube, Daily Motion, site télé Données internes Flickr, google maps YouTube, DailyMotion, site télé (France 24) Données externes
Les données structurées du web- LinkedOpenData L initiative Linked Open Data Recenser et rendre accessibles les données ouvertes disponibles sur le web au travers un format commun Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Les données structurées du web - LinkedOpenData Linked Open Data pour la connaissance client Ex 1: linkedgeodata (données cartographiques collectées dans le cadre du projet openstreetmap) Ex 2 : DBPedia (données de wikipedia)
Les données structurées du web - Données externes/données internes ontologie ontologie nom client entreprise requête affichage portlet DBpedia enrichissement ontologie
«Nos OPEN DATA»= données collectées sur le web : -données collaboratives de type forum, réseaux sociaux - site de presse, ontologies Notre problématique : Comment exploiter les données ouvertes externes pour enrichir les données internes pour la connaissance client? MÉTHODE DE COLLECTE DE DONNÉES ISSUES DU WEB 13 - Weblab juin 2012
Collecte des données web non structurées Outils existants : plutôt sur le texte Les Sociétés qui vendent des données web: Aggrégateurs de données web: Linkfluence, AMI Software, mesagraph etc. Enjeux techniques de la collecte de données Collecte régulière ou ponctuelle => gestion des dates (date de publication vs. date de collecte), actualisation des données (en cas d absence de flux rss) Sources prédéfinies ou non => détourage (structure html très différente d un site à l autre) Traitement des données de forum => détourage (structure très complexe différente d un forum à l autre) Détourage : extraire d une page web son contenu pertinent
Exemple de forums Les blocs de texte sont éparpillés sur la page La page contient aussi du bruit: menus, pubs etc.
Les blocs de texte sont éparpillés sur la page Collecte et analyse données Web
Collecte/requêtage de données structurées Représentation des données pour faciliter le requêtage par les moteurs de recherche Protocoles Web sémantiques Ensemble de technologies visant à rendre accessible le contenu des ressources du World Wide Web données non structurées structuration des données données structurées texte images audio videos OWL RDF RDFS stockage dans un Triplestore Instances RDF Agent A responsable compte X Agent B responsable compte Y Agent A appartient Unité Est Agent B appartient Unité Centre Concepts RDFS Agent EDF responsable compte Agent EDF appartient unité requête/inférence SPARQL synthèse
Les traitements : développement de service et d outils d analyse (laboratoires académiques, entreprises, développeur indépendant) Les sorties : Information et services Notre sortie : plateforme d intégration de données complexes Données non structurées = > données structurées TRAITEMENT DES DONNÉES ET INTEGRATION
Puissance appelée (MW) Notre outil la plateforme d intégration de données hétérogènes Technologie utilisée : WebLab conçue il y a 5 ans pour des projets collaboratifs et industrialisé par EADS/Cassidian - plateforme open-source destinée à : Rendre intelligent le traitement de données hétérogènes Gérer l interopérabilité entre les différents traitements (données internes et données externes) Nos traitements Analyse de données : de la donnée non structurée à la donnée structurée Analyse de données textuelles Analyse des courbes de charges 60 50 40 30 20 10 0 Profil hebdomadaire au pas jour marché VERT / GUADELOUPE lundi mardi mercredi jeudi vendredi samedi dimanche Intégration de données Représentation des données non structurées en donnée structurée (ontologie) Alignement d ontologie
PERSPECTIVES
Le cycle de vie des données OpenData Comment stocker les données externes collectées pour venir enrichir les données internes du SI? Pour l instant : stockage classique des données collectées sur le web pour des analyses R&D A terme : réflexion à mener sur le mode de stockage des données collectées Mise en place d un entrepôt de données pour pouvoir suivre les évolutions Quelles sont les données qu il faut choisir de stocker? Comment gérer leur mise à jour (notamment dans le cas des données web)? Ou requête à la demande en fonction de l étude Inconvénient historique restreint Avantage : pas de problème de mise à jour
Quelles sont les autres données de l opendata pour enrichir notre connaissance client? Élargir à d autres données qui pourraient être mises à disposition par les fournisseurs et aggrégateurs de données Données collaboratives Pour l instant: collecte effectuée sur twitter et sur quelques forums Quelles sont les plateformes d échanges entre les citoyens sur leur consommation d énergie? Autres types de données Données cartographiques mises à disposition par les collectivités Ex : Carte de la thermographie à Paris http://www.paris.fr/pratique/environnement/energie-plan-climat/carte-de-la-thermographie-aparis/rub_8411_stand_91543_port_19606
Mise à disposition de données EDF? Pour encourager le développement de services autour de nos données Limites : confidentialité des données client Stimulation et animation (ex: SNCF) Les traitements : développement de service et d outils d analyse (laboratoires académiques, entreprises, développeur indépendant)
Merci Contributeurs Vision Open Data : Alzennyr Gomes Da Silva, Benoît Grossin, Philippe Suignard Collecte de données web: Alina Stoica Plateforme weblab et web sémantique : Alexis Bondu, Christallan Briend, Laurent Pierre Contact : chloe.clavel@edf.fr