Anticiper et prédire les sinistres avec une approche Big Data

Documents pareils

Labs Hadoop Février 2013

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Offre formation Big Data Analytics

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Panorama des solutions analytiques existantes

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Hadoop, les clés du succès

Cartographie des solutions BigData

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Big Data Concepts et mise en oeuvre de Hadoop

HADOOP ET SON ÉCOSYSTÈME

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Les journées SQL Server 2013

BIG DATA en Sciences et Industries de l Environnement

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Les technologies du Big Data

Le nouveau visage de la Dataviz dans MicroStrategy 10

BIG DATA et DONNéES SEO

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Introduction à MapReduce/Hadoop et Spark

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

M2 GL UE DOC «In memory analytics»

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Ne cherchez plus, soyez informés! Robert van Kommer

Cassandra et Spark pour gérer la musique On-line

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Pentaho Business Analytics Intégrer > Explorer > Prévoir

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Le cloud computing au service des applications cartographiques à haute disponibilité

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Vos experts Big Data. Le Big Data dans la pratique

Les quatre piliers d une solution de gestion des Big Data

Big Data et Graphes : Quelques pistes de recherche

Change the game with smart innovation

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Titre : La BI vue par l intégrateur Orange

Programmation parallèle et distribuée (Master 1 Info )

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

BIG Data et R: opportunités et perspectives

Programmation parallèle et distribuée

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Programmation parallèle et distribuée

Ricco Rakotomalala R.R. Université Lyon 2

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Bigdata et Web sémantique. les données + l intelligence= la solution

Big Data et Graphes : Quelques pistes de recherche

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

td3a correction session7az

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Introduction Big Data

Accélérer la transformation de vos nouveaux modèles assurances

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Projet d'infrastructure de stockage mutualisée

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Big Data Jean-Michel Franco

Partner Business School

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Tables Rondes Le «Big Data»

Les datas = le fuel du 21ième sicècle

Chapitre 4: Introduction au Cloud computing

La stratégie Cloud de Microsoft

Avant-propos. Organisation du livre

Big Data On Line Analytics

4 Exemples de problèmes MapReduce incrémentaux

Entreprise et Big Data

Le BigData, aussi par et pour les PMEs

Fouille de données massives avec Hadoop

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Urbanisation des SI-NFE107

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

TRAVAUX DE RECHERCHE DANS LE

Architectures d implémentation de Click&DECiDE NSI

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

ez Publish Cloud Edition Présentation

BI SWISS FORUM (ecom / SITB)

Creation de Contenus Numériques pour

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

SHAREPOINT PORTAL SERVER 2013

Importation et exportation de données dans HDFS

Transcription:

Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1

Internet comme source de données Internet, comme la voix des «mass markets» 2

en Assurance Santé 71% à propos de Maladie Symptome Médicament Avis / opinion Les principales sources sont les forums, et non les réseaux sociaux 3

Quels bénéfices pour les Assureurs? Comprendre les centres d intérêt des communautés patients Anticiper l effet psycho-social d Internet Prédire les tendances d évolution en suivant l évolution de signaux faibles 4

Comment procéder? 5

Le problème à résoudre Comprendre le champ sémantique de la Santé utilisé sur Internet Identifier les corrélations entre l évolution des sinistres et des millions de variables externes non-identifiées Trouver des variables corrélées anticipant les sinistres 6

Dépasser les limites humaines Traiter des millions de corrélations n est plus possible à l échelle humaine Machine Learning DataMining Intelligence Artificielle 7

Trouver des corrélations anticipatives Analyse du langage naturel des messages par date et interprétation sémantique Volume de recherche Google sur des mots clefs de symptomes et de médicaments Evolutions des données socioéconomiques issues de l Open Data Evolution de termes de Santé sur les forums Evolution des recherches de termes de Santé Evolution du contexte socio-économique Sinistres Santé par typologies Correlation Search Machine Matrice de corrélations lagged 8

Construire une base de données sémantique pour la santé Analyse des messages par date Text Mining Comment tagger les mots clefs du domaine de la santé? Tendances d évolution de mots clefs santé 1-Construire manuellement une liste de mots clefs 2-Enrichir la liste avec les mots clefs les plus cherchés Base de données de mots clefs santé 3-Apprendre automatiquement des catégories Santé 9

Comment trouver des correlations dans des séries de temps? y Comparer l évolution de variables exogènes et des sinistres dans le temps Trouver des régressions non linéaires et identifier fonction prédictive polymorphique f(x) à partir du dataset avec les Support Vector Regressions (SVR) Problème à résoudre f(x) + ε f(x) f(x) - ε min w 1 2 wt. w y i - (w T ϕ(x) + b) ε (w T ϕ(x) + b) - y i ε x Résolution Descente de gradient stochastique Test de la réponse au travers du coef. de determination R² Les librairies de Machine Learning sont précieuses! 10

Volume de données à traiter Le volume de données à analyser n est pas si important (~ 10 Go) Agrégation de données Ex. Select Group By Date Data volume Recherche corrélation Ex. SVR computing ~5Go. 12 3 = 8,64 To Data volume Le Parallel Computing permet de diviser le temps de traitement et le Cloud Computing les coûts! 11

Avec quelle plateforme? 12

IT drivers Agreger des données du Mo au To en lecture séquentielle SVR, NLP execution time is ~100ms by task Traiter plusieurs Go en mémoire Augmenter le ROI des projets d exploration en diminuant le TCO Requirements Data aggregation Large Tasks execution Large RAM execution Low CAPEX Low OPEX IT drivers IO Elasticity CPU Elasticity RAM Elasticity Commodity HW OSS SW Cost Elasticity 13

Solutions pour adresser le problème IO Elasticity CPU Elasticity RAM Elasticity Commodity Hardware OSS Software Cost Elasticity RDBMS In Memory analytics HPC Hadoop AWS Elastic MapReduce With repartitioning With repartitioning Through Task Through Task With repartitioning 14

AWS Elastic MapReduce Architecture Source: AWS 15

Hadoop components Custom App Python, Java, C#, Pig Flow processing Dataming tools R, SAS Streaming MR scripting BI tools Tableau, Pentaho, Hive SQL-like querying Oozie MR workflow Mahout Machine Learning MapReduce Parallel processing framework Zookeeper Coordination service Sqoop RDBMS integration Hama Bulk synchronous processing HDFS Distributed file storage HBase NoSQL on HDFS Flume Data stream integration Grid of commodity hardware storage and processing 16

Architecture générale de la plateforme DataViz Application Stockage des données brutes Stockage des résultats AWS S3 Core Instance 1 Redis Task Instance 1 Stockage des résultats pour le drill-down Master Instance Core Instance 2 Task Instance 2 2 x m2.4xlarge Task Instances 3 & 4 Pour les traitements SVR et NLP seulement 4 x m2.4xlarge 17

Num_of_messages_by_date.pig Data aggregation avec des Pig Job flow records = LOAD /input/forums/messages.txt AS (str_date:chararray, message:chararray, url:chararray); date_grouped = GROUP records BY str_date results = FOREACH date_grouped GENERATE group, COUNT(records); DUMP results; 18

Hadoop streaming Hadoop streaming exécute des jobs map/reduce ecrits en scripts au travers des standard I/O Cela resemble à cela (sur un cluster) : cat input.txt map.py sort reduce.py Pourquoi Hadoop streaming? Usage intensif de NLTK pour le Natural Language Processing Usage intensif de NumPy et Scikit-learn pour le Machine Learning 19

Stemmed word distribution with Hadoop streaming, mapper.py Stem_distribution_by_date/mapper.py import sys import nltk from nltk.tokenize import regexp_tokenize from nltk.stem.snowball import FrenchStemmer # input comes from STDIN (standard input) for line in sys.stdin: line = line.strip() str_date, message, url = line.split(";") stemmer = FrenchStemmer("french") tokens = regexp_tokenize(message, pattern='\w+') for token in tokens: word = stemmer.stem(token) if len(word) >= 3: print '%s;%s' % (word, str_date) 20

Stemmed word distribution with Hadoop streaming, reducer.py Stem_distribution_by_date/reducer.py import sys import json from itertools import groupby from operator import itemgetter from nltk.probability import FreqDist def read(f): for line in f: line = line.strip() yield line.split(';') data = read(sys.stdin) for current_stem, group in groupby(data, itemgetter(0)): values = [item[1] for item in group] freq_dist = FreqDist() print "%s;%s" % (current_stem, json.dumps(freq_dist)) 21

Conclusions 22

Conclusions La recherche de corrélations identifie 42 variables externes corrélées à plus de 70% sur une période supérieure à 24 mois sur 2,7 millions de variables un facteur d anticipation supérieur à 4 mois L analyse sémantique permet de répondre à des questions : Quels sont les centres d intérêt Santé à la date T? Quelle est l évolution d un centre d intérêt dans le temps? Où les internautes se retrouvent-ils pour échanger sur un sujet donné? 23

Merci de votre attention! Julien Cabot jcabot@octo.com @julien_cabot 24