CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013



Documents pareils
La fraude à la carte bancaire

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Introduction Big Data

Panorama des solutions analytiques existantes

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Graphes d attaques Une exemple d usage des graphes d attaques pour l évaluation dynamique des risques en Cyber Sécurité

Big Graph Data Forum Teratec 2013

BIG DATA en Sciences et Industries de l Environnement

Les technologies du Big Data

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Labs Hadoop Février 2013

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Surmonter les 5 défis opérationnels du Big Data

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

HySIO : l infogérance hybride avec le cloud sécurisé

Offre formation Big Data Analytics

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

La fonction Conformité dans l assurance

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

DÉVELOPPER DES APPLICATIONS WEB SÉCURISÉES

Master Informatique Aix-Marseille Université

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Découverte et investigation des menaces avancées PRÉSENTATION

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

3 minutes. cybersécurité. avec Orange Consulting. pour tout savoir sur la. mobile, network & cloud. maîtrisez vos risques dans le cybermonde

Big Data On Line Analytics

Vision prospective et obstacles à surmonter pour les assureurs

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

HADOOP ET SON ÉCOSYSTÈME

Tout sur la cybersécurité, la cyberdéfense,

Pentaho Business Analytics Intégrer > Explorer > Prévoir

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

<Insert Picture Here> La GRC en temps de crise, difficile équilibre entre sentiment de sécurité et réduction des coûts

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Cartographie des solutions BigData

Agenda de la présentation

Les datas = le fuel du 21ième sicècle

Orange Business Services. Direction de la sécurité. De l utilisation de la supervision de sécurité en Cyber-Defense? JSSI 2011 Stéphane Sciacco

Jean-François Boulicaut & Mohand-Saïd Hacid

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Intégration de la cybersécurité aux systèmes de conduite industriels. Méthodes et pratiques

DU RÉSEAU AU BIG DATA UNE OFFRE GLOBALE DE GESTION DE LA DONNÉE. Bruno Fleisch - Responsable Produits Tarik Hakkou Responsable du pôle «Data»

5 novembre Cloud, Big Data et sécurité Conseils et solutions

Thales Services, des systèmes d information plus sûrs, plus intelligents

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

SAN07 IBM Social Media Analytics:

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Introduction au datamining

Introduction à MapReduce/Hadoop et Spark

Introduction au Data-Mining

Marc SALLIERES CEO ALTIC

Big Data Jean-Michel Franco

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

TRIBUNE BRAINWAVE GOUVERNANCE ET SéCURITé. Shadow IT, la menace fantôme. Une tendance irréversible mais pas dénuée de risques.

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Approche Méthodologique de la Gestion des vulnérabilités. Jean-Paul JOANANY - RSSI

IBM Software Big Data. Plateforme IBM Big Data

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Gestion des incidents de sécurité. Une approche MSSP

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

UserReplay. UserReplay. Départments ecommerce et Marketing. Service Client. Web Ops/ Infrastructure: Développement du site et Support technique

Des capacités de cybersécurité et de confiance numérique pour accélérer votre transformation digitale

CYBERSÉCURITÉ. Des capacités globales de cybersécurité pour une transformation numérique en toute confiance. Delivering Transformation. Together.

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

AXIAD Conseil pour décider en toute intelligence

LES ENJEUX DU BIG DATA

politique de la France en matière de cybersécurité

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Introduction à la B.I. Avec SQL Server 2008

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Anticiper et prédire les sinistres avec une approche Big Data

MailCube MC 2. 2,5 jours / homme / an. 33 milliards de kwh. 17 millions de. 3,1 millions de. nouvelle génération. Le spam en quelques chiffres :

Vos experts Big Data. Le Big Data dans la pratique

Technique et architecture de l offre Suite infrastructure cloud. SFR Business Team - Présentation

L exploitation des rapports de vérifications réglementaires : quels enjeux, quelle solution?

UE 8 Systèmes d information de gestion Le programme

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

SECURIDAY 2013 Cyber War

Titre : La BI vue par l intégrateur Orange

Exploration des Big Data pour optimiser la Business Intelligence

Sécurité sur le web : protégez vos données dans le cloud

Big Data et Graphes : Quelques pistes de recherche

DESCRIPTIF DES PROJETS 3EME ANNEE QUI SERONT PRESENTES LORS DE LA JOURNEE DE PROJET DE FIN D ETUDE LE 26/01/2012

Big Data : se préparer au Big Bang

Transcription:

www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire Détection de comportements anormaux Cartographie du SI Projet REQUEST Conclusions

3 / Big Data : «Big soucis ou opportunités» pour l assureur? Enjeux de l assurance connectée et des Big Data: Une révolution dans la gestion des données : qualité, sources (internes/externes), formats (structurées, non structurées), traitement, traçabilité, sécurisation, déontologie, modélisation? Une révolution dans l approche produits& clients? Une révolution dans les organisations et les outils pour les acteurs de l assurance? Une révolution dans le métier d actuaire et dans l apparition de nouveaux métiers?

4 / CENTAI

5 / CENTAI : Laboratoire Etudes Amont Thales Research &Technology (France, Hollande, Singapour, Canada) Transfert d algorithmes Evaluation / Méthodologies & Technologies Proof of Concept, Proof of Technos Dévt et Transfert de briques logicielles et de chaînes de traitements Laboratoire joint UPMC LIP6 CENTAI (Centre de Traitement et d Analyse de l Information) Big Data, Big Analytics & Visual Analytics Thales Business Lines Partenariat LABRI (PF TULIP) PMEs (OSS) Thales Communications & Security TRL 1-3 TRL 3-5 TRL 3-6 TRL > 6

6 / Pourquoi le Big Data & le Big Analytics au CENTAI? Thales fournit des systèmes qui produisent de très grands volumes de données encore très partiellement exploitées Les approches Big Data et Big Analytics fondées sur des BD NoSql et des frameworks de traitement distribué, associés si besoin à des BD SQL, permettent de définir de nouveaux produits et de nouveaux services pour optimiser les processus de détection et d investigation de l information critique 2009 Détection & Investigation de la fraude à la carte bancaire sur Internet 2 milliards de transactions / an Exhaustivité, Temps réel, Requêtes complexes 2010 L information sous forme de grands graphes (SNA) 500 000 noeuds Modélisation SQL non adaptée aux données et aux parcours de graphes, Pbsde performances, Partitionnement des données coûteux, Requêtes complexes 2011 Smart Transport Smart City 2012-2013 Cyber-Sécurité 5 milliards de transactions / an (STIF/Billettique ) + Autres données Données très hétérogènes issues des systèmes Thales (billettique, maintenance et supervision) / Données externes : Open data, Données sociales 2013-2014 E-Border, sécurité Maritime, Contrôle du spectre,. Exhaustivité, Temps réel, Requêtes complexes 130 milliards de logs / an Echantillonnage impossible Anomalies inscrites dans la durée Limitation à la recherche de patterns connus Temps réel, Requêtes complexes

7 / CENTAI : Métier & Domaines d Activités Traitement de données massives, hétérogènes, dynamiques et relationnelles (données métier, données open source, open data) à des fins de détection et d investigation des informations (Collecte Analyse Visualisation)

8 / Projet REQUEST : Appel à projets Cloud computing Big Data Objectifs du projet Couplage entre les domaines du Big Data, Big Analytics, Visual Analytics et du Cloud Computing Développement d une architecture ouverte, dédiée à la gestion des données, aux algorithmes d analyse et de visualisation Techniques de gestion des données, fondées sur les nouvelles bases de données NoSQL Techniques innovantes de requêtage, utilisant un compromis entre l approche de recherche gouvernée par les hypothèses (Hypothesis driven) et l approche par exploration exhaustive des données (Data driven) Algorithmes adaptés au traitement de données massives, hétérogènes et dynamiques (données numériques, données non structurées et grands graphes) Techniques de visualisation analytique et interactive, permettant aux utilisateurs d investiguer les données Structuration et animation de la communauté française du Big Data, en associant des partenaires issus du monde industriel - grandes entreprises, petites et moyennes entreprises - du monde académique et du monde des opérateurs et prescripteurs publics

9 / Consortium Un consortium pluri-disciplinaires de 15 partenaires Académiques, Industriels et PMEs Compétences reconnues dans les domaines des architectures, de la gestion de données, de l analyse des données et de la visualisation Apport d expertise SHS pour les enjeux juridiques/éthiques/réglementaires Partenaires Thales Services Thales Communications & Sécurité Orange Labs SNCF Lab. ERIC / Université ERIC LIP6 UPMC ( MALIRE & Complex Networks) LIMSI/CNRS/ILES INRIA Bordeaux / LABRI L2TI Paris 13 UTT KXEN ALTIC ALDECIS ISTHMA SYLLABS INTHEMIS Collège GE GE GE GE Académique Académique Académique Académique Académique Académique PME PME PME PME PME PME

10 / Cas d usage applicatifs Cas d usage CyberCrime avec la Gendarmerie Nationale et la Police Nationale Protection du citoyen Implémentation d une chaîne de traitement, dédiée à la détection et à l investigation des infractions dans les réseaux sociaux et, plus particulièrement, dans les plateformes de microblogging, en vue de répondre aux besoins spécifiques du métier d enquêteur Cas d usage CyberSécurité - Protection du citoyen, Protection des infrastructures) Implémentation d une chaîne de traitement dédiée à la fouille de logs de sécurité et à la gestion dynamique des risques, permettant d optimiser les capacités de prévention et de détection des attaques contre les systèmes d information, pour répondre aux attentes des grands clients institutionnels et industriels Cas d usage «Transport Intelligent» - Mobilité et Sécurité Construction de typologies pour identifier des habitudes de voyages, Analyse des flux pour mieux comprendre la mobilité Couplage des données métier et OPEN DATA Exploitation de la nature relationnelle et interactionnelle des données (graphe «social» reliant des porteurs de cartes avec un réseau de transport) Détection et investigation d anomalies dans les flux de données

11 / «SOCIAL NETWORK ANALYSIS» PLATE-FORME OSINT LAB

12 / Plate-forme OSINT LAB Chaîne de traitement pour l analyse et le suivi des données issues du Web Social (Twitter, Facebook, Blogs & Forums), fondée sur des méthodes de Détection & d Investigation (Analytics et Visual Analytics) Grandes visées fonctionnelles Détecter & Investiguer dans le temps et dans l espace, en les corrélant les faits saillants (fréquents & rares) les rôles, comportements et pratiques des socionautes (individus & communautés) Innovation : Text & Link Mining Couplage dynamique des informations issues de l analyse du contenu des textes et de l analyse des relations ( liens acteurs, sources, textes) Langues supportées : Français, Anglais, Arabe Approche Intégration de composants Thales, de COTS et OSS, dans une plate-forme technique Développement agile, en s appuyant sur les résultats des évaluations opérationnelles Expérimentations continues menées en collaboration avec les utilisateurs finaux (Aujourd hui : GN, ANSSI, Thales (France, Canada, Inde ) R&D collaborative (ANR, Grand Emprunt, CALL SECURITY)

13 / Différentiateurs / Marché 3 grandes approches Moteur de recherche généraliste (Exalead, Bertin) Veille sociale orientée analyse des contenus textuels (AmiSoftware, Temis) Veille sociale orientée analyse des contenus relationnels (Linkfluence, I2) Approche OSINT LAB Répondre aux besoins spécifiques du métier d enquêteur (en s appuyant si besoin sur un couplage avec les outils du marché) Fonctions de collecte d informations textuelles et relationnelles en temps réel Couplage «Text et Link Mining» Fonctions de détection de signaux faibles Fonctions de détection des communautés Fonctions d investigation dynamique (pour la collecte de la preuve)

14 / Plate-forme OSINT LAB : Exemples d Usages Prévention, détection et investigation des infractions commises sur les réseaux sociaux, dans le contexte du Cybercrime Recherche et Etude des infractions (escroqueries, diffusion de contenus illicites, atteintes aux mineures, etc.) Analyse de la structure, des comportements et pratiques des communautés de cybercriminels (mise en évidence du rôle des différents suspects d un groupe criminel) Maintien de l ordre public / Gestion de crise Détection de menaces susceptibles de porter atteinte à l'ordre public et à la sécurité des citoyens (rassemblements dangereux, manifestations, émeutes, menaces contre les intérêts français, ) Plan de veille : Levée d alertes, pour anticiper les risques et menaces Recherche et filtrage d information multi-modale (géographie/textes/acteurs) Suivi et Investigation des événements à risque Identification des acteurs (qui parle?, qui agit?, qui interagit?) Mesure de la mobilisation sociale Cellule de veille et d anticipation de la menace dans le contexte de la cybersécurité Etude des menaces et attaques discutées sur les réseaux sociaux Etude des comportements et pratiques des communautés de hackers Anticipation des attaques potentielles, pour aider les opérateurs à prendre des décisions pour la protection et la défense des infrastructures critiques E-reputation et communication d influence, Veille technologique (Thales SA)

15 / Architecture fonctionnelle

16 / 16 / Couplage dynamique informations textuelles, relationelles et temporelles

17 / Débat : Quelles usages pour l assurance? Veille financière? Analyse et Suivi des risques de marché Mesure de l impact des rumeurs Exemple de la Société Générale en 2011 Baisse de l action de 15% en une journée, suite à des tweets repris par un journal anglais, annonçant la faillite de la banque puis, Chute de la bourse de 20% Social Customer Relationship Intelligence? Optimisation de la connaissance des clients Connaissance des nouveaux besoins marché E-Reputation? E-Reputation de l assureur et de son réseau Communication d influence Veille concurrentielle? Autres pistes?

18 / DÉTECTION DES ANOMALIES & CARTOGRAPHIE DU SYSTEME D INFORMATION

19 / Cyber-sécurité Analyse de logs réseau Objectifs Détection d évènements réseau anormaux (a posteriori) Caractérisation de la topologie d un système d information supervisé (a posteriori) Données 70 To de fichiers de logs Données massives et hétérogènes Architecture choisie Stockage Besoin : Stockage de gros volumes de logs hétérogènes Solution : Apache Hadoop HDFS Processing Besoin : Requêtage (sélection, jointure, ) Solution : Apache Hive / UC Berkeley Shark (requêtage SQL) Besoin : Traitements complexes sur les données (algorithmes d apprentissage) Solution : Apache Hadoop MapReduce (algorithmes de détection CENTAI)

20 / Le Big Data & le Big Analytics, dans le contexte de la Cybersécurité ENJEUX BIG DATA BIG ANALYTICS VISUAL ANALYTICS CYBELS SENSOR : Moteur de corrélation IDS/NetFlow/DPI Données massives et dynamiques 10GB/s Parallélisation des algorithmes Linéarisation des algorithmes Portail de reporting Cartographie dynamique et passive du SI Détection et investigation des attaques contre le SI Données massives et hétérogènes 80 To logs / an Stockage distribué (HDFS) Base de données colonne (Cassandra) Parallélisation & Distribution (MapReduce) Moteur de visualisation de graphes Cellule de veille et d évaluation de la menace sur le Web Social Données hétérogènes et dynamiques données textuelles et données relationnelles Base de données graphe (Titan) Moteur de recherche (Elastic Search) Parallélisation & Distribution (MapReduce) Moteur de visualisation de graphes Portail de reporting

21 / Cartographie dynamique du SI Cartographie dynamique Remonter la topologie réseau d un SI de manière passive, non intrusive et automatique Analyse des logs réseau (routeurs, firewalls, ) Représentation des liaisons entre machines sous forme de graphe relationnel Typologie des flux (protocole, nombre de paquets, ) Typologie des machines (serveurs, VMs, ) Communautés de machines (sous-réseaux) Navigation temporelle entre différents «snapshots»

22 / Débat : Quelles usages pour l assurance? Customer Relationship Intelligence? Cartographie et suivi des réseaux d agents et courtiers Cartographie et suivi des segments de clientèle et de leurs scores d appétence Gestion de risques? Proposition de stratégies de portefeuille : Modélisation des interdépendances de risque entre produits «Baskets» financiers entre produits / mauvais risques et mauvais comportements pour un ensemble de produits Autres?

23 / Débat : Autres pistes pour les assureurs Qualité des données Méthodes d amélioration de la qualité des données Big Data Gestion de risques Analyse de risques pays à partir des OPEN DATA, pour les réassureurs et les assisteurs. Autre

24 / CYBERCRIME : FRAUDE A LA CARTE BANCAIRE SUR INTERNET

25 / La problématique de la fraude à la carte bancaire sur Internet L ascension du e-commerce (FEVAD 2011) En 2011: + 22 % et CA du e-commerce de 38 milliards Un succès qui attire les fraudeurs (OSCP-2011) Montant M 73% des paiements frauduleux en 2011 et 52% en 2007 La fraude sur Internet très différente de la fraude de proximité Fraude en proximité Fraude localisée dans l espace et le temps : carte perdue ou volée avec code confidentiel, Mécanismes bien compris : par ex. piratage des distributeurs et duplication de la piste sur un faux support et utilisation à l étranger Fraude sur Internet Les comportements de fraude sont diffus, vagues, mouvants et changent fréquemment Les origines des compromissions de données sensibles sont très diverses, beaucoup plus largement distribuées géographiquement

26 / E-Fraud Box - Objectifs Développer une boîte à outils de techniques Fouille de données, Analyse des réseaux sociaux & Informatique décisionnelle Pour la détection de la fraude à la carte bancaire sur Internet Identifier plus rapidement les cartes utilisées frauduleusement sur Internet et ainsi prévenir les porteurs de carte plus tôt & pour l investigation de la fraude Identifier plus automatiquement des points de compromission Détecter plus rapidement les nouveaux modes opératoires Identifier plus rapidement les affaires pour les transmettre aux forces de l ordre

27 / Principaux résultats Un ensemble d algorithmes pour la détection et l investigation de la fraude Techniques d échantillonnage tenant compte du déséquilibre des classes Typologie dynamique de la fraude Evolution des comportements de fraude Algorithmes de détection de la fraude Algorithmes d investigation de la fraude Une intégration dans un démonstrateur au sein du GIE Cartes Bancaires CB Une phase de test par le GIE après la fin du projet (6 mois-2 ans)

28 / Débat : Quelles usages pour l assurance? Détection de la fraude Sécurisation des systèmes d information Sécurisation des opérations d assurance en ligne avec un mode de distribution sur Internet en croissance continue Assurance Santé : diminution des incidents de paiement chez les professionnels de santé, aide à la lutte contre la fraude, réduction de coûts, dématérialisation des cartes de Tiers Payant Autres?

29 / Conclusions