www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013
2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire Détection de comportements anormaux Cartographie du SI Projet REQUEST Conclusions
3 / Big Data : «Big soucis ou opportunités» pour l assureur? Enjeux de l assurance connectée et des Big Data: Une révolution dans la gestion des données : qualité, sources (internes/externes), formats (structurées, non structurées), traitement, traçabilité, sécurisation, déontologie, modélisation? Une révolution dans l approche produits& clients? Une révolution dans les organisations et les outils pour les acteurs de l assurance? Une révolution dans le métier d actuaire et dans l apparition de nouveaux métiers?
4 / CENTAI
5 / CENTAI : Laboratoire Etudes Amont Thales Research &Technology (France, Hollande, Singapour, Canada) Transfert d algorithmes Evaluation / Méthodologies & Technologies Proof of Concept, Proof of Technos Dévt et Transfert de briques logicielles et de chaînes de traitements Laboratoire joint UPMC LIP6 CENTAI (Centre de Traitement et d Analyse de l Information) Big Data, Big Analytics & Visual Analytics Thales Business Lines Partenariat LABRI (PF TULIP) PMEs (OSS) Thales Communications & Security TRL 1-3 TRL 3-5 TRL 3-6 TRL > 6
6 / Pourquoi le Big Data & le Big Analytics au CENTAI? Thales fournit des systèmes qui produisent de très grands volumes de données encore très partiellement exploitées Les approches Big Data et Big Analytics fondées sur des BD NoSql et des frameworks de traitement distribué, associés si besoin à des BD SQL, permettent de définir de nouveaux produits et de nouveaux services pour optimiser les processus de détection et d investigation de l information critique 2009 Détection & Investigation de la fraude à la carte bancaire sur Internet 2 milliards de transactions / an Exhaustivité, Temps réel, Requêtes complexes 2010 L information sous forme de grands graphes (SNA) 500 000 noeuds Modélisation SQL non adaptée aux données et aux parcours de graphes, Pbsde performances, Partitionnement des données coûteux, Requêtes complexes 2011 Smart Transport Smart City 2012-2013 Cyber-Sécurité 5 milliards de transactions / an (STIF/Billettique ) + Autres données Données très hétérogènes issues des systèmes Thales (billettique, maintenance et supervision) / Données externes : Open data, Données sociales 2013-2014 E-Border, sécurité Maritime, Contrôle du spectre,. Exhaustivité, Temps réel, Requêtes complexes 130 milliards de logs / an Echantillonnage impossible Anomalies inscrites dans la durée Limitation à la recherche de patterns connus Temps réel, Requêtes complexes
7 / CENTAI : Métier & Domaines d Activités Traitement de données massives, hétérogènes, dynamiques et relationnelles (données métier, données open source, open data) à des fins de détection et d investigation des informations (Collecte Analyse Visualisation)
8 / Projet REQUEST : Appel à projets Cloud computing Big Data Objectifs du projet Couplage entre les domaines du Big Data, Big Analytics, Visual Analytics et du Cloud Computing Développement d une architecture ouverte, dédiée à la gestion des données, aux algorithmes d analyse et de visualisation Techniques de gestion des données, fondées sur les nouvelles bases de données NoSQL Techniques innovantes de requêtage, utilisant un compromis entre l approche de recherche gouvernée par les hypothèses (Hypothesis driven) et l approche par exploration exhaustive des données (Data driven) Algorithmes adaptés au traitement de données massives, hétérogènes et dynamiques (données numériques, données non structurées et grands graphes) Techniques de visualisation analytique et interactive, permettant aux utilisateurs d investiguer les données Structuration et animation de la communauté française du Big Data, en associant des partenaires issus du monde industriel - grandes entreprises, petites et moyennes entreprises - du monde académique et du monde des opérateurs et prescripteurs publics
9 / Consortium Un consortium pluri-disciplinaires de 15 partenaires Académiques, Industriels et PMEs Compétences reconnues dans les domaines des architectures, de la gestion de données, de l analyse des données et de la visualisation Apport d expertise SHS pour les enjeux juridiques/éthiques/réglementaires Partenaires Thales Services Thales Communications & Sécurité Orange Labs SNCF Lab. ERIC / Université ERIC LIP6 UPMC ( MALIRE & Complex Networks) LIMSI/CNRS/ILES INRIA Bordeaux / LABRI L2TI Paris 13 UTT KXEN ALTIC ALDECIS ISTHMA SYLLABS INTHEMIS Collège GE GE GE GE Académique Académique Académique Académique Académique Académique PME PME PME PME PME PME
10 / Cas d usage applicatifs Cas d usage CyberCrime avec la Gendarmerie Nationale et la Police Nationale Protection du citoyen Implémentation d une chaîne de traitement, dédiée à la détection et à l investigation des infractions dans les réseaux sociaux et, plus particulièrement, dans les plateformes de microblogging, en vue de répondre aux besoins spécifiques du métier d enquêteur Cas d usage CyberSécurité - Protection du citoyen, Protection des infrastructures) Implémentation d une chaîne de traitement dédiée à la fouille de logs de sécurité et à la gestion dynamique des risques, permettant d optimiser les capacités de prévention et de détection des attaques contre les systèmes d information, pour répondre aux attentes des grands clients institutionnels et industriels Cas d usage «Transport Intelligent» - Mobilité et Sécurité Construction de typologies pour identifier des habitudes de voyages, Analyse des flux pour mieux comprendre la mobilité Couplage des données métier et OPEN DATA Exploitation de la nature relationnelle et interactionnelle des données (graphe «social» reliant des porteurs de cartes avec un réseau de transport) Détection et investigation d anomalies dans les flux de données
11 / «SOCIAL NETWORK ANALYSIS» PLATE-FORME OSINT LAB
12 / Plate-forme OSINT LAB Chaîne de traitement pour l analyse et le suivi des données issues du Web Social (Twitter, Facebook, Blogs & Forums), fondée sur des méthodes de Détection & d Investigation (Analytics et Visual Analytics) Grandes visées fonctionnelles Détecter & Investiguer dans le temps et dans l espace, en les corrélant les faits saillants (fréquents & rares) les rôles, comportements et pratiques des socionautes (individus & communautés) Innovation : Text & Link Mining Couplage dynamique des informations issues de l analyse du contenu des textes et de l analyse des relations ( liens acteurs, sources, textes) Langues supportées : Français, Anglais, Arabe Approche Intégration de composants Thales, de COTS et OSS, dans une plate-forme technique Développement agile, en s appuyant sur les résultats des évaluations opérationnelles Expérimentations continues menées en collaboration avec les utilisateurs finaux (Aujourd hui : GN, ANSSI, Thales (France, Canada, Inde ) R&D collaborative (ANR, Grand Emprunt, CALL SECURITY)
13 / Différentiateurs / Marché 3 grandes approches Moteur de recherche généraliste (Exalead, Bertin) Veille sociale orientée analyse des contenus textuels (AmiSoftware, Temis) Veille sociale orientée analyse des contenus relationnels (Linkfluence, I2) Approche OSINT LAB Répondre aux besoins spécifiques du métier d enquêteur (en s appuyant si besoin sur un couplage avec les outils du marché) Fonctions de collecte d informations textuelles et relationnelles en temps réel Couplage «Text et Link Mining» Fonctions de détection de signaux faibles Fonctions de détection des communautés Fonctions d investigation dynamique (pour la collecte de la preuve)
14 / Plate-forme OSINT LAB : Exemples d Usages Prévention, détection et investigation des infractions commises sur les réseaux sociaux, dans le contexte du Cybercrime Recherche et Etude des infractions (escroqueries, diffusion de contenus illicites, atteintes aux mineures, etc.) Analyse de la structure, des comportements et pratiques des communautés de cybercriminels (mise en évidence du rôle des différents suspects d un groupe criminel) Maintien de l ordre public / Gestion de crise Détection de menaces susceptibles de porter atteinte à l'ordre public et à la sécurité des citoyens (rassemblements dangereux, manifestations, émeutes, menaces contre les intérêts français, ) Plan de veille : Levée d alertes, pour anticiper les risques et menaces Recherche et filtrage d information multi-modale (géographie/textes/acteurs) Suivi et Investigation des événements à risque Identification des acteurs (qui parle?, qui agit?, qui interagit?) Mesure de la mobilisation sociale Cellule de veille et d anticipation de la menace dans le contexte de la cybersécurité Etude des menaces et attaques discutées sur les réseaux sociaux Etude des comportements et pratiques des communautés de hackers Anticipation des attaques potentielles, pour aider les opérateurs à prendre des décisions pour la protection et la défense des infrastructures critiques E-reputation et communication d influence, Veille technologique (Thales SA)
15 / Architecture fonctionnelle
16 / 16 / Couplage dynamique informations textuelles, relationelles et temporelles
17 / Débat : Quelles usages pour l assurance? Veille financière? Analyse et Suivi des risques de marché Mesure de l impact des rumeurs Exemple de la Société Générale en 2011 Baisse de l action de 15% en une journée, suite à des tweets repris par un journal anglais, annonçant la faillite de la banque puis, Chute de la bourse de 20% Social Customer Relationship Intelligence? Optimisation de la connaissance des clients Connaissance des nouveaux besoins marché E-Reputation? E-Reputation de l assureur et de son réseau Communication d influence Veille concurrentielle? Autres pistes?
18 / DÉTECTION DES ANOMALIES & CARTOGRAPHIE DU SYSTEME D INFORMATION
19 / Cyber-sécurité Analyse de logs réseau Objectifs Détection d évènements réseau anormaux (a posteriori) Caractérisation de la topologie d un système d information supervisé (a posteriori) Données 70 To de fichiers de logs Données massives et hétérogènes Architecture choisie Stockage Besoin : Stockage de gros volumes de logs hétérogènes Solution : Apache Hadoop HDFS Processing Besoin : Requêtage (sélection, jointure, ) Solution : Apache Hive / UC Berkeley Shark (requêtage SQL) Besoin : Traitements complexes sur les données (algorithmes d apprentissage) Solution : Apache Hadoop MapReduce (algorithmes de détection CENTAI)
20 / Le Big Data & le Big Analytics, dans le contexte de la Cybersécurité ENJEUX BIG DATA BIG ANALYTICS VISUAL ANALYTICS CYBELS SENSOR : Moteur de corrélation IDS/NetFlow/DPI Données massives et dynamiques 10GB/s Parallélisation des algorithmes Linéarisation des algorithmes Portail de reporting Cartographie dynamique et passive du SI Détection et investigation des attaques contre le SI Données massives et hétérogènes 80 To logs / an Stockage distribué (HDFS) Base de données colonne (Cassandra) Parallélisation & Distribution (MapReduce) Moteur de visualisation de graphes Cellule de veille et d évaluation de la menace sur le Web Social Données hétérogènes et dynamiques données textuelles et données relationnelles Base de données graphe (Titan) Moteur de recherche (Elastic Search) Parallélisation & Distribution (MapReduce) Moteur de visualisation de graphes Portail de reporting
21 / Cartographie dynamique du SI Cartographie dynamique Remonter la topologie réseau d un SI de manière passive, non intrusive et automatique Analyse des logs réseau (routeurs, firewalls, ) Représentation des liaisons entre machines sous forme de graphe relationnel Typologie des flux (protocole, nombre de paquets, ) Typologie des machines (serveurs, VMs, ) Communautés de machines (sous-réseaux) Navigation temporelle entre différents «snapshots»
22 / Débat : Quelles usages pour l assurance? Customer Relationship Intelligence? Cartographie et suivi des réseaux d agents et courtiers Cartographie et suivi des segments de clientèle et de leurs scores d appétence Gestion de risques? Proposition de stratégies de portefeuille : Modélisation des interdépendances de risque entre produits «Baskets» financiers entre produits / mauvais risques et mauvais comportements pour un ensemble de produits Autres?
23 / Débat : Autres pistes pour les assureurs Qualité des données Méthodes d amélioration de la qualité des données Big Data Gestion de risques Analyse de risques pays à partir des OPEN DATA, pour les réassureurs et les assisteurs. Autre
24 / CYBERCRIME : FRAUDE A LA CARTE BANCAIRE SUR INTERNET
25 / La problématique de la fraude à la carte bancaire sur Internet L ascension du e-commerce (FEVAD 2011) En 2011: + 22 % et CA du e-commerce de 38 milliards Un succès qui attire les fraudeurs (OSCP-2011) Montant M 73% des paiements frauduleux en 2011 et 52% en 2007 La fraude sur Internet très différente de la fraude de proximité Fraude en proximité Fraude localisée dans l espace et le temps : carte perdue ou volée avec code confidentiel, Mécanismes bien compris : par ex. piratage des distributeurs et duplication de la piste sur un faux support et utilisation à l étranger Fraude sur Internet Les comportements de fraude sont diffus, vagues, mouvants et changent fréquemment Les origines des compromissions de données sensibles sont très diverses, beaucoup plus largement distribuées géographiquement
26 / E-Fraud Box - Objectifs Développer une boîte à outils de techniques Fouille de données, Analyse des réseaux sociaux & Informatique décisionnelle Pour la détection de la fraude à la carte bancaire sur Internet Identifier plus rapidement les cartes utilisées frauduleusement sur Internet et ainsi prévenir les porteurs de carte plus tôt & pour l investigation de la fraude Identifier plus automatiquement des points de compromission Détecter plus rapidement les nouveaux modes opératoires Identifier plus rapidement les affaires pour les transmettre aux forces de l ordre
27 / Principaux résultats Un ensemble d algorithmes pour la détection et l investigation de la fraude Techniques d échantillonnage tenant compte du déséquilibre des classes Typologie dynamique de la fraude Evolution des comportements de fraude Algorithmes de détection de la fraude Algorithmes d investigation de la fraude Une intégration dans un démonstrateur au sein du GIE Cartes Bancaires CB Une phase de test par le GIE après la fin du projet (6 mois-2 ans)
28 / Débat : Quelles usages pour l assurance? Détection de la fraude Sécurisation des systèmes d information Sécurisation des opérations d assurance en ligne avec un mode de distribution sur Internet en croissance continue Assurance Santé : diminution des incidents de paiement chez les professionnels de santé, aide à la lutte contre la fraude, réduction de coûts, dématérialisation des cartes de Tiers Payant Autres?
29 / Conclusions