Mo3: Big Data, Web & (Cyber)security Laura WILBER Director of Strategy, Dassault Systèmes EXALEAD 23/04/2013
Dassault Systèmes EXALEAD «Information Intelligence» Search & Discovery Entreprise Web «ii» du monde réel pour alimenter le monde virtuel de DS Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 2
Agenda 1.Qu est-ce que ça veut dire, «Big Data»? 2.Qu est-ce que ça veut dire, «Securité» («Cybersécurité»)? 3.Le Web comme source Big Data 4.On peut faire quoi avec le Web? 5.On peut le faire comment? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 3
1. QU EST-CE QUE ÇA VEUT DIRE, «BIG DATA»? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 4
Big Data : de nouveau? Gros volumes de données? De nouveau? Non! Grid computing Super computers High-end datawarehouses Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 5
Quoi de nouveau? Taux de croissance 1 Po/15 sec. 1 Po/sec +40% an 2015: 8 Zo 8 trillion Go Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 6
Quoi de nouveau? Types de données Business Data File Types Sensors Historical Data Social Network Feeds Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 7
Quoi de nouveau? Vitesse (et parcours P2P) Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 8
Quoi de nouveau? Nouvelle technologies? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 9
Quoi de nouveau? «Nouvelle» techniques Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 10
Quoi de nouveau? Trouver le trésor caché pour l avantage concurrentielle «the McKinsey Global Institute asserts that machine learning (a.k.a. data mining or predictive analytics) will be the driver of the next big wave of innovation» Big Data = Data Mining / Predictive Analytics Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 11
Le «Saint Graal» Rendre accessible aux gens ordinaires, au quotidien + Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 12
2. QU EST-CE QUE ÇA VEUT DIRE, «SECURITÉ»? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 13
La Sécurité Gestion des risques, les menaces: Détecter Anticiper Analyser Agir Éviter Éliminer Minimiser Réagir Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 14
La Sécurité «Nationale» Classique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 15
La Sécurité «Nationale» Attentats aux civils Associé d un état, ou non Domestique, ou non Organisé, ou non Individuel, ou non Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 16
La Sécurité en Evolution Menaces selon US Army Terrorisme Prolifération des armes, ADM Les organisations criminelles transnationales Cybersecurité Une croissance économique inégale Vulnérabilité du système financière mondiale Catastrophes naturelles Impacts de la démographie La rareté des ressources Les pressions environnementales croissantes (i.e., «changement climatique» - à huit clos) Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 17
La Sécurité «Business» Traditionelle Concurrence Défis financière L'offre de travail Réglementation Qualité, churn clientale Changements dans la demande Convergente Le changement climatique Catastrophes, perturbations multivalents Modifications de l'environnement durables La rareté des ressources Cybersecurité Terrorisme Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 18
Confluence sur «Sécurité» 100 plus grandes entités économiques: 51 entreprises, 49 pays; risques sans frontières Diff - agir et mission: Protéger le citoyen, Protéger l entreprise (?) Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 19
3. LE WEB COMME SOURCE BIG DATA Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 20
Vraiment Big Moteurs de recherche Google: 30MM (?) EXALEAD: 18MM Bing/Yahoo: 8MM (?) Index 100Po, 1 trillion URLS indexés 950 trillion non-indexés! Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 21
Vraiment Big Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 22
Vraiment Big Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 23
Vraiment Big Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 24
4. ON PEUT FAIRE QUOI AVEC TOUT CA? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 25
Qu est-ce qu on peut faire? (OSINT Biz et Govt) Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 26
Qu est-ce qu on peut faire? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 27
Nouveaux source & type de données, nouvelles méthodes d analyse Même précision que U.S. Centers for Disease Control and Prevention (CDC) Plus vite 2 semaines Invariably, simple models and a lot of data trump more elaborate models based on less data. Alon Halevy, Peter Norvig & Fernando Pereira Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 28
On peut faire quoi? Analyse Surveillance Plutôt historique Plutôt temps réel Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 29
Analyse par data mining/machine learning Analyse descriptive Analyse prédictive Analyse prescriptive Creuser des données à découvrir des faits, des tendances, des groupes, des patterns Construire des modèles à prévoir qu est-ce que se passera dans l avenir Construire des modèles pour faire des prescriptions/ recommendations Actuelles et historique Historique Historique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 30
Analyse descriptive : Construire des profiles riches Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 31
Analyse descriptive : Construire des graphes de rélations/réseaux Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 32
Analyse descriptive : Détecter des patterns Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 33
Analyse prédictive : Prévisions à partir des modèles Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 34
Analyse prescriptive : Recommendations à partir des modèles Faire ça dans le cadre de votre tolérance pour risque Suivez vos résultats Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 35
Surveillance/analyse en temps réel : Dashboards Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 36
5. ON PEUT LE FAIRE COMMENT? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 37
Comment? Visualiser Rechercher Partager Notifier Capturer Transformer Analyser/Action Explorer Exporter/Se connecter Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 38
Qu est-ce que c est le Web? Le Web L Internet Infrastructure WWW App Internet M2M H2H INTERNET Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 39
Capturer Infrastructure WWW App Internet Crawler API RSS API RSS Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 40
Apps: La fin du WWW? Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 41
Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 42
Crawler Liste des URLs à crawler Nouvelle liste des URLs à crawler Nouveaux liens Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 43
Défis : Crawler Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 44
Défis : Crawler Extraire du bon contenu http://www.unixuser.org/~euske/python/webstemmer/howitworks.html Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 45
Crawler : Défis Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 46
Crawler : Défis Duplicata Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 47
Crawler : Altérnatif EXALEAD Web Mining Experience Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 48
Transformer : Traitement sémantique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 49
Transformer : Traitement sémantique Entity extraction Classification automatique Analyse de sentiment Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 50
Transformer : Traitement sémantique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 51
Transformer : Transcription speech-to-text ; sémantique (Code Entretien) Les Entretiens de Toulouse - 23 et 24 avril 2013 52
Transformer : Traduction Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 53
Transformer : Analyse multimédia et sémantique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 54
Images COLEUR DESSIN FORME EXEMPLAIRE TEXTURE DES TYPES PLUS COMPLEXES EXISTENT MAIS ILS SONT DES PLUS FONDAMENTAUX & LES PLUS SOUVENT UTILSES Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 55
Transformer : Analyse multimédia et sémantique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 56
Transformer : Analyse multimédia et sémantique Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 57
Transformer : Analyse à soutenir la visualisation Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 58
Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 59
Merci! laura.wilber@3ds.com Mo3 Les Entretiens de Toulouse - 23 et 24 avril 2013 60