BIG DATA QUELS CHALLENGES?

Documents pareils
BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Marché immobilier en Ile-de-France

Big Graph Data Forum Teratec 2013

Trends. Médias sociaux et SEO - la force du contenu

Le BigData, aussi par et pour les PMEs

Documentation sur l importation en lot d utilisateurs sur la plateforme Via

LE CONSEIL EN STRATÉGIE

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Les datas = le fuel du 21ième sicècle

TRAVAUX DE RECHERCHE DANS LE

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

AGENCE WEB 360 acteur du web depuis 8 ans en collaboration avec ses partenaires, déploie son. offre SEO

10 points clés pour apprivoiser les réseaux sociaux en PME et TPE. club entrepreneurs ISC -6 Novembre 2014 à 19H

SEO perspec(ves Novembre 2013

Calculatrice horloge température FICHES TECHNIQUES

Apprentissage symbolique et statistique à l ère du mariage pour tous

Optimiser le. succès. de vos nominations grâce à une solution. fiable, indépendante et globale

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Gérer la répartition des charges avec le load balancer en GLSB

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

L ogre Facebook mangera-t-il le petit poucet Twitter?

Comment améliorer les performances avec l'usage mixé d'hébergeurs, CDN et Clouds? Paris Web 2011

Conférence Big Data Paris

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

DIGITAL MINDS. Chapitre 7, Les médias sociaux. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

SEO Campus 2009 : Pagerank et optimisation

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Apprentissage Statistique

Big Data et Statistique Publique

Qu est ce que le référencement web?

DIGITAL MINDS. Chapitre 5, La publicité display, un avantage concurrentiel. 12 Clés pour Développer votre Business sur le Web

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

18 SEPTEMBRE E-réputation : une image positive pour une stratégie de conquête!

Présentation de. La Méthode Google

Les défis statistiques du Big Data

HighQ accélère les performances des applications Cloud dynamiques jusqu à 2 000%, en améliorant la collaboration mondiale des consommateurs

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

BIG DATA VOUS N Y ÉCHAPPEREZ PAS!

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Bologne à l EPFL. Réforme de Bologne Implications pour l EPFL. Prof. Dominique Bonvin, Doyen Bachelor-Master

Être visible sur internet - Améliorez votre référencement

BIG DATA en Sciences et Industries de l Environnement

Le «Nouvel Hollywood»

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Internet et Big Brother : Réalité ou Fantasme? Dr. Pascal Francq

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Vision prospective et obstacles à surmonter pour les assureurs

L introduction à la thèse

Comment les Québécois cherchent-ils sur le Web? Cette étude a été réalisée par Skooiz.com et Mastodonte Communication

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Entreprise et Big Data

Fouillez facilement dans votre système Big Data. Olivier TAVARD

TABLE DES MATIÈRES. Page

Lundi de l Economie l Mardi 19 novembre. Foix. CCI Ariège

Hay Group Spectrum. La nouvelle génération de solutions en RH

Convergence de A à Z 10000

IntentOS, le système d'exploitation du bâtiment

LES ENJEUX DU BIG DATA

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Stratégie webmarketing

SEMI change de prestataire de services CDN pour porter à 100 % sa disponibilité web en Chine et réduire son coût mondial d accélération des réseaux.

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

La campagne de netlinking ou comment améliorer son indice

COLLECTION N.T.I.C. Livre Blanc. Les promesses du Cloud Computing : réalité ou fiction? Chris Czarnecki En-lighten Technology Ltd.

Pôle Le Cabinet du Futur. La technologie au service de la productivité

Introduction au Data-Mining

Gephi dans le paysage de la data visualization. Clément Levallois Gephi Support Team et professeur à l EMLyon Business School (2014 -)

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

DOSSIER DE PRESSE.

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Guide d utilisation 2572

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

DIGITAL MINDS. Chapitre 3, Le cercle vertueux du pay per click. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

Bienvenue! Le webinaire commencera d ici quelques minutes

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011

Référencement Au Sein d un (gros) Site E-Commerce

Panorama des Smart Cities et des villes du futur

SEO Le Contenu. Table Ronde EBG

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Déployer une Stratégie Web Globale

DOSSIER DE PRESSE.

Une opportunité pour les entrepreneurs: le logiciel libre et open source. Daniel Morissette Mapgears Inc

Les Systèmes d Information Géographique dans l Entreprise

Institutions financières Énergie Infrastructures, mines et matières premières Transport Technologie et innovation Sciences de la vie et santé.

24 heures. dans la vie d Orrick Rambaud Martel

Enjeux mathématiques et Statistiques du Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Transcription:

BIG DATA QUELS CHALLENGES? Pascal Poncelet Université Montpellier Pascal.Poncelet@lirmm.fr www.lirmm.fr/~poncelet www.lirmm.fr/recherche/equipes/advanse

Une entreprise de télécommunicagons Les consommagons des uglisateurs sur 3 ans Number Name Phone City Plan Avg. 3m Profit in $ 1 Nicholson Jack 647 224 8984 Paris 2y 12,00 3 Streep Meryl 647 231 3938 London 3y 189,45 4 De Niro Robert 633 345 8799 New York 3y 77,10 6 Pacino Al 654 478 7488 Singapore 3y 369,00 7 Day-Lewis Daniel 688 666 3431 Dellhi 3y 131,00 8 Hoffman Dustin 655 879 9963 Tokyo 2y 459,37 11 Monroe Marilyn 613 742 7361 Beijing 3y 830,00 12 Hopkins Anthony 638 378 6380 Cairo 3y 38,78 15 Newman Paul 633 789 7892 Jakarta 3y 299,29 17 Washington Denzel 624 798 2343 Bogota 1y 236,06 18 Winslet Kate 656 980 8793 Hanoi 3y 50,18 20 Penn Sean 645 892 8921 Santiago 3y 628,01 21 Blanchett Cate 635 891 1890 Berlin 3y 33,79 22 DiCaprio Leonardo 643 909 8918 Nairobi 3y 8,00 24 Brando Marlon 627 713 1053 Los Angeles 3y 26,23 26 Hanks Tom 667 017 6390 Montpellier 2y 89,11 28 Bridges Jeff 698 382 8614 Toronto 3y 92,75 31 Crowe Russel 689 139 4947 Munich 3y 1 044,48 33 Kidman Nicole 674 270 7824 Tokyo 3y 0,96 2

Une entreprise de télécommunicagons Un problème de rentabilité Il faut supprimer les uglisateurs non rentables Lesquels faut il garder? Quel message donner aux autres pour les conserver? Hypothèses : les uglisateurs sont indépendants Pas de pargcularité sur la distribugon des valeurs de profit 3

Une approche classique - 1 Un aperçu de la distribugon 4

Une approche classique - 2 Kidman Nicole DiCaprio Leonardo Nicholson Jack Brando Marlon Blanchett Cate 5

Conclusions Kidman Nicole DiCaprio Leonardo Nicholson Jack Brando Marlon Blanchett Cate Clients à ne pas retenir 6 sur 19 Gain : 119,76 $ 6

Une intuigon Big data beaucoup de données? et si il y avait d autres données? Data Linking et intégragon 7

Données addigonnelles «Inter-call network» avec les fréquences Ceux qui sont connectées avec les 19 personnes 8

Données addigonnelles Algorithmes de détecgon de communautés (global community detec3on) ApplicaGon du PageRank de Google 9

Données addigonnelles Algorithme de détecgon de communautés (local community mining) 10

Données addigonnelles Centralité par Communauté (Nicole Kidman) Kidman Nicole 11

Données addigonnelles Centralité par Communauté (Jack Nicholson) Nicholson Jack 12

Autres conclusions Risque de perte : Nicole Kidman : 3145,32 $ (0,96 $) Jack Nicholson : 6324,14 $ (8 $) Exploiter des données addigonnelles et des techniques d analyses sophisgquées peuvent offrir de nouvelles perspecgves 13

A l origine 14

Le Big Data s affiche 15

Numéro spécial dans Nature 16

Google Trends 17

Big Data vs Data Mining 18

Big Data vs Data Mining vs Machine Learning 19

Aujourd hui le Big Data est partout 20

21

22

Des ougls existent 23

Les 4 dimensions 24

Dimension Volume 100Gbytes 1997 Aujourd hui 25

Dimension Volume De plus en plus de données Quelques challenges? Comment traiter des données de plus en plus volumineuses? Comment prendre en compte le fait qu elles soient réparges (crowdsourcing, autre)? Comment accéder rapidement aux données? 26

Dimension Velocity Des données arrivant de plus en plus vite Quelques challenges? Comment supporter ces données (infrastructures)? Comment prendre en compte leur réparggon? Comment gérer l énergie des capteurs? Comment interroger/analyser ces données? 27

Dimension Velocity Plus de 1 million de requêtes par seconde Mars 2014 Aujourd hui? Cours 2011 28

Dimension Veracity Comment garangr qu une donnée est valide? Une erreur dans un capteur? Un mauvais uglisateur? Quelques challenges? Détecter les erreurs? Traiter les erreurs? Cryptographie? PréservaGon de la vie privée? 29

Dimension Veracity Expérience d AOL en 2006 Une liste de 20 millions de recherche d internautes mis en ligne après avoir été anonymisées No. 4417749 [«homme célibataire de 60 ans», «informations sur chien»] Data linking et moins de 24 heures après Thelma Arnold veuve de 62 ans Lilburn, Georgie 30

Dimension Variety 31

Quelques Challenges? Dimension Variety Connaissances disponibles? ExperGse? Linking Data Open Data 32

Une seule source de données 33

En réalité Plus d une seule dimension! 34

Linking Data 35

Quels sont les autres challenges? Au moins deux grands challenges : IntégraGon des données InterprétaGon et analyse des données 36

IntégraGon 37

Comment analyser et interpréter? 38

Comment analyser et interpréter? Analyse de sengments dans les tweets Visual AnalyGcs Graphes de communautés De nouvelles abstracgons 39

La bonne quesgon? Dans quelles dimensions se situe mon projet? De gros volumes, Très variés, Vitesse rapide, Pas toujours juste ArGcles de presse? De gros volumes Très variés Blogs, Forums? REPONSE DIFFICILE De gros volumes, Disponibles rapidement Avec quelques erreurs Réseaux de capteurs? Google, Amazon, Twiver, etc 40

Conclusion Rechercher les données disponibles pour aider à la prise de décision! Les ougls sont encore à inventer! L éducagon est importante (Data ScienGst) De très nombreux challenges 41