BIG DATA QUELS CHALLENGES? Pascal Poncelet Université Montpellier Pascal.Poncelet@lirmm.fr www.lirmm.fr/~poncelet www.lirmm.fr/recherche/equipes/advanse
Une entreprise de télécommunicagons Les consommagons des uglisateurs sur 3 ans Number Name Phone City Plan Avg. 3m Profit in $ 1 Nicholson Jack 647 224 8984 Paris 2y 12,00 3 Streep Meryl 647 231 3938 London 3y 189,45 4 De Niro Robert 633 345 8799 New York 3y 77,10 6 Pacino Al 654 478 7488 Singapore 3y 369,00 7 Day-Lewis Daniel 688 666 3431 Dellhi 3y 131,00 8 Hoffman Dustin 655 879 9963 Tokyo 2y 459,37 11 Monroe Marilyn 613 742 7361 Beijing 3y 830,00 12 Hopkins Anthony 638 378 6380 Cairo 3y 38,78 15 Newman Paul 633 789 7892 Jakarta 3y 299,29 17 Washington Denzel 624 798 2343 Bogota 1y 236,06 18 Winslet Kate 656 980 8793 Hanoi 3y 50,18 20 Penn Sean 645 892 8921 Santiago 3y 628,01 21 Blanchett Cate 635 891 1890 Berlin 3y 33,79 22 DiCaprio Leonardo 643 909 8918 Nairobi 3y 8,00 24 Brando Marlon 627 713 1053 Los Angeles 3y 26,23 26 Hanks Tom 667 017 6390 Montpellier 2y 89,11 28 Bridges Jeff 698 382 8614 Toronto 3y 92,75 31 Crowe Russel 689 139 4947 Munich 3y 1 044,48 33 Kidman Nicole 674 270 7824 Tokyo 3y 0,96 2
Une entreprise de télécommunicagons Un problème de rentabilité Il faut supprimer les uglisateurs non rentables Lesquels faut il garder? Quel message donner aux autres pour les conserver? Hypothèses : les uglisateurs sont indépendants Pas de pargcularité sur la distribugon des valeurs de profit 3
Une approche classique - 1 Un aperçu de la distribugon 4
Une approche classique - 2 Kidman Nicole DiCaprio Leonardo Nicholson Jack Brando Marlon Blanchett Cate 5
Conclusions Kidman Nicole DiCaprio Leonardo Nicholson Jack Brando Marlon Blanchett Cate Clients à ne pas retenir 6 sur 19 Gain : 119,76 $ 6
Une intuigon Big data beaucoup de données? et si il y avait d autres données? Data Linking et intégragon 7
Données addigonnelles «Inter-call network» avec les fréquences Ceux qui sont connectées avec les 19 personnes 8
Données addigonnelles Algorithmes de détecgon de communautés (global community detec3on) ApplicaGon du PageRank de Google 9
Données addigonnelles Algorithme de détecgon de communautés (local community mining) 10
Données addigonnelles Centralité par Communauté (Nicole Kidman) Kidman Nicole 11
Données addigonnelles Centralité par Communauté (Jack Nicholson) Nicholson Jack 12
Autres conclusions Risque de perte : Nicole Kidman : 3145,32 $ (0,96 $) Jack Nicholson : 6324,14 $ (8 $) Exploiter des données addigonnelles et des techniques d analyses sophisgquées peuvent offrir de nouvelles perspecgves 13
A l origine 14
Le Big Data s affiche 15
Numéro spécial dans Nature 16
Google Trends 17
Big Data vs Data Mining 18
Big Data vs Data Mining vs Machine Learning 19
Aujourd hui le Big Data est partout 20
21
22
Des ougls existent 23
Les 4 dimensions 24
Dimension Volume 100Gbytes 1997 Aujourd hui 25
Dimension Volume De plus en plus de données Quelques challenges? Comment traiter des données de plus en plus volumineuses? Comment prendre en compte le fait qu elles soient réparges (crowdsourcing, autre)? Comment accéder rapidement aux données? 26
Dimension Velocity Des données arrivant de plus en plus vite Quelques challenges? Comment supporter ces données (infrastructures)? Comment prendre en compte leur réparggon? Comment gérer l énergie des capteurs? Comment interroger/analyser ces données? 27
Dimension Velocity Plus de 1 million de requêtes par seconde Mars 2014 Aujourd hui? Cours 2011 28
Dimension Veracity Comment garangr qu une donnée est valide? Une erreur dans un capteur? Un mauvais uglisateur? Quelques challenges? Détecter les erreurs? Traiter les erreurs? Cryptographie? PréservaGon de la vie privée? 29
Dimension Veracity Expérience d AOL en 2006 Une liste de 20 millions de recherche d internautes mis en ligne après avoir été anonymisées No. 4417749 [«homme célibataire de 60 ans», «informations sur chien»] Data linking et moins de 24 heures après Thelma Arnold veuve de 62 ans Lilburn, Georgie 30
Dimension Variety 31
Quelques Challenges? Dimension Variety Connaissances disponibles? ExperGse? Linking Data Open Data 32
Une seule source de données 33
En réalité Plus d une seule dimension! 34
Linking Data 35
Quels sont les autres challenges? Au moins deux grands challenges : IntégraGon des données InterprétaGon et analyse des données 36
IntégraGon 37
Comment analyser et interpréter? 38
Comment analyser et interpréter? Analyse de sengments dans les tweets Visual AnalyGcs Graphes de communautés De nouvelles abstracgons 39
La bonne quesgon? Dans quelles dimensions se situe mon projet? De gros volumes, Très variés, Vitesse rapide, Pas toujours juste ArGcles de presse? De gros volumes Très variés Blogs, Forums? REPONSE DIFFICILE De gros volumes, Disponibles rapidement Avec quelques erreurs Réseaux de capteurs? Google, Amazon, Twiver, etc 40
Conclusion Rechercher les données disponibles pour aider à la prise de décision! Les ougls sont encore à inventer! L éducagon est importante (Data ScienGst) De très nombreux challenges 41