TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
FREMIT: FÉDÉRATION DE RECHERCHE MATHÉMATIQUE & INFORMATIQUE Thèmes fédérateurs Imagerie médicale Fouille de masses de données Mathématiques discrètes Systèmes complexes et calculs haute performance Informatique, Philosophie, Mathématiques 2 http://www.irit.fr/fremit/
ACTIVITÉS DE LA FÉDÉRATION Projets collaboratifs Co-encadrement d étudiants (stages / thèses) Recherches communes Rencontres Séminaires Classification Imagerie médicale Visualisation Big data Open data 3 http://www.irit.fr/fremit/
BIG DATA 4
DIGITAL DATA Digital Analogique 1% 3% 6% 25% 99% 97% 75% 94% Exabytes 400 300 1986 1993 2000 2007 295 200 100 0 54 16 3 NOTE: Numbers may not sum to rounding Hilbert and Lopez, «The world s technological capacity to store, communicate, and compute information», Science, 2011 J. Manyika et al., Big data, the next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 5
TYPES Insurance Banking Communication and media Construction Education Gouvernement Health care Video Image Audio Texte/ Numbers Pénétration Low Medium High SOURCE: McKinsey Global Institute analysis J. Manyika et al., Big data, the next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 6
BIG DATA FROM INTERNET /WEB 2.0 En 60 secondes 70 nouveaux domaines 168 millions de mèls 694 445 requêtes. R. Kalakota, 2012 7
SOCIAL NETWORK Facebook users: 835 525 280 (march 2012) ½ via mobile 25 000 000 in France (penetration rate 38%) 8
BIG DATA Data which size is too large and complex to be treated (harversted, stored, analysed, spreaded) by usual system VVV : Volume, Velocity, Variety, Veracity Part of every sector, collected or supplied Sensors (cars, engines, meters, ) Traffic information on any network (roads, telecommunication, internet, water ) Internet: web and web 2.0 (emails, social networks, ) Science: medecine, astronomy, physics, Part of the global economy: many social and economic issues Traditional and new techniques and technologies 9
MANIPULATION DES BIG DATA TECHNIQUES ET TECHNOLOGIES Agréger, manipuler, analyser, visualiser Multidisciplinaire: informatique, statistique, mathématique appliquées, économie Techniques Analyse exploratoire et visualisation Apprentissage Calcul intensif Technologies Data warehouse / data smart MapReduce /NOSQL Cassandra/Hadoop Cloud computing 10
BIG DATA & FOUILLE Mathématiques Equipe ESP: recherches en Statistiques Modélisation aléatoire Biostatistique et Statistique Médicale Statistique fonctionnelle et Probabilités Matrices Aléatoires et Modèles Discrets Calcul stochastique Inégalités fonctionnelles et équations d évolution 11
BIG DATA & FOUILLE 12 J.-M. Loubès
J.-M. Loubès 13
J.-M. Loubès 14
BIG DATA & FOUILLE MASSE DE DONNÉES ET CALCUL 15 N. Aussenac
MASSE DE DONNÉES ET CALCUL Informatique Equipe APO Optimisation et Algèbre linéaire creuses 16 N. Aussenac
MASSE DE DONNÉES ET CALCUL Informatique Equipe VORTEX 17 N. Aussenac
MASSE DE DONNÉES ET CALCUL Informatique Equipe SIG Indexation de gros volumes de documents 1996 : 500 Mb 1998 : 2 Gb Puis : 200 Gb 2014 : 25 Tb Extraction d information Elicitation de structure ; granularité de l information Extraction de méta-données 18
MASSE DE DONNÉES ET CALCUL Informatique Equipe SIG Exploration d information Entrepôts documentaires et structure de data Warehouse Fouille de données Information sociale, médicale, journaux, web. 19
APPLICATIONS DU BIG DATA Veille scientifique et technologique Analyse de la concurrence Analyse des tendances Segmentation des clients et micro-segmentation Préférences des utilisateurs (réseaux sociaux) Analyse d informations multi-sources Réaction rapide aux pannes, à l image, aux effets Analyse d opinion Suivi de l identité numérique Suivi de produits, médicaments Détection de comportements atypiques Signaux faibles 20
CHAINE D ANALYSE GÉNÉRALE 5 Résultats d'analyse 1 1 2 2 3 4 4 5 Sélection Informations Filtrage Informations de d'information sources Extraction brutes Structures brutes d'informations Croisements initiales Première forme Analyse et visualisation Collecte (profil utilisateur collectées d'informations filtrées et Structure / stockées Homogénéisation domaine) d'analyse d'information de connaissances (entrepôts) Filtres (logique) d'extraction Dictionnaires 21
CHAINE D ANALYSE GÉNÉRALE Informations pour adapter - les méthodes d'analyse - les filtres d'extraction - les croisements - les requêtes 22
CHAINE D ANALYSE GÉNÉRALE Représentation de l information sous forme matricielle (table individus/variables ; table de contingences) 23
EXTRACTION D INFORMATION Représentation réduite d ensemble d information Tables avec agrégation CDS CEA contini, t pakull, m neumann, d vigroux, l Star Variable Star 2 6 1 6 Peculiar Star 3 9 1 4 Galaxy Cluster of Galaxy 6 1 4 3 Galaxy Nucleus 12 7 6 14 CDS CEA Star Variable Star 8 7 Peculiar Star 12 5 Galaxy Cluster of Galaxy 7 7 Galaxy Nucleus 19 20 Hiérarchie (Généricité/Spécificité) Star Variable star Peculiar star 24
ANALYSE DE FRÉQUENCE Analyse de fréquence Application: acteurs importants, évolution, relativité [Dousset, 2012] 25
ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Classification / catégorisation Regrouper des objets qui se ressemblent Associer des objets à des catégories prédéfinies ou apprises 26 [Baccini et al., 2011]
ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Analyse factorielle 27 [Baccini et al., 2011]
28 Tétralogie
ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Analyse factorielle 29 [Dejean et al., 2013]
ANALYSE DE DONNÉES MULTIDIMENSIONNELLES 30 [Dejean et al., 2013]
GRAPHES ET RÉSEAUX DE COLLABORATION Réseaux géographique et thématique 31 [Mothe et al., 2005]
ENJEUX By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the knowhow to use the analysis of big data to make effective decisions the McKinsey Global Institute, juin 2011, Big data: The next frontier for innovation, competition, and productivity 32
FREINS Hétérogénéité des informations Formats (article vs tweet vs vidéo) Fiabilité (objectif, qualité, ) Technique et technologique Matériel (capacité, sécurité) Logiciel Organisationnel Compétences 33