TRAVAUX DE RECHERCHE DANS LE



Documents pareils
Masses de données et calcul : à l IRIT. 8 octobre 2013

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Les Entrepôts de Données

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

BIG DATA et DONNéES SEO

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Enjeux mathématiques et Statistiques du Big Data

Jean-François Boulicaut & Mohand-Saïd Hacid

BIG DATA et EDISCOVERY

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Institut français des sciences et technologies des transports, de l aménagement

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data et Graphes : Quelques pistes de recherche

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Big Data On Line Analytics

Business & High Technology

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Open Data. Enjeux et perspectives dans les télécommunications

Entrepôt de données 1. Introduction

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Big Data et Graphes : Quelques pistes de recherche

Gestion collaborative de documents

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Urbanisation des SI-NFE107

Introduction au Data-Mining

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Anticiper et prédire les sinistres avec une approche Big Data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

et les Systèmes Multidimensionnels

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Business Intelligence simple et efficace avec Excel et PowerPivot

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Extraction d informations stratégiques par Analyse en Composantes Principales

Les datas = le fuel du 21ième sicècle

La problématique de la formation et du recrutement des analystes. mars 2012

Les entreprises de 2020 seront dirigées par les Data Scientists

Pentaho Business Analytics Intégrer > Explorer > Prévoir

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Introduction au datamining

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

ISTEX, vers des services innovants d accès à la connaissance

Introduction à la B.I. Avec SQL Server 2008

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Ne cherchez plus, soyez informés! Robert van Kommer

1 INFORMATION - INFORMATIQUE. 11 Systèmes d'information gestion des connaissances, knowledge management

Présentation du module Base de données spatio-temporelles

Le nouveau visage de la Dataviz dans MicroStrategy 10

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Enhancing cybersecurity in LDCs thru multi-stakeholder networking and free software

La rencontre du Big Data et du Cloud

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

À PROPOS DE TALEND...

Labs Hadoop Février 2013

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Agenda de la présentation

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

THOT - Extraction de données et de schémas d un SGBD

Catalogue Formation «Vanilla»

Limitations of the Playstation 3 for High Performance Cluster Computing

Business Intelligence

Bigdata et Web sémantique. les données + l intelligence= la solution

4.2 Unités d enseignement du M1

Business Intelligence avec Excel, Power BI et Office 365

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Big Graph Data Forum Teratec 2013

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Journées Big Data à l ENSAI Big Data: les challenges, les défis

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Les Entrepôts de Données. (Data Warehouses)

PANORAMA DES MENACES ET RISQUES POUR LE SI

ETL Extract - Transform - Load

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Big Data & HR. Winter Dans quelle mesure le Big Data pourrait op2miser la prise de décision RH. Lynda ATIF 18/06/2015

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Introduction Big Data

Panorama des solutions analytiques existantes

Transcription:

TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

FREMIT: FÉDÉRATION DE RECHERCHE MATHÉMATIQUE & INFORMATIQUE Thèmes fédérateurs Imagerie médicale Fouille de masses de données Mathématiques discrètes Systèmes complexes et calculs haute performance Informatique, Philosophie, Mathématiques 2 http://www.irit.fr/fremit/

ACTIVITÉS DE LA FÉDÉRATION Projets collaboratifs Co-encadrement d étudiants (stages / thèses) Recherches communes Rencontres Séminaires Classification Imagerie médicale Visualisation Big data Open data 3 http://www.irit.fr/fremit/

BIG DATA 4

DIGITAL DATA Digital Analogique 1% 3% 6% 25% 99% 97% 75% 94% Exabytes 400 300 1986 1993 2000 2007 295 200 100 0 54 16 3 NOTE: Numbers may not sum to rounding Hilbert and Lopez, «The world s technological capacity to store, communicate, and compute information», Science, 2011 J. Manyika et al., Big data, the next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 5

TYPES Insurance Banking Communication and media Construction Education Gouvernement Health care Video Image Audio Texte/ Numbers Pénétration Low Medium High SOURCE: McKinsey Global Institute analysis J. Manyika et al., Big data, the next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 6

BIG DATA FROM INTERNET /WEB 2.0 En 60 secondes 70 nouveaux domaines 168 millions de mèls 694 445 requêtes. R. Kalakota, 2012 7

SOCIAL NETWORK Facebook users: 835 525 280 (march 2012) ½ via mobile 25 000 000 in France (penetration rate 38%) 8

BIG DATA Data which size is too large and complex to be treated (harversted, stored, analysed, spreaded) by usual system VVV : Volume, Velocity, Variety, Veracity Part of every sector, collected or supplied Sensors (cars, engines, meters, ) Traffic information on any network (roads, telecommunication, internet, water ) Internet: web and web 2.0 (emails, social networks, ) Science: medecine, astronomy, physics, Part of the global economy: many social and economic issues Traditional and new techniques and technologies 9

MANIPULATION DES BIG DATA TECHNIQUES ET TECHNOLOGIES Agréger, manipuler, analyser, visualiser Multidisciplinaire: informatique, statistique, mathématique appliquées, économie Techniques Analyse exploratoire et visualisation Apprentissage Calcul intensif Technologies Data warehouse / data smart MapReduce /NOSQL Cassandra/Hadoop Cloud computing 10

BIG DATA & FOUILLE Mathématiques Equipe ESP: recherches en Statistiques Modélisation aléatoire Biostatistique et Statistique Médicale Statistique fonctionnelle et Probabilités Matrices Aléatoires et Modèles Discrets Calcul stochastique Inégalités fonctionnelles et équations d évolution 11

BIG DATA & FOUILLE 12 J.-M. Loubès

J.-M. Loubès 13

J.-M. Loubès 14

BIG DATA & FOUILLE MASSE DE DONNÉES ET CALCUL 15 N. Aussenac

MASSE DE DONNÉES ET CALCUL Informatique Equipe APO Optimisation et Algèbre linéaire creuses 16 N. Aussenac

MASSE DE DONNÉES ET CALCUL Informatique Equipe VORTEX 17 N. Aussenac

MASSE DE DONNÉES ET CALCUL Informatique Equipe SIG Indexation de gros volumes de documents 1996 : 500 Mb 1998 : 2 Gb Puis : 200 Gb 2014 : 25 Tb Extraction d information Elicitation de structure ; granularité de l information Extraction de méta-données 18

MASSE DE DONNÉES ET CALCUL Informatique Equipe SIG Exploration d information Entrepôts documentaires et structure de data Warehouse Fouille de données Information sociale, médicale, journaux, web. 19

APPLICATIONS DU BIG DATA Veille scientifique et technologique Analyse de la concurrence Analyse des tendances Segmentation des clients et micro-segmentation Préférences des utilisateurs (réseaux sociaux) Analyse d informations multi-sources Réaction rapide aux pannes, à l image, aux effets Analyse d opinion Suivi de l identité numérique Suivi de produits, médicaments Détection de comportements atypiques Signaux faibles 20

CHAINE D ANALYSE GÉNÉRALE 5 Résultats d'analyse 1 1 2 2 3 4 4 5 Sélection Informations Filtrage Informations de d'information sources Extraction brutes Structures brutes d'informations Croisements initiales Première forme Analyse et visualisation Collecte (profil utilisateur collectées d'informations filtrées et Structure / stockées Homogénéisation domaine) d'analyse d'information de connaissances (entrepôts) Filtres (logique) d'extraction Dictionnaires 21

CHAINE D ANALYSE GÉNÉRALE Informations pour adapter - les méthodes d'analyse - les filtres d'extraction - les croisements - les requêtes 22

CHAINE D ANALYSE GÉNÉRALE Représentation de l information sous forme matricielle (table individus/variables ; table de contingences) 23

EXTRACTION D INFORMATION Représentation réduite d ensemble d information Tables avec agrégation CDS CEA contini, t pakull, m neumann, d vigroux, l Star Variable Star 2 6 1 6 Peculiar Star 3 9 1 4 Galaxy Cluster of Galaxy 6 1 4 3 Galaxy Nucleus 12 7 6 14 CDS CEA Star Variable Star 8 7 Peculiar Star 12 5 Galaxy Cluster of Galaxy 7 7 Galaxy Nucleus 19 20 Hiérarchie (Généricité/Spécificité) Star Variable star Peculiar star 24

ANALYSE DE FRÉQUENCE Analyse de fréquence Application: acteurs importants, évolution, relativité [Dousset, 2012] 25

ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Classification / catégorisation Regrouper des objets qui se ressemblent Associer des objets à des catégories prédéfinies ou apprises 26 [Baccini et al., 2011]

ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Analyse factorielle 27 [Baccini et al., 2011]

28 Tétralogie

ANALYSE DE DONNÉES MULTIDIMENSIONNELLES Analyse factorielle 29 [Dejean et al., 2013]

ANALYSE DE DONNÉES MULTIDIMENSIONNELLES 30 [Dejean et al., 2013]

GRAPHES ET RÉSEAUX DE COLLABORATION Réseaux géographique et thématique 31 [Mothe et al., 2005]

ENJEUX By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the knowhow to use the analysis of big data to make effective decisions the McKinsey Global Institute, juin 2011, Big data: The next frontier for innovation, competition, and productivity 32

FREINS Hétérogénéité des informations Formats (article vs tweet vs vidéo) Fiabilité (objectif, qualité, ) Technique et technologique Matériel (capacité, sécurité) Logiciel Organisationnel Compétences 33