Masses de données et calcul : à l IRIT. 8 octobre 2013



Documents pareils
TRAVAUX DE RECHERCHE DANS LE

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Open Data. Enjeux et perspectives dans les télécommunications

«Les projets collaboratifs pour les nuls»

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Limitations of the Playstation 3 for High Performance Cluster Computing

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Master Informatique Aix-Marseille Université

Big Data On Line Analytics

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues


Conception des systèmes répartis

TABLE RONDE #1 TABLE RONDE

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Jean-François Boulicaut & Mohand-Saïd Hacid

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

et les Systèmes Multidimensionnels

Rencontre sur la thématique du Calcul Haute Performance - 13 juin Better Match, Faster Innovation

Solution documentaire globale. Présentation du 14 janvier 2010

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Solutions 3D innovantes pour la communication, la vente et la formation.

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Université Libre de Tunis

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Rédiger : le numérique dans la préparation de la thèse

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Cartographie Mobile à MINES ParisTech

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

THOT - Extraction de données et de schémas d un SGBD

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Créateur d innovation 3D

Big Data et la santé

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

SQL Server 2012 et SQL Server 2014

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Quels apprentissages info-documentaires au collège?

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Emergence du Big Data Exemple : Linked Open Data

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Architectures d implémentation de Click&DECiDE NSI

Emergence du Big Data Exemple : Linked Open Data

Marc SALLIERES CEO ALTIC

Panorama des études à travers les filières. FEEL du 23 octobre 2014

ArcGIS 10 Christophe Tourret Gaëtan Lavenu

Big Data et Graphes : Quelques pistes de recherche

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Gestion collaborative de documents

GREENTIC. Multimédia et TIC au service du développement durable

ISTEX, vers des services innovants d accès à la connaissance

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Assemblée générale Aristote

Le Cloud. Généralités & Sécurité. Valentin Lecerf Salon du multimédia et de la photo Proville

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Innovations Majeures de la Version 4

Business Intelligence avec Excel, Power BI et Office 365

Dailymotion: La performance dans le cloud

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

4.2 Unités d enseignement du M1

Visite de presse. Le supercalculateur Tera - 10

Big data et sciences du Vivant L'exemple du séquençage haut débit

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

Présentation du module Base de données spatio-temporelles

Journée Futur et Ruptures 2015

Découverte et investigation des menaces avancées PRÉSENTATION

Le Social CRM comme levier de développement pour les entreprises

BIG DATA en Sciences et Industries de l Environnement

OFFRES DE SERVICES SDS CONSULTING

LIDAR LAUSANNE Nouvelles données altimétriques sur l agglomération lausannoise par technologie laser aéroporté et ses produits dérivés

L informatique à l IN2P3 et le rôle du Chargé de Mission

Couplage d une base de données documentaire à une visualisation interactive 3D sur l Internet

MAIDESC - KO 21 Novembre 2013 Etienne Wey Alexandre Boilley

Infrastructure de calcul du CRRI

SIG Propreté. Mehdi Huguet

Urbanisation des SI-NFE107

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Les Entrepôts de Données

Parcours DIWEB : (Données, Interaction et Web)

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

Les technologies du Big Data

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Parcours Conception, Modélisation et Architecture des Systèmes Informatiques Complexes mention Informatique Paris-Saclay

Transcription:

Masses de données et calcul : la recherche en lien avec les Big Data à l IRIT 8 octobre 2013 08/10/2013 1

L IRIT en qq chiffres 700 personnes sur tous les sites toulousains 5 tutelles 7 thèmes et 21 équipes Nombreuses collaborations et contrats 08/10/2013 journée de rencontre Big Data 2

Masse de données et Calcul à l IRIT Des problématiques de recherche établies Des infrastructures Zoom sur quelques projets Une volonté de collaboration et visibilité 08/10/2013 journée de rencontre Big Data 3

Big Data continuité et renouvellement Les équipes IRIT traitent de gros volumes de données Infrastructure, sytèmes d information, imagerie, traitements numériques, simulation, analyse du langage, etc. Contexte R&D toulousain : des problèmes big data MétéoFrance, aéronautique, chercheurs en astronomie, en biologie Centres de calcul météo, CICT et CERFACS, CALMIP Les verrous liés aux big data Données plus complexes, nombreuses, structurées Traitements répétés, temps réel, au fur et à mesure de la production des données Problématiser le passage à l échelle, les performances 08/10/2013 journée de rencontre Big Data 4

Masses de données et calcul à l IRIT Contexte Données complexes : Hétérogénéité, Qualité, Volume Processus : Rechercher, analyser, indexer, fouiller, explorer, simuler, Ressources matérielles en constante évolution Multithreading, processeurs vectoriels et calculateurs Petaflopiques Problématiques Accessibilité, évaluation et Intelligibilité des données Accès transparent, caractérisation sémantique, agrégation de réponses Interactions Utilisateurs-Processus-Données Prise en compte des contextes : utilisateur, données, environnement, traitement temps réel, gestion de flux Souplesse et robustesse d'accés aux ressources Adapter ressources matérielles et logicielles Intégrer l évolution des matériels : noeuds hybrides (processeurs cell et multicoeurs) des architectures Petaflops 08/10/2013 journée de rencontre Big Data 5

Compétences IRIT Recherche d information / systèmes d information RI contextuelle; RI sémantique, RI agrégée Fouille, navigation dans les données, visualisation Documents multimédia Annotation de vidéo/son/image Indexation, fusion d'index audio et vidéo, Macro-segmentation en émissions de télévision Web sémantique et sémantique de corpus Extraction d information et de données liées à partir de textes, alignement d ontologies, annotation sémantique Modèles distributionnels de sémantique lexicale sur de très grands corpus (To) Traitements massifs et distribués, grilles Simulation et expérience ssur architectures massivement parallèles Optimisation de requêtes à grande échelle Outils théoriques pour le traitement de l information 08/10/2013 journée de rencontre Big Data 6

Infrastructures IRIT Plate-forme OSIRIM (CPER 2007-2013) http://osirim.irit.fr/ Matériel (baie de stockage ~407 To, cluster de calcul ~10 nœuds soit 64 coeurs) données : 30 To de textes + contenus TV (plusieurs 10M heures) Services : indexation, recherche d info., résultats d expérimentations Gestion des campagnes d évaluation (Quaero) CLOUDMIP / GRIDMIP / GRID5000 infrastructures de calculs sur grille et clouds GRID-TLSE : Services logiciels (calcul) déployés sur la grille : calcul haute performance sur données en bio-informatique, données aéronautiques etc. http://www.irit.fr/-grid-5000-?lang=fr 08/10/2013 journée de rencontre Big Data 7

Une bonne couverture des thématiques identifiées au niveau national http://www.dgcis.gouv.fr/secteurs-professionnels/coeur-filiere-numerique Logiciel embarqué et objets connectés SMAC SEPIA Cloud Computing SEPIA Entreposage SIG, Pyramide, Projet SVC, Lilac MACAO Calcul intensif numérique APO, VORTEX, fouille, calcul matriciel SIG, MELODI Apprentissage APPLICATIONS Transport aérien Agrobiologie, génomique Recherche d information, sémantique textuelle Images, indexation vidéo Serious games, animation de peintures et graphique Santé : Imagerie médicale et données patients Archivage / analyse de données complexes (spectres à haute résolution) 08/10/2013 journée de rencontre Big Data 8

Zoom : données en recherche / extraction d information textuelle Recherche d information textuelle (SIG, MELODI, SAMOVA) Indexation de gros volumes de documents 1996 : 500 Mb 1998 : 2 Gb Puis : 200 Gb 2014 : 25 Tb Extraction d information Elicitation de structure ; granularité de l information Extraction de méta-données

Zoom : information et données Exploration et visualisation d information (SIG, SAMOVA) Entrepôts documentaires, structure de data Warehouse Thèse «masse de données» : automatiser l entreposage multidimensionnel de données ouvertes Fouille de données Information sociale, médicale, journaux, web Images de synthèse et visualisation de gros3d

Zoom : analyse numérique (APO) Problèmes «faciles» et «difficiles» Même des problèmes «simples» et «réguliers» peuvent devenir complexes quand le nombre de variables devient très grand - Ex: système à n équations et n inconnues - Facile : Résoudre le système: 2x+3y=8 3x+2y=7 Difficile : traiter plusieurs millions d équations et de variables Complexité mathématiques : étude de la stabilité numérique, de la précision numérique, Complexité informatique : implantation du code (distribuée)

Zoom : analyse numérique (APO) Problèmes «faciles» et «difficiles» Maillage et partitionnement d un carter de moteurs Objectif : simulation sur calculateurs multiprocesseurs (courtesy of EDF Code_Aster) Détection de champs pétrolifères consortium SEISCOPE (TOTAL, BP, SHELL, ) déduire la structure du sol à partir de mesures sismiques Problème = résolution d un système d algèbre linéaire Verrous: algèbre linéaire creuse impliquant des millions de variables.

Zoom : synthèse d images (VORTEX) Réalité virtuelle Données : images animées pour simulation + prise en compte du réel (co-animation) Traitements : calcul en temps réel Edition interactive du rendu en synthèse d'image Données : contexte du rendu hors-ligne de haute qualité Traitements : échantillonage des fonctions de transport lumineux ; utilisation de rayons 1 à 96 Go de données/image ; éditer des images fixes puis propager sur l'animation. Peinture animée Données : photographies d images peintes sur des vitres ; sélectionner des zones du tableau (coups de pinceaux à l'origine de la couler d'un pixel) ; 30 Go d'identifiants des coups de pinceaux par image passer d'une méthode manuelle (peindre des vitres et photographier puis animer les photos) à une génération de vidéo Traitements : animation stylisée à partir d'une vidéo 08/10/2013 journée de rencontre Big Data 13

Zoom : Secure Virtual Cloud (VORTEX et SEPIA) But : Créer une infrastructure virtuelle en environnement cloud Garantir la sécurité d exécution et la confidentialité des données hébergées. Moyen : adapter les compétences en simulation au traitement comportemental de remontées de sondes situées dans l infrastructure afin de déclencher des alertes de sécurité. distribution et confidentialité des données en créant un filesystem distribué. labellisé dans le cadre des investissements d avenir lors de l appel e-cloud n2. 08/10/2013 journée de rencontre Big Data 14

Vers de nouvelles collaborations? Au delà du phénomène de mode problématiser le changement d échelle identifier de nouvelles opportunités - Nationales : - appel Mastodons (1 éq. IRIT), - Investissement d avenir (appel 2012, BioDataCloud avec 2 eq. IRIT) - Locales : - volonté de l UPS -> contact avec des producteurs de données, identification de besoins - Collaborations renforcées grâce à Fremit et au Labex CIMI - Coordination au sein de l IRIT : axe stratégique depuis 2010 http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr 08/10/2013 journée de rencontre Big Data 15

Contacts Infrastructure OSIRIM : Ph Joly, eq. SAMOVA CLOUD : JM Pierson, eq SEPIA Données textuelles, archivage, visualisation,confiance et RI SIG (resp. J. Mothe, G. Hubert, Dousset, M. Chevalier, O. Teste, ) MELODI (N. Aussenac, Ph. Muller, T. Van de Cruyse, ) Web sémantique, données liées MELODI (C. Trojhan, L. Vieu, O Haemmerlé, N. Hernandez ) SIG (O. Teste, L. Lechani) Images, animation, réalité virtuelle, visualisation VORTEX (H. Luga) Calcul numérique, optimisation APO (J.M. Alliot) Sécurité, fiabilité ACADIE Axe masse de données et calcul M. Boughanem (SIG), N. Aussenac-Gilles (MELODI) Thématique Machine Learning dans CIMI S. Afantenos (MELODI), M. Serrurier (Adria) S Mouysset. (APO) 08/10/2013 journée de rencontre Big Data 16