Flash : Optimisation de graines et indexation des banques génomiques sur mémoire ash recongurable



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

10. Base de données et Web. OlivierCuré

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Dossier d autorisation à mettre en oeuvre le C2i2e

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Physiopathologie : de la Molécule à l'homme

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Possibilités offertes après la L2?

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Guide de candidature Master 2 ARIA

Calcul Haute Performance & Données

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Analyse des données de séquençage massif par des méthodes phylogénétiques

Jean-François Boulicaut & Mohand-Saïd Hacid

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Identification de nouveaux membres dans des familles d'interleukines

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Université Libre de Tunis

MABioVis. Bio-informatique et la

Métriques, classements et politique scientifique des Etablissements

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Utiliser Access ou Excel pour gérer vos données

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Statistiques et traitement des données

Eco-système calcul et données

Master Informatique Aix-Marseille Université

ReMeD Réseau Médicaments et Développement EVOLUTION DE L INSPECTION PHARMACEUTIQUE

CENTRE NATIONAL DE LA FONCTION PUBLIQUE TERRITORIALE ASSISTANTE DE DIRECTION

M a s t e r Mention «Information et communication dans les organisations»

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Jean-Pierre Lovinfosse. En finir. avec les virus. Groupe Eyrolles,2004 ISBN

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Windows Server 2012 Les bases indispensables pour administrer et configurer votre serveur

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Soutenance de stage Laboratoire des Signaux et Systèmes

Le projet lauréat du concours d'architectes organisé par l'université Paris 13, maître d'ouvrage, est celui de la jeune Agence Search.

Big Data et la santé

Pour chaque projet est indiqué son titre, le ou les laboratoires participants ainsi que le coordinateur

Conception et Intégration de Systèmes Critiques

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

OBJECTIFS. Une démarche E-science

Optimisations des SGBDR. Étude de cas : MySQL

BIG DATA en Sciences et Industries de l Environnement

Référentiel des métiers de la documentation, des bibliothèques et des archives dans la fonction publique hospitalière

Masses de données et calcul : à l IRIT. 8 octobre 2013

Optimiser le référencement naturel de son site web

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Soutien pour la formation à la recherche translationnelle en cancérologie

ECTS CM TD TP. 1er semestre (S3)

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

UNIVERSITE DE BREST Référence GALAXIE : 4201

Oracle 11g Optimisez vos bases de données en production (ressources matérielles, stockage, mémoire, requêtes)

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

DUT Informatique, orientation Imagerie Numérique

Plan de cours - Plein temps Bachelor Business Law. Semestre 1 Semestre 2

Extrait des Exploitations Pédagogiques

Trend Micro Worry-Free Business Security 8.0 Première installation : trucs et astuces

Enregistrement et transformation du son. S. Natkin Novembre 2001

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

Manuel d'utilisation de Wapam

Introduction au Data-Mining


Département Génie industriel & mathématiques appliquées Option ISDP Ingénierie des systèmes de décision et de production

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Liste des matières enseignées

UE 8 Systèmes d information de gestion Le programme

Le Master Mathématiques et Applications

Master Développement et Immunologie

Big Data et Graphes : Quelques pistes de recherche

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

COTISATIONS VSNET 2015

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

<Insert Picture Here> Solaris pour la base de donnés Oracle

ndv access point : Installation par clé USB

Certificat Informatique et internet Niveau 1 TD D1. Domaine 1 : Travailler dans un environnement numérique évolutif. 1. Généralités : Filière

Firewall IDS Architecture. Assurer le contrôle des connexions au. Sécurité 1

Citrix XenApp 7.5 Concepts et mise en oeuvre de la virtualisation d'applications

PUBLIC CONCERNE Toute personne chargée de recruter dans le cadre du placement, du recrutement et de l intérim

Groupe Eyrolles, 2004, ISBN :

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Algorithmique & programmation

Plan de Continuité d'activité Concepts et démarche pour passer du besoin à la mise en oeuvre du PCA

Sécuristation du Cloud

Caches sémantiques coopératifs pour la gestion de données sur grilles

Transcription:

Flash : Optimisation de graines et indexation des banques génomiques sur mémoire ash recongurable Journées nationales des ARC 2007 Pierre Peterlongo IRISA, Symbiose, INRIA / CNRS / Université Rennes 1 http://www.irisa.fr/remix/arc.html 1-2 Octobre 2007 1/14

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 2/14

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 3/14

Motivations biologiques Détection de similarités dans les séquences biologiques Étape indispensable d'études biologiques Besoins grandissants : Augmentation exponentielle de la taille des banques de données Intérêts dans des similarités moins fortes 4/14

ReMIX Point de départ... A Recongurable Memory for IndeXation Stockage d'index de très grosse taille Traitement d'information rapide Qualités principales Large stockage (512 GB) Parallélisme à gros grain Parallélisme à grain n 5/14

Concrètement Trois axes de recherche principaux 1. Synthèse d'architecture Équipe IP Design LESTER Lorient Équipe-projet Symbiose, INRIA Rennes E. Casseau H. Daroles G. Georges D. Lavenier 6/14

Concrètement Trois axes de recherche principaux 1. Synthèse d'architecture Équipe IP Design LESTER Lorient Équipe-projet Symbiose, INRIA Rennes E. Casseau H. Daroles G. Georges D. Lavenier 2. Comparaison massive de génomes eucaryotes contre procaryotes INSERM U694 Angers Équipe-projet Symbiose, INRIA Rennes M. Ferre Y. Tourmen G. Georges D. Lavenier 6/14

Concrètement Trois axes de recherche principaux 1. Synthèse d'architecture Équipe IP Design LESTER Lorient Équipe-projet Symbiose, INRIA Rennes E. Casseau H. Daroles G. Georges D. Lavenier 2. Comparaison massive de génomes eucaryotes contre procaryotes INSERM U694 Angers Équipe-projet Symbiose, INRIA Rennes 3. Optimisation Algorithmique / matérielle M. Ferre Y. Tourmen G. Georges D. Lavenier Équipe-projet Sequoia, LIFL, INRIA Futurs Lille Équipe-projet Symbiose, INRIA Rennes 6/14 M. Giraud G. Kucherov L. Noé G. Georges J. Jacques D. Lavenier P. Peterlongo

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 7/14

Synthèse d'architecture (LESTER, Symbiose) [H. Darolles. Synthèse automatique sur plateforme FPGA, juin 2006] [H. Darolles, plateforme ReMIX manuel d'utilisation, mai 2006] Contexte Programmation des FPGA Problématique : Adapter GAUT à ReMIX 8/14

Synthèse d'architecture (LESTER, Symbiose) [H. Darolles. Synthèse automatique sur plateforme FPGA, juin 2006] [H. Darolles, plateforme ReMIX manuel d'utilisation, mai 2006] Contexte Programmation des FPGA Problématique : Adapter GAUT à ReMIX 8/14

Synthèse d'architecture (LESTER, Symbiose) [H. Darolles. Synthèse automatique sur plateforme FPGA, juin 2006] [H. Darolles, plateforme ReMIX manuel d'utilisation, mai 2006] Contexte Programmation des FPGA Problématique : Adapter GAUT à ReMIX Résultats obtenus Stage M2 H. Darolles Interface GAUT/ReMIX 8/14

Synthèse d'architecture (LESTER, Symbiose) [H. Darolles. Synthèse automatique sur plateforme FPGA, juin 2006] [H. Darolles, plateforme ReMIX manuel d'utilisation, mai 2006] Contexte Programmation des FPGA Problématique : Adapter GAUT à ReMIX Résultats obtenus Stage M2 H. Darolles Interface GAUT/ReMIX Environnement de simulation Dicultés rencontrées GAUT initialement prévu pour le traitement du signal Départ de notre contact au LESTER. 8/14

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 9/14

Comparaison massive de génomes (INSERM U694 Angers, Symbiose) [D. Lavenier, X. Xinchun, G. Georges, IEEE FPT 2006] Contexte But : Détection de protéines d'origine mitochondriales Moyen : Comparaison (blast) de 270 génomes d'archeae et d'eubactéries contre des génomes eucaryotes Diculté : Temps de calculs (estimé à 27 mois pour le génome humain) 10/14

Comparaison massive de génomes (INSERM U694 Angers, Symbiose) [D. Lavenier, X. Xinchun, G. Georges, IEEE FPT 2006] Fait Contexte But : Détection de protéines d'origine mitochondriales Moyen : Comparaison (blast) de 270 génomes d'archeae et d'eubactéries contre des génomes eucaryotes Diculté : Temps de calculs (estimé à 27 mois pour le génome humain) Mise en oeuvre sur ReMIX 400 000 protéines vs. génome humain 11 jours contre 27 mois Résultats en cours de traitement 10/14

Comparaison massive de génomes (INSERM U694 Angers, Symbiose) [D. Lavenier, X. Xinchun, G. Georges, IEEE FPT 2006] Contexte But : Détection de protéines d'origine mitochondriales Moyen : Comparaison (blast) de 270 génomes d'archeae et d'eubactéries contre des génomes eucaryotes Diculté : Temps de calculs (estimé à 27 mois pour le génome humain) Fait Mise en oeuvre sur ReMIX 400 000 protéines vs. génome humain 11 jours contre 27 mois Résultats en cours de traitement Comment? Utilisation de graine simple ### Stockage d'index sur FLASH Filtrage des données sur FPGA 10/14

Comparaison massive de génomes (INSERM U694 Angers, Symbiose) [D. Lavenier, X. Xinchun, G. Georges, IEEE FPT 2006] Contexte But : Détection de protéines d'origine mitochondriales Moyen : Comparaison (blast) de 270 génomes d'archeae et d'eubactéries contre des génomes eucaryotes Diculté : Temps de calculs (estimé à 27 mois pour le génome humain) Fait Mise en oeuvre sur ReMIX 400 000 protéines vs. génome humain 11 jours contre 27 mois Résultats en cours de traitement Comment? Utilisation de graine simple ### Stockage d'index sur FLASH Filtrage des données sur FPGA base pour les améliorations futures 10/14

Comparaison massive de génomes (INSERM U694 Angers, Symbiose) [D. Lavenier, X. Xinchun, G. Georges, IEEE FPT 2006] Contexte But : Détection de protéines d'origine mitochondriales Moyen : Comparaison (blast) de 270 génomes d'archeae et d'eubactéries contre des génomes eucaryotes Diculté : Temps de calculs (estimé à 27 mois pour le génome humain) Fait Mise en oeuvre sur ReMIX 400 000 protéines vs. génome humain 11 jours contre 27 mois Résultats en cours de traitement Comment? Utilisation de graine simple ### Stockage d'index sur FLASH Filtrage des données sur FPGA base pour les améliorations futures 10/14

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 11/14

Avancées algorithmiques (Séquoia Lille, Symbiose) [P. Peterlongo, L. Noé, D. Lavenier, G. Georges, J. Jacques, G. Kucherov, M. Giraud, PBC 2007] [M. Giraud, G. Kucherov, D. Lavenier, L. Noé, P. Peterlongo, LAW 2007] Contexte But : Amélioration algorithmique (temps et sensibilité) Moyen : Conception de graines avancées, appelées graines subset 12/14

Avancées algorithmiques (Séquoia Lille, Symbiose) [P. Peterlongo, L. Noé, D. Lavenier, G. Georges, J. Jacques, G. Kucherov, M. Giraud, PBC 2007] [M. Giraud, G. Kucherov, D. Lavenier, L. Noé, P. Peterlongo, LAW 2007] Contexte But : Amélioration algorithmique (temps et sensibilité) Moyen : Conception de graines avancées, appelées graines subset 12/14

Avancées algorithmiques (Séquoia Lille, Symbiose) [P. Peterlongo, L. Noé, D. Lavenier, G. Georges, J. Jacques, G. Kucherov, M. Giraud, PBC 2007] [M. Giraud, G. Kucherov, D. Lavenier, L. Noé, P. Peterlongo, LAW 2007] Contexte But : Amélioration algorithmique (temps et sensibilité) Moyen : Conception de graines avancées, appelées graines subset Fait Création d'ensembles de graines subset @ 1 @ 2 @ 3 @ 2 Répartition des graines sur les cartes ReMIX 12/14

Avancées algorithmiques (Séquoia Lille, Symbiose) [P. Peterlongo, L. Noé, D. Lavenier, G. Georges, J. Jacques, G. Kucherov, M. Giraud, PBC 2007] [M. Giraud, G. Kucherov, D. Lavenier, L. Noé, P. Peterlongo, LAW 2007] Contexte But : Amélioration algorithmique (temps et sensibilité) Moyen : Conception de graines avancées, appelées graines subset Résultats Accélération algorithmique : 25% (Accélération matérielle : 13) Avenir But : Réduction taille d'index Pourquoi? Réduction espace et temps 12/14

Overview Axes de recherches Synthèse d'architecture Comparaison massive de génomes Avancées algorithmiques Conclusion 13/14

Pour résumer Buts initiaux 1. Synthèse d'architecture 2. Application à la comparaison massive 3. Avancées algorithmiques Fait 1. GAUT/ReMIX Environnement de simulation interface ReMIX 2. Détection d'alignements 11 jours contre 27 mois 3. Mise en place théorique et pratique de subset seeds Amélioration algorithmique pure Accélération matérielle 14/14

Pour résumer Buts initiaux 1. Synthèse d'architecture 2. Application à la comparaison massive 3. Avancées algorithmiques Fait 1. GAUT/ReMIX Environnement de simulation interface ReMIX 2. Détection d'alignements 11 jours contre 27 mois 3. Mise en place théorique et pratique de subset seeds Amélioration algorithmique pure Accélération matérielle Travaux en cours et à venir Limitation de taille d'index Préparation d'une version étendue PBC Exploration de nouvelles techniques En pratique d'indexation de comparaison Collaboration fructueuse Séquoia/Symbiose Nombreuses visites Passées À venir 14/14