La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.



Documents pareils
Introduction aux bases de données: application en biologie

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

MABioVis. Bio-informatique et la

Base de données bibliographiques Pubmed-Medline

Perl Orienté Objet BioPerl There is more than one way to do it

GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

Identification de nouveaux membres dans des familles d'interleukines

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Extraction d information des bases de séquences biologiques avec R

Big data et sciences du Vivant L'exemple du séquençage haut débit

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Gènes Diffusion - EPIC 2010

Bibliographie Introduction à la bioinformatique

Introduction à la B.I. Avec SQL Server 2008

Limitations of the Playstation 3 for High Performance Cluster Computing

Business & High Technology

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Recherche et veille documentaire scientifique

Bases de données et outils bioinformatiques utiles en génétique

CONTRAT DE LICENCE DE REUTILISATION DES INFORMATIONS PUBLIQUES MONTPELLIER AGGLOMERATION EN ACCES LIBRE

Big data : vers une nouvelle science des risques?

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Gestion des bases SQL Server Microsoft Guide pratique

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Passage du marketing par à l automatisation du marketing

Prédiction de la structure d une

Perdu dans la jungle des droits d accès?

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Réseau sur. Médicaments. l Innocuité et l Efficacité des. Document d orientation pour la présentation de requêtes au RIEM

SERVICE COMMUN DE MICROSCOPIE

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

PG208, Projet n 3 : Serveur HTTP évolué

FAIRE UN PAIEMENT TIPI

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

Qu est ce que le référencement web?

Calcul intensif pour la biologie

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Guide de l utilisateur Faronics System Profiler Standard

TD de Biochimie 4 : Coloration.

Caches sémantiques coopératifs pour la gestion de données sur grilles

Solutions hautes performances pour le gardiennage et la surveillance

FOURNIR DES SERVICES NUMÉRIQUES DANS LE SECTEUR PUBLIC

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Infolettre #18 : Les graphiques avec Excel 2010

A L ERT. Pour démarrer rapidement avec

Licence ODbL (Open Database Licence) - IdéesLibres.org

VMWare Infrastructure 3

Conseils + Centraux téléphoniques + Téléphones + Helpdesk + Maintenance + Garantie

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

IBM* DB2 Universal Database* Tutoriel Business Intelligence : Introduction à Data Warehouse Center

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Projet thématique du réseau AEHESIS

Création WEB avec DreamweaverMX

Système de Gestion de Fichiers

Comment rembourser votre hypothèque plus rapidement

Votre guide des des polices d assurance-vie avec participation. de la Great-West

Micro-ordinateurs, informations, idées, trucs et astuces. Utiliser les services de fichiers

4.2 Unités d enseignement du M1

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Rétablissement d un réseau cellulaire après un désastre

Algorithmique et langages du Web

Mode operatoire Reseau pedagogique

Guide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique

Sauvegarde et Restauration d un environnement SAS

Introduc)on à Ensembl/ Biomart : Par)e pra)que

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement

Protocoles DHCP et DNS

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Algorithmique et systèmes répartis

Service On Line : Gestion des Incidents

Impact de l ESRF et de son programme de revalorisation

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

COMMENCER AVEC VUE. Chapitre 1

Système de Communications Avancées by Pulsar VoIP. Pulsar VoIP - Automation Design - chemin des aulx Genève -

Configurer le pare-feu de Windows XP SP2 pour WinReporter

Créer et partager des fichiers

UTILISER WORD. Présentation générale de Word. Voici quelques éléments à savoir en démarrant Word.

Air Transat. Contexte. Buts. Défis. Solution. Industry Travelling, Transport

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Les accès à Admission-Postbac

Mise à jour : Octobre 2011

Thibault Denizet. Introduction à SSIS

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

CLOUD PUBLIC, PRIVÉ OU HYBRIDE : LEQUEL EST LE PLUS ADAPTÉ À VOS APPLICATIONS?

Plus courts chemins, programmation dynamique

Pourquoi l apprentissage?

PROJET ARCHI WINDOWS SERVER

Transcription:

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12

L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche d homologies entre une séquence et une banque de séquences. Il emploie une méthode heuristique limitant la recherche à des séquences plus susceptibles de présenter un bon alignement avec la séquence requête. L algorithme est basé sur l hypothèse que deux séquences présentant de fortes similarités doivent contenir des sous-séquences identiques ou très proches. Il repère ces sous-séquences et les étend tant que possible. Il attribue un score de similarité qui déterminera si la séquence doit être retenue. - p. 2/12

Exemple. BLAST trouve une région de similarité avec un alignement de taille 10 (paramètre) qu il va ensuite étendre. A C A G T A A T T T C A G T A C T T - - - - - - - A C T T C A A C C T C A G T A C C G C T A T T T A G C A T G A A T T G C - - C A A T T T A G C A T G A A T T G A A C G A A A G G T A C T A G G A T C - - - A C G A A T G G T C C T A G G A T T - p. 3/12

Sensibilité. Les paramètres, notamment la taille de l alignement de départ, influent largement sur la sensibilité (capacité à ne pas rater de bon alignement). Ainsi, une valeur trop grande, si elle accélère grandement le temps d éxécution, risque de rater de nombreux alignements. Par exemple : A C G A A A G G T A C T A G G A T C - - - A C G A A T G G T C C T A G G A T T On a 88% de similitude mais pas d alignement exact de taille 10, l alignement est perdu. - p. 4/12

Les bases de données Parmi les bases les plus utilisées pour la recherche d alignement on notera les suivantes : NCBI (National Center for Biotechnology Information). La base GenBank d environ 32,500,000 séquences ( 37,900,000,000 nucléotides). Une nouvelle version disponible environ tous les 2 mois. La base de protéines orthologues COGs. 5000 protéines et 67 génomes complets. EMBL (The European Molecular Biology Laboratory) La base TrEMBL (Translated EMBL) d environ 2,6 millions de séquences, soit environ 840 millions d acides aminés. Mise à jour en moyenne tous les deux mois. ExPASy (Expert Protein Analysis System) La base Swiss-Prot d environ 200,000 séquences soit environ 75,000,000 acides aminés. Mise à jour hebdomadaire et une nouvelle version tous les 6 mois environ. - p. 5/12

Croissance des bases. La croissance actuelle de la taille de ces bases est exponentielle et ne semble pas devoir s arrêter dans un avenir proche. Voici par exemple la croissance de la base TrEMBL depuis 1997 : - p. 6/12

Exécution de BLAST. Les bases de données biologiques sont des bases à faible structuration, il s agit bien souvent de simples fichiers plats et parfois de fichiers dans une arborescence de répertoires. Il faut formater ces bases avant leur utilisation par BLAST. Ainsi, le déroulement normal dans une exécution de BLAST est le suivant : - p. 7/12

Exécution de BLAST. Les bases de données biologiques sont des bases à faible structuration, il s agit bien souvent de simples fichiers plats et parfois de fichiers dans une arborescence de répertoires. Il faut formater ces bases avant leur utilisation par BLAST. Ainsi, le déroulement normal dans une exécution de BLAST est le suivant : - p. 7/12

Exécution de BLAST. Les bases de données biologiques sont des bases à faible structuration, il s agit bien souvent de simples fichiers plats et parfois de fichiers dans une arborescence de répertoires. Il faut formater ces bases avant leur utilisation par BLAST. Ainsi, le déroulement normal dans une exécution de BLAST est le suivant : - p. 7/12

Exécution de BLAST. Les bases de données biologiques sont des bases à faible structuration, il s agit bien souvent de simples fichiers plats et parfois de fichiers dans une arborescence de répertoires. Il faut formater ces bases avant leur utilisation par BLAST. Ainsi, le déroulement normal dans une exécution de BLAST est le suivant : - p. 7/12

Mise à jour. Le formatage des bases nécessite d établir la manière dont on effectuera leurs mises à jour. Mise à jour parallèle de chacun des replicas. Chaque site récupère une nouvelle version et effectue le formatage. - p. 8/12

Mise à jour. Le formatage des bases nécessite d établir la manière dont on effectuera leurs mises à jour. Mise à jour parallèle de chacun des replicas. Chaque site récupère une nouvelle version et effectue le formatage. - p. 8/12

Mise à jour. Le formatage des bases nécessite d établir la manière dont on effectuera leurs mises à jour. Mise à jour parallèle de chacun des replicas. Chaque site récupère une nouvelle version et effectue le formatage. La base est récupérée sur un site qui effectue le formatage puis chaque replica est mis à jour depuis cette version de référence. - p. 8/12

Mise à jour. Le formatage des bases nécessite d établir la manière dont on effectuera leurs mises à jour. Mise à jour parallèle de chacun des replicas. Chaque site récupère une nouvelle version et effectue le formatage. La base est récupérée sur un site qui effectue le formatage puis chaque replica est mis à jour depuis cette version de référence. - p. 8/12

Mise à jour. Le formatage des bases nécessite d établir la manière dont on effectuera leurs mises à jour. Mise à jour parallèle de chacun des replicas. Chaque site récupère une nouvelle version et effectue le formatage. La base est récupérée sur un site qui effectue le formatage puis chaque replica est mis à jour depuis cette version de référence. Suivant la taille de la base et les possibilités de connexions des sites, les mises à jour des bases peuvent s avérer être une source de bloquage pour l utilisation de BLAST sur la grille. En effet, une cohérence stricte des données est exigée pour obtenir des résultats significatifs. Les données n étant plus utilisables tant que dure l opération, il convient de s assurer que celle-ci prendra le moins de temps possible. - p. 8/12

Répartition des requêtes. Une requête peut consister en la recherche d alignement de plusieurs dizaines de milliers de séquences contre une seule base. On peut ainsi répartir facilement la charge sur autant de noeuds disposant de celle-ci. La durée d éxécution de telles requêtes peut rendre envisageable de placer temporairement la base sur les noeuds disponibles. - p. 9/12

Répartition des requêtes. Une requête peut consister en la recherche d alignement de plusieurs dizaines de milliers de séquences contre une seule base. On peut ainsi répartir facilement la charge sur autant de noeuds disposant de celle-ci. La durée d éxécution de telles requêtes peut rendre envisageable de placer temporairement la base sur les noeuds disponibles. - p. 9/12

Répartition des requêtes. Une requête peut consister en la recherche d alignement de plusieurs dizaines de milliers de séquences contre une seule base. On peut ainsi répartir facilement la charge sur autant de noeuds disposant de celle-ci. La durée d éxécution de telles requêtes peut rendre envisageable de placer temporairement la base sur les noeuds disponibles. - p. 9/12

Répartition des requêtes. Une requête peut consister en la recherche d alignement de plusieurs dizaines de milliers de séquences contre une seule base. On peut ainsi répartir facilement la charge sur autant de noeuds disposant de celle-ci. La durée d éxécution de telles requêtes peut rendre envisageable de placer temporairement la base sur les noeuds disponibles. - p. 9/12

Répartition des requêtes. Une requête peut consister en la recherche d alignement de plusieurs dizaines de milliers de séquences contre une seule base. On peut ainsi répartir facilement la charge sur autant de noeuds disposant de celle-ci. La durée d éxécution de telles requêtes peut rendre envisageable de placer temporairement la base sur les noeuds disponibles. - p. 9/12

Utilisation des résultats. Il est courant qu on effectue une première utilisation de BLAST comme filtrage des séquences à utiliser. Les résultats obtenus sont alors utilisés comme paramètre d entrée d autres requêtes. Suivant le contexte, il peut être utile de conserver ces données sur les noeuds de calcul en vue de leur réutilisation ultèrieure. - p. 10/12

Conclusion BLAST est un outil extrêmement populaire chez les biologistes et nécessite un temps de calcul qui grandit en même temps que la taille des bases sur lesquelles il s applique. L utilisation de la grille comme support d exécution est un bon moyen d accélérer les recherches d alignements mais pose des problèmes de gestion de données non triviaux. Mettre à jour les bases très régulièrement tout en assurant la cohérence des données. Répartir les bases sur les noeuds afin de permettre une utilisation optimale de celles-ci. Cette répartition doit pouvoir être effectuée dynamiquement. Conserver et/ou transmettre les résultats en vue d une réutilisation. - p. 11/12

- p. 12/12