Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire



Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Identification de nouveaux membres dans des familles d'interleukines

Perl Orienté Objet BioPerl There is more than one way to do it

MABioVis. Bio-informatique et la

Introduction aux bases de données: application en biologie

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

: seul le dossier dossier sera cherché, tous les sousdomaines

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Bibliographie Introduction à la bioinformatique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Plus courts chemins, programmation dynamique

Big Data et Graphes : Quelques pistes de recherche

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Base de données bibliographiques Pubmed-Medline

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Limitations of the Playstation 3 for High Performance Cluster Computing

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

INF6304 Interfaces Intelligentes

TD de Biochimie 4 : Coloration.

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

BIRT (Business Intelligence and Reporting Tools)

données en connaissance et en actions?

COMMENT CREER SIMPLEMENT UN TABLEAU DE BORD AVEC SAS BI DASHBOARD 4.3?

Extraction d information des bases de séquences biologiques avec R

Système de sécurité de périmètre INTREPID

GUIDE UTILISATEUR. KPAX Discover

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

ATELIERS THEMATIQUES COMMERCES UNIONS COMMERCIALES ATELIER CONDUITE DE REUNION DECIDER - CONVAINCRE MOBILISER

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CHAPITRE 2 : Structure électronique des molécules

Trusteer Pour la prévention de la fraude bancaire en ligne

Extraction d informations stratégiques par Analyse en Composantes Principales

La PCR quantitative (qpcr) et le guide de bonnes pratiques MIQE : adaptation et pertinence dans le contexte de la biologie clinique

Introduction à ElasticSearch

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Gènes Diffusion - EPIC 2010

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Bases de données des mutations

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : URGENTE NON URGENTE TEMPORAIRE DEFINITIVE

Biomarqueurs en Cancérologie

Alarme domestique- Présentation

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Retrouver les informations demandées dans les différents rapports Utiliser les fonctionnalités des rapports Utiliser la segmentation avancée

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Introduction à Business Objects. J. Akoka I. Wattiau

Traitement des données avec Microsoft EXCEL 2010

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Prédiction de la structure d une

Utilisation d Hyperplanning 2011

Encryptions, compression et partitionnement des données

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Chess Arbiter Pro (version Dames) Notice d utilisation

LES ACCES ODBC AVEC LE SYSTEME SAS

Business Intelligence avec Excel, Power BI et Office 365

Windows Internet Name Service (WINS)

SUGARCRM MODULE RAPPORTS

1 Modélisation d être mauvais payeur

Big Data et Graphes : Quelques pistes de recherche

Livre blanc. Au cœur de Diskeeper 2010 avec IntelliWrite

Cognit Ive Cas d utilisation

Business Intelligence

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

MetaTrader pour IPhone. Guide d utilisation

ZOTERO Un outil gratuit de gestion de bibliographies

Application Performance Solutions d Akamai Gestion du cycle de vie des produits (PLM)

Intégration de la dimension sémantique dans les réseaux sociaux

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Contrôle de l'expression génétique :

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Le ranking de Augure Influencers La méthodologie AIR en détails

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

MetaTrader 4/5 pour Android. Guide de l utilisateur

Business Intelligence

Évaluation et optimisation de requêtes

Sibelco garantit la performance applicative de ses applications critiques tout en maîtrisant ses coûts

Documentation Audit SEO

DE VOS NOMS DE DOMAINE : Cette méthode est particulièrement efficace pour un référencement optimal sur une cible bien définie.

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Transcription:

Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée à des milliers ou des millions de séquences par comparaison 2 à 2 Utilisation d heuristiques Principaux programmes Fasta Blast Blat 1

Méthodes heuristiques Identification de régions ( mots ) fortement conservées => limiter le nombre de solutions à explorer L N A K S I M W Q A T R C I S V Y C W Q A T D S G l alignement est rapide recherche de similarité la solution proposée n est pas obligatoirement optimale FASTA Reférence Pearson and Lipman. Improved tools for biological sequence comparison. PNAS 85(8):2444-8 8 (1988) Versions La version actuelle est fasta3. Accessibilité Disponible par FTP Intégré dans la plupart des «packages» bioinformatiques ex : GCG Nombreux serveurs Web : EBI : http://www.ebi.ac.uk/fasta33/ disponible sur les serveurs SRS 2

L algorithme de FASTA 1 ère étape : mots identiques Séquence B Par défaut : k=2 pour les séquences protéiques k=6 pour les séquences nucléiques k (ktup) peut être modifié par l utilisateur. Si k augmente : -gain en rapidité - perte en sensibilité L algorithme de FASTA 2 ème étape : segments conservés Séquence B Les mots situés - sur une même diagonale - à une distance inférieure à une valeur seuil sont réunis ainsi que la région qui les sépare. segments denses en identité absence de gaps dans ces segments Dist < 16 3

L algorithme de FASTA 2 ème étape : segments conservés (score init1) Séquence B Les 10 régions les plus denses en identité sont retenues. Calcul des scores initiaux utilisation des matrices de scores (prise en compte des substitutions) * Le meilleur des scores initiaux est appelé init1 et sera fourni à l utilisateur. * init1 L algorithme de FASTA 3 ème étape : calcul du score initn Séquence B Introduction de gaps * Réunions des segments proches si: scores initiaux pénalité de jonction > à un des scores initiaux Le meilleur de ces nouveaux scores est appelé score initn. Les segments dont le score est inférieur à une valeur seuil sont éliminés. * init1 4

L algorithme de FASTA 4 ème étape : alignement optimal limité Séquence B Alignement optimal (Smith & Waterman) dans une fenêtre entourant la région de similarité ayant obtenu le score init1. * On calcule alors un nouveau score sur cet alignement optimal : le score opt. * init1 Dans certains cas, construction d un alignement optimal Smith & Waterman «normal» pour les séquences ayant obtenu les meilleurs scores L algorithme de FASTA alignement optimal limité Y C W Q A T D S G L N A K S I M W Q A T R C I S V 5

Comparer les scores! Init1 = score du meilleur segment initial Initn = score du meilleur alignement initial (après ajout de gaps) initn it init1it1 Opt = score de l alignement optimal sur un fenêtre autour d init1 Si opt < initn : problème!!! Région de forte similarité ignorée dans l alignement Séquence B initn B A init1 B A Expect Expect : nombre attendu d alignements avec un score S Plus l expect est proche de 0, plus le score est significatif E = Kmn e - S K constante de Karlin m longueur de la séquence requête n longueur de la banque λ dépend du système de score employé FASTA : calcul des paramètres à partir de l ensemble des scores trouvés lors de la recherche dans la banque (sauf les scores les plus extrêmes). BLAST2 : détermination empirique à partir de séquences modèles pour chaque type de matrice et de pénalité de gap 6

Histogramme Colonne 1: intervalle de valeurs des scores Colonne 2 (opt): Nombre de séquences ayant obtenu un score opt compris dans l intervalle donné Colonne 3 (E) : Nombre attendu de séquences avec un score compris dans l intervalle donné = distribution observée * distribution théorique Fasta http://www.ebi.ac.uk/tools/sss/fasta/ 7

Fasta Séquences ayant obtenu les meilleurs scores Fasta 8

Alignements Séquence requête (query) Séquence de la banque : identité. Score 0 Alignements Biais en composition 9

Blast BLAST : Basic Local Alignment Search Tool Références Altschul et al. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10. Altschul et al. (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Accessibilité ftp, packages (dont GCG) Nombreux serveurs Web - Au NCBI : http://www.ncbi.nlm.nih.gov/blast/ -.. Algorithme de blast Construction de la liste des mots similaires aux mots de la query Séquence requête (query) tous les mots de longueur w Pour les protéines : w= 3 par défaut Pour l ADN : w = 11 par défaut Mot 1 Parmi tous les mots possibles de longueur w (20x20x20=8000 possibilités si w=3) : Sélection des mots dont l alignement avec le mot de la séquence query donne un score T => protéines : matrice de scores (blosum62 par défaut) => ADN : match = 2, mismatch 3 Ex : PQG PQG PEG PQA Score = 7 + 5 + 6 =18 Score = 15 Score = 12 Si T =13 PQG PEG Élimination de PQA Mot 2 Etc Remarque : dans le blast original, T=13 ~ 50 mots atteignent ce seuil 10

Algorithme de Blast Localisation des mots sur les séquences de la banque Liste de mots Séquences de la banque Chaque «hit» est identifié Il s agit d une liste finie et pré-établie. Algorithme de Blast Construction des HSP (Blast1) Construction des HSPs (Blast original ) HSP Pour chaque hit, extension de l alignement (dans les 2 directions) tant que: - l extrémité d une des séquences n est pas atteinte - le score ne chute pas plus d une valeur X en dessous du meilleur score obtenu jusque-là pour cet alignement L alignement ainsi obtenu est appelé HSP (High-scoring segment pair) et a un score supérieur au score du hit initial Identification des meilleures HSPs Seules les HSPs dont le score est supérieur à un seuil fixé sont retenues. Il peut exister plusieurs HSPs entre deux séquences (leur score est alors combiné). absence de gap dans les alignements de Blast1 «ungapped» blast 11

Algorithme de Blast Construction des HSP (Blast2=gapped blast ) Extension sans gap : «Two hits method» au moins 2 hits non chevauchants situés sur la même diagonale (pas de gaps) situés à une distance A HSP Dans blast2 : T=11 Exemple: + 15 hits avec score > 13. 22 hits additionnels avec un score > 11 2 paires de hits sont sur une même diagonale et à une distance <40 Blast original (T=13) : 15 tentatives d extension Blast2 (T=11) : 2 tentatives d extension => gain de temps Algorithme de Blast Alignement optimal (Smith & Waterman) - Sélection des HSPs avec score suffisant - Choix d une paire de résidus (amorce) dans l HSP : paire centrale du meilleur segment de 11 paires - Alignement optimal «limité» à partir de l amorce => introduction de gaps L alignement optimal se fait en considérant seulement les alignements qui ne tombent pas plus de Xg en dessous du meilleur score obtenu. amorce 12

Algorithme de Blast Alignement optimal limité Y C W Q A T D S G L N A K S I M W Q A T R C I S V Algorithme de Blast Alignement optimal obtenu Lettre : identité + : score positif Alignements e tsobtenus uspar Blast1 amorce 13

Les différentes comparaisons Programmes Requête Banque Comparaison Exemples d utilisation Blastn ADN ADN nucléique Recherche d ARN structuraux, d éléments régulateurs Blastp Protéine protéines protéique Recherche de protéines homologues Tblastn Protéine ADN (traduit dans les 6 cadres) Blastx Tblastx ADN (traduit dans les 6 cadres) ADN (traduit dans les 6 cadres) protéique Recherche de similarités entre une protéine et une séquence génomique mal annotée protéines protéique Recherche des phases de lecture dans une séquence codante ADN (traduit dans les 6 cadres) protéique Avantages de tblastn et blastx mais très long Megablast => optimisé pour des séquences nucléiques quasi-identiques (>95% identité) (taille des mots = 28), très rapide 14

Interface Blast (NCBI) Sortie Blast Recherche de domaines conservés (Conserved Domain Database, CDD) NCBI-curated domains (use 3D-structure information) http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd Domain models from Pfam SMART COG PRK TIGRFAM 15

Sortie Blast Banque et séquence requête utilisées Sortie 16

Blast : alignements Séquence requête (query) Séquence de la banque Blast : alignements Biais en composition 17

Filtres Filtres Certaines régions peuvent être filtrées : -faible complexité - courts motifs répétés - éléments répétés dispersés connus (ALUs repeats ) => non prises en compte dans la recherche 18

Filtres Blast : taxonomy report 19

BLAT : the Blast-Like Alignment Tool But : identifier rapidement des régions de forte similarité nucléique => au moins 95% sur 40 bases (ex: primates) protéiques => au moins 80% sur 20 aa (ex : vertébrés é terrestres) Applications : localiser une séquence (gène, ARNm, est, protéine) sur un génome déterminer la structure d un gène (carte exonique) Avantages/inconvénients : gain de temps alignements triés en fonction du génome prise en compte des sites d épissages utilisable uniquement pour séquences très proches http://genome.ucsc.edu/cgi-bin/hgblat Kent, Genome Research 2002 BLAT : the Blast-Like Alignment Tool stockage en mémoire des mots de k lettres du génome => gain de temps élimination des mots trop fréquents (séquences répétées) recherche des mots identiques dans la séquence requête k=11 pour comparaison ADN/ADN k=4 pour comparaisons protéiques alignement si : 2 mots identiques (k=11) pour ADN 3 mots (k=4) identiques pour protéines (version serveur) 1 mot (k=5) identique pour protéines (version stand-alone) sur même diagonale et suffisamment proches prise en compte des sites d épissages 20

BLAT : the Blast-Like Alignment Tool BLAT : the Blast-Like Alignment Tool 21

BLAT : the Blast-Like Alignment Tool BLAT : the Blast-Like Alignment Tool 22

Comparaison avec BlastN (ou Megablast) 23