Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast



Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Identification de nouveaux membres dans des familles d'interleukines

Base de données bibliographiques Pubmed-Medline

Perl Orienté Objet BioPerl There is more than one way to do it

CHAPITRE 3 LA SYNTHESE DES PROTEINES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Introduction aux bases de données: application en biologie

Extraction d information des bases de séquences biologiques avec R

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Introduction au Data-Mining

À l'intention des parents

MABioVis. Bio-informatique et la

Programme de bourses de recherche de l UEFA Edition 2014

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

TD de Biochimie 4 : Coloration.

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Partie 7 : Gestion de la mémoire

Analyse des données de séquençage massif par des méthodes phylogénétiques

Ebauche Rapport finale

Évaluation et implémentation des langages

TEST PRATIQUE DU TEST DE LOGIQUE MATHEMATIQUE ET VERBAL

Bibliographie Introduction à la bioinformatique

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Comment créer votre propre lampes LED

TD n o 8 - Domain Name System (DNS)

Introduction au Data-Mining

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Prédiction de la structure d une

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

MATHÉMATIQUES APPLIQUÉES S4 Exercices

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Comment faire plus d'argent cet été!

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Citizenship Language Pack For Migrants in Europe - Extended FRANÇAIS. Cours m ultim édia de langue et de culture pour m igrants.

Génétique et génomique Pierre Martin

TRAVAUX DIRIGÉS D'ÉLECTRONIQUE DE PUISSANCE

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Prix d'un site Internet ou e-commerce professionnel

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Rapidolect Les Productions de la Columelle ( ) Page 1


Détection et prise en charge de la résistance aux antirétroviraux

Exercices de dénombrement

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Application 1- VBA : Test de comportements d'investissements

Probabilités conditionnelles Loi binomiale

Freeway 7. Nouvelles fonctionnalités

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Qu est ce qu une bibliothèque?

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Spécificités, Applications et Outils

Les bases de données transcriptionnelles en ligne

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Etudiants et jeunes diplômés : les aspirations professionnelles

FAQ Conditions de candidature... 2 Procédure de candidature et remise de prix... 2 Le dossier de candidature... 3

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Tune Sweeper Manuel de l'utilisateur

La recherche d'une entreprise d'accueil

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Activité 4. Tour de cartes Détection et correction des erreurs. Résumé. Liens pédagogiques. Compétences. Âge. Matériels

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Type d'organisation. 2. Décrivez comment le système d'information qui appuie la recherche et les activités de financement est organisé.

Gènes Diffusion - EPIC 2010

Comment réussir son Marketing Personnel

Chapitre 1 I:\ Soyez courageux!

Plus courts chemins, programmation dynamique

Bibliothèque Esparron en livres.


Les probabilités. Chapitre 18. Tester ses connaissances

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Cahier des charges Site Web

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

Chapitre 7. Récurrences

La classification automatique de données quantitatives

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Le modèle de données

LE RESEAU GLOBAL INTERNET

Chapitre 1 : Notions. Partie 9 - Rente viagère. Qu est-ce q u u n e «r e n t e v i a g è r e»?

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Création et développement d une base de données sur le VIH

Projet ISN - dossier réalisé par Randrianarimanana Stéphanie. Titre du projet : Site de rencontre. le nom de notre site de rencontre : Linkymeet

GROUPE DE CONTACT DES DIRECTEURS

Régime de retraite patronal-syndical (Québec) de l'association internationale des machinistes (A.I.M.)

TP 1. Prise en main du langage Python

TABLE DES MATIÈRES I. INTRODUCTION... 3 II. PIANO D'ACCOMPAGNEMENT...

FICHE S PEDAGOGIQUE S. Bilan personnel et professionnel Recherche active d emploi

Transcription:

Bioinformatique appliquée Cours 4 BLAST idée lire un résultat de Blast la famille Blast -1-

"quelle est la similarité entre ces 2 séquences? et donc: est-ce que ces deux séquences sont homologues?" "existe-t-il des séquences homologues à la mienne parmi toutes les séquences connues? " (ex: UniProt, ~ 12 millions de séquences, ~ 350 AA/seq) Smith & Waterman: 0.035 s x 12 millions = 118 heures ~ 5 jours!! -2-

Comment trouver l'âme soeur? jeune homme bonne situ., aimant F. Cabrel, amat. Princ. de Clèves, cherche j.f. douce et aimante bonne cuis. pour repass. chem. et + si aff. envoyer photo + CV 250 candidatures, comment faire?? -3-

Comment trouver l'âme soeur? Solution 1: vous convoquez les 250 candidat(e)s pour une journée romantique à Disneyland avantage: vous êtes sûr de trouver la/le meilleur(e) candidat(e) parmi les 250 inconvénient: 1 journée / candidat(e) = 8 mois Solution 2: vous faites une pré-sélection sur les CV: écoute F. Cabrel lit la princesse de Clèves vous en convoquez 10 avantage: rapide!! efficace!! inconvénient: vous risquez de louper la perle rare... -4-

Comment trouver l'âme soeur? l'orthologue séquence prot., long. 650 AA, cherche séq. orthologue dans tout organisme; envoyer séq. + fiche Genbank 82,853,685 candidatures, comment faire?? -5-

Comment trouver l'âme soeur? l'orthologue Solution 1: vous alignez les 82,853,685 séquences avec N&W ou S&W avantage: vous êtes sûr de trouver la séquence la plus similaire ~ orthologue inconvénient: 132 jours... programmation dynamique exact Solution 2: vous faites une pré-sélection sur les séquences: vous alignez exactement ces séquences avec S&W avantage: rapide!! efficace!! inconvénient: vous risquez de louper la perle rare... BLAST heuristique -6-

Heuristique L'heuristique (du grec heuriskêin, «trouver») est l'utilisation de règles empiriques : pratiques, simples et rapides, facilitant la recherche des faits et l'analyse de situations, dans un objectif de résolution de problèmes et de prise de décision, dans un domaine particulier. [...] Les heuristiques trouvent cependant leur place dans les algorithmes qui nécessitent l'exploration d'un grand nombre de cas, car elles permettent de réduire leur complexité moyenne en examinant d'abord les cas qui ont le plus de chances de donner la réponse. Le choix d'une telle heuristique suppose de connaître déjà certaines propriétés statistiques sur l'ensemble d'instances du problème que l'on s'apprête à résoudre. [...]

Comment pré-sélectionner les séquences? - un exemple k YPSTL ma séquence une séquence dans SwissProt YPSTL Première idée: ne retenir que les séquences partageant au moins un mot de longueur k avec ma séquence -8-

Pourquoi cette présélection est-elle rapide? toutes les séquences de SwissProt sont indexées on détermine, pour tous les mots de longueurs k, la liste des séquences qui contiennent ce mot ici, k=6: 206 listes AAAAAA AAAAAA Q65342 P34887 P13254... AAAAAD AAAAAD AAAAAC AAAAAC P55342 O635A4 Q55F36... P62413 P77624 Q25R42... AAAAAE AAAAAE AAAAAF AAAAAF O8872 Q2D53 T55273... P62998 O82663 P22745... -9-

Pourquoi cette présélection est-elle rapide? AANQRLCGSHLVDALYLVCGERGFFYSPKGGIVEQCCHNTCS AANQRL Q65342 P34887 P13254... GERGFF QCCHNT P55342 O635A4 Q55F36... P62413 P77624 Q25R42... VCGERG ANQRLC O8872 Q2D53 T55273... P62998 O82663 P22745... Que se passe-til si on change la valeur de k? - 10 -

Quel est le choix optimal de la taille k? plus k est grand, plus le critère est strict risque de passer à côté de séquences orthologues! si k est trop petit, le critère n'est pas assez sélectif trop de séquences candidates uniquement les candidat(e)s aimant Le lac Huron dans la version 1985 de l'album Photos de voyages 1 candidat(e) tous les amateurs/trices de guitare 245/250 candidat(e)s Comment faire? - 11 -

Quel est le choix optimal de la taille k? on applique un doublecritère: les séquences doivent partager 2 petits mots (au lieu d'un grand) tous les amateurs/trices de guitare qui en plus aiment la littérature 25/250 candidat(e)s ma séquence PKL LDP PKL LDP une autre séquence - 12 -

heuristique de Blast ma séquence PKL une autre séquence PKV d d Etape 1: trouver 2 paires de mots "voisins" (s >= 11) à égale distance d dans les 2 séquences (d<40) LDP VDP PKL PKV s = 6+5+2=13 LDP VDP s = 6+4+2=12-13 -

heuristique de Blast ma séquence SAGGCPKLIYTVSD SAGGCPKLIYTVSD SAGFCPKVVYTLSE une autre séquence score >S SAGFCPKVVYTLSE RSTGHLDPVSDFFG RSTGHLDPVSDFFG GSSGHVDPVSDFYG score >S GSSGHVDPVSDFYG Etape 2: vérifier que l'on peut étendre ces amorces pour obtenir des alignements sans gaps de score s>s - 14 -

heuristique de Blast Etape 3: faire l'alignement local Smith & Waterman DLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK DSFGDLSNPGAV MGNPKVKAHGKKVLHSFGEGVHHLD NLKGTFAALSELHCDKL - 15 -

BLAST, ou l'art du raccourci Smith-Waterman BLAST 1 séquence contre tout UniProt: 1 séquence contre tout UniProt: ~ 5 jours ~ 20 secondes - 16 -

BLAST: comment vivre sans? - 17 -

Google = fouiller l'internet Requête Portée [d'après P. Hingamp] - 18 -

BLAST = fouiller les séquences biologiques Blast NCBI Requête Portée [d'après P. Hingamp] NR BLA ST SWISSPROT PDB - 19 -

BLAST @NCBI: facile!! 1. requête (votre séquence) 2. portée (à qui vous voulez la comparer) 3. et hop! - 20 -

Les résultats de BLAST 1. récapitulatif de la requête 2. représentation graphique des résultats 3. résumé des résultats 4. les alignements - 21 -

Les résultats de BLAST quelle séquence a été soumise ("query") ; identifiant, longueur, type 1. récapitulatif de la requête quelle banque de donnée est interrogée? quel programme est utilisé? - 22 -

Les résultats de BLAST 2. représentation graphique des résultats ce trait représente la séquence soumise (long. 253 AA) chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur score longueur taille de l'alignement = HSP ("high scoring pair") - 23 -

Les résultats de BLAST 3. résumé des résultats identifiant descriptif score couverture E-value chaque ligne du résumé correspond à un trait coloré dans la représentation graphique - 24 -

Les résultats de BLAST 4. les alignements query la séquence soumise subject la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gaps - 25 -

Les paramètres cachés de BLAST nombre max. de séquences cibles seuil sur l'e-value taille de l'amorce choix de la matrice de substitution score des gaps pourquoi y a-t-il 2 paramètres??? - Existence - Extension - 26 -

Scores et statistiques de BLAST cet alignement est plus réaliste (1 seul événement évolutif) CGATGCAGCAGCAGCATCG CGATGC------AGCATCG Match = +1 Gap = -1 (13 x 1) + (6 x -1) = 7.. que celui là!! (5 évènements évolutifs) CGATGCAGCAGCAGCATCG CG-TG-AGCA-CA--AT-G (13 x 1) + (6 x -1) = 7 les 2 alignements ont le même score - 27 -

Scores et statistiques de BLAST cet alignement est plus réaliste (1 seul événement évolutif) CGATGCAGCAGCAGCATCG CGATGC------AGCATCG ouverture de gap (5 évènements évolutifs) CGATGCAGCAGCAGCATCG CG-TG-AGCA-CA--AT-G extension de gap (13 x 1) - 10 - (6 x 1) = -3.. que celui là!! (13 x 1) - (5 x 10) - (6 x 1) = -43 insertion/délétion: 2 paramètres ouverture de gap (par ex -10) extension de gap (par ex -1) Principe de la facturation téléphonique vous payez 10 cts quand l'autre décroche puis 5 cts par minute de conversation - 28 -

Scores et statistiques de BLAST le score final de l'alignement dépend: du choix de la matrice du choix des paramètres de gap difficile de comparer 2 scores si les paramètres ne sont pas identiques Solution: on normalise les scores λ S ln K S '= ln 2 λ et K sont des paramètres pré-calculés, score exprimé en bits - 29 -

Avantage du score il permet de comparer 2 alignements, et de dire lequel est le meilleur gap: 11,1 longueur: 128 identité: 35% gap: 9,2 longueur: 86 identité: 39% - 30 -

Exercice Calculez le score brut de l'alignement suivant M T Y H I N V M F - - L M I - 31 -

Scores et statistiques de BLAST Monsieur, 46.6 bits, c'est un bon score? un étudiant de L2 (20 ans) Papa, 1 euro, c'est cher? ma fille Anna (8 ans) Posons la question autrement - 32 -

Scores et statistiques de BLAST Monsieur, 46.6 bits, c'est un bon score? est ce qu'un score de 46.6 bits est le signe d'une véritable homologie? - 33 -

est ce qu'un score de 46.6 bits est le signe d'une véritable homologie? 2 manières de répondre à cette question Contrôle positif: je prends des séquences dont je sais qu'elles sont homologues, et je regarde les scores: est-ce que j'obtiens des scores de 46.6?? si oui, la réponse est positive! Contrôle négatif: je prends des séquences dont je sais qu'elles ne sont PAS homologues, et je regarde les scores: est-ce que je vais obtenir des scores de 46.6? si oui, la réponse est négative - 34 -

Scores et statistiques de BLAST Monsieur, 46.6 bits, c'est un bon score? est ce qu'un score de 46.6 bits est le signe d'une véritable homologie? Si les 2 séquences n'avaient aucune homologie, est ce qu'on aurait pu obtenir un score de 46.6? - 35 -

Scores et statistiques de BLAST on va fabriquer une séquence artificielle de 253 acides aminés (= 253 AA tirés au hasard parmi les 20) >random sequence 1 consisting of 253 residues. AGCALTLIQRYCQDCGSPEVQTGSNPYAAAHHDMGSFGVACGQDEDKGCRAGGQDQGDVP PMNWTQACDSTTHYWQMCQHPINTWDSFKWFMRHKCWRQFQNFHVFPMVGDICQPLEKHI NKGMYPKAYLSKVWHEFWRCAVYNMHDMRCFFAKTEDTQWGYWPDAKLIRKKLFTDNDEL WTGNNWNAEHFFSQCQGIQDRKPHNWSIHLLNLCCGAFRTQFHGSGCRDVDTSWGWWIYY sa ga LCWVRIQMNEGFE n r s BLAST contre SwissProt h o a nt m ie ol og ie!! acid es amin és - 36 -

Distribution de scores 6578 alignements avec score >= 25 4 alignements avec score >= 35 0 alignements avec score >= 40-37 -

est ce que cet alignement traduit une homologie entre les séquences? NON!! - 38 -

Définition de l'e-value de BLAST E-value de X = on s'attendrait à trouver X alignements de score équivalent purement par chance contre une banque de données de taille équivalente s = 46 > Evalue = 4e-4 : je m'attends à trouver en moyenne 0.0004 alignements de score 46 purement par hasard (si je blaste 2500 séquences aléatoires, j'en obtiendrai ~ 1) s = 267 > Evalue = 1e-70: il faut que je blaste 1e70 séquences aléatoires avant de tomber au hasard sur un alignement de cette qualité... - 39 -

Définition de l'e-value de BLAST 10-10 1 pas le signe d'une homologie zone incertaine ("twilight zone") homologie certaine faux-positifs: on a un alignement, mais les séquences ne sont pas homologues - 40 -

SwissProt 530,000 séquences 149 millions d'aa BLAST ma séquence BLAST est ce que l'e-value sera plus grand, plus petit ou identique? nr-prot 12 millions de séquences SwissProt 400,000 séquences 149 millions d'aa - 41 -

BLAST must-know BLAST= programme d'alignements locaux, permettant d'interroger une base de données de séquences à partir d'une séquence ("query") résultat: liste d'hsp (high scoring pairs = alignements) avec % identité, % positif, %gaps score brut, score en bits, E-value E-value = valeur statistique : combien d'hsp de même score aurions nous obtenu au hasard contre une base de données aléatoire de même taille? E-value diminue lorsque le score augmente: E-val < 10-10: homologie très probable; algorithme heuristique: BLAST prend des raccourcis, mais trouve généralement la meilleure solution (=l'alignement de plus haut score) - 42 -

les séries à succès... blastn blastp blastx tblastn tblastx psi-blast - 43 -

La famille BLAST: vous avez une séquence... nucléique protéique...que vous voulez comparer à une banque de données... nucléique protéique blastn blastx blastp - 44 -

Blastx ou l'art de comparer des acides aminés et des nucléotides >marine metagenome JCVI_SCAF_1101668109630 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG Est ce que cette séquence d'adn/arn code pour une protéine? Est ce que sa traduction ressemble à une protéine connue? - 45 -

Blastx combien de traductions possibles d'un fragment d'adn? 3 cadres de lecture directs 3 cadres de lecture reverse E D E A H K T A F E A L V K A A K I N G K M R R T K R P L K R W L K R L K. T E R. G A Q N G L. S A G. S G. N K R N GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGA 10 20 30 40 50 60 CTTCTACTCCGCGTGTTTTGCCGGAAACTTCGCGACCAATTTCGCCGATTTTATTTGCCT F I L S L H S R P A V A C F C L R F V G P A K R K F Q S R L A Q A S N P T F. L R L A S P A F. L Y F I V L F S R P F I 1 fragment d'adn/arn = 6 «protéines» - 46 -

Blastx 1 séquence d'adn traduction dans les 6 cadres de lecture (= 6 «proteines») Blast protéique (Blastp) de chacune des 6 contre une banque de donnée protéique la traduction dans le cadre +3 a une forte similarité locale avec ZP_02182738... de même que la traduction dans le cadre +1-47 -

blastx Est ce que mon fragment d'adn code pour une protéine déjà connue? ADN ARN 6 "proteines" Banque de données protéiques traduction dans les 6 cadres de lecture Blastp - 48 -

tblastn protéine Est-ce que le génome de la levure code pour une protéine homologue de l'insuline humaine? Banque de données nucléique Banque de données protéiques traduction dans les 6 cadres de lecture Blastp - 49 -

tblastx ADN ARN 6 "proteines" ( à vous d'inventer la question qui va avec...) Banque de données nucléique Banque de données protéiques traduction dans les 6 cadres de lecture Blastp - 50 -

La famille BLAST: vous avez une séquence... nucléique protéique...que vous voulez comparer à une banque de données... nucléique protéique blastn tblastx tblastn blastx blastp psi-blast - 51 -