Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée à des milliers ou des millions de séquences par comparaison 2 à 2 Utilisation d heuristiques Principaux programmes Fasta Blast Blat 1
Méthodes heuristiques Identification de régions ( mots ) fortement conservées => limiter le nombre de solutions à explorer L N A K S I M W Q A T R C I S V Y C W Q A T D S G l alignement est rapide recherche de similarité la solution proposée n est pas obligatoirement optimale FASTA Reférence Pearson and Lipman. Improved tools for biological sequence comparison. PNAS 85(8):2444-8 8 (1988) Versions La version actuelle est fasta3. Accessibilité Disponible par FTP Intégré dans la plupart des «packages» bioinformatiques ex : GCG Nombreux serveurs Web : EBI : http://www.ebi.ac.uk/fasta33/ disponible sur les serveurs SRS 2
L algorithme de FASTA 1 ère étape : mots identiques Séquence B Par défaut : k=2 pour les séquences protéiques k=6 pour les séquences nucléiques k (ktup) peut être modifié par l utilisateur. Si k augmente : -gain en rapidité - perte en sensibilité L algorithme de FASTA 2 ème étape : segments conservés Séquence B Les mots situés - sur une même diagonale - à une distance inférieure à une valeur seuil sont réunis ainsi que la région qui les sépare. segments denses en identité absence de gaps dans ces segments Dist < 16 3
L algorithme de FASTA 2 ème étape : segments conservés (score init1) Séquence B Les 10 régions les plus denses en identité sont retenues. Calcul des scores initiaux utilisation des matrices de scores (prise en compte des substitutions) * Le meilleur des scores initiaux est appelé init1 et sera fourni à l utilisateur. * init1 L algorithme de FASTA 3 ème étape : calcul du score initn Séquence B Introduction de gaps * Réunions des segments proches si: scores initiaux pénalité de jonction > à un des scores initiaux Le meilleur de ces nouveaux scores est appelé score initn. Les segments dont le score est inférieur à une valeur seuil sont éliminés. * init1 4
L algorithme de FASTA 4 ème étape : alignement optimal limité Séquence B Alignement optimal (Smith & Waterman) dans une fenêtre entourant la région de similarité ayant obtenu le score init1. * On calcule alors un nouveau score sur cet alignement optimal : le score opt. * init1 Dans certains cas, construction d un alignement optimal Smith & Waterman «normal» pour les séquences ayant obtenu les meilleurs scores L algorithme de FASTA alignement optimal limité Y C W Q A T D S G L N A K S I M W Q A T R C I S V 5
Comparer les scores! Init1 = score du meilleur segment initial Initn = score du meilleur alignement initial (après ajout de gaps) initn it init1it1 Opt = score de l alignement optimal sur un fenêtre autour d init1 Si opt < initn : problème!!! Région de forte similarité ignorée dans l alignement Séquence B initn B A init1 B A Expect Expect : nombre attendu d alignements avec un score S Plus l expect est proche de 0, plus le score est significatif E = Kmn e - S K constante de Karlin m longueur de la séquence requête n longueur de la banque λ dépend du système de score employé FASTA : calcul des paramètres à partir de l ensemble des scores trouvés lors de la recherche dans la banque (sauf les scores les plus extrêmes). BLAST2 : détermination empirique à partir de séquences modèles pour chaque type de matrice et de pénalité de gap 6
Histogramme Colonne 1: intervalle de valeurs des scores Colonne 2 (opt): Nombre de séquences ayant obtenu un score opt compris dans l intervalle donné Colonne 3 (E) : Nombre attendu de séquences avec un score compris dans l intervalle donné = distribution observée * distribution théorique Fasta http://www.ebi.ac.uk/tools/sss/fasta/ 7
Fasta Séquences ayant obtenu les meilleurs scores Fasta 8
Alignements Séquence requête (query) Séquence de la banque : identité. Score 0 Alignements Biais en composition 9
Blast BLAST : Basic Local Alignment Search Tool Références Altschul et al. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10. Altschul et al. (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Accessibilité ftp, packages (dont GCG) Nombreux serveurs Web - Au NCBI : http://www.ncbi.nlm.nih.gov/blast/ -.. Algorithme de blast Construction de la liste des mots similaires aux mots de la query Séquence requête (query) tous les mots de longueur w Pour les protéines : w= 3 par défaut Pour l ADN : w = 11 par défaut Mot 1 Parmi tous les mots possibles de longueur w (20x20x20=8000 possibilités si w=3) : Sélection des mots dont l alignement avec le mot de la séquence query donne un score T => protéines : matrice de scores (blosum62 par défaut) => ADN : match = 2, mismatch 3 Ex : PQG PQG PEG PQA Score = 7 + 5 + 6 =18 Score = 15 Score = 12 Si T =13 PQG PEG Élimination de PQA Mot 2 Etc Remarque : dans le blast original, T=13 ~ 50 mots atteignent ce seuil 10
Algorithme de Blast Localisation des mots sur les séquences de la banque Liste de mots Séquences de la banque Chaque «hit» est identifié Il s agit d une liste finie et pré-établie. Algorithme de Blast Construction des HSP (Blast1) Construction des HSPs (Blast original ) HSP Pour chaque hit, extension de l alignement (dans les 2 directions) tant que: - l extrémité d une des séquences n est pas atteinte - le score ne chute pas plus d une valeur X en dessous du meilleur score obtenu jusque-là pour cet alignement L alignement ainsi obtenu est appelé HSP (High-scoring segment pair) et a un score supérieur au score du hit initial Identification des meilleures HSPs Seules les HSPs dont le score est supérieur à un seuil fixé sont retenues. Il peut exister plusieurs HSPs entre deux séquences (leur score est alors combiné). absence de gap dans les alignements de Blast1 «ungapped» blast 11
Algorithme de Blast Construction des HSP (Blast2=gapped blast ) Extension sans gap : «Two hits method» au moins 2 hits non chevauchants situés sur la même diagonale (pas de gaps) situés à une distance A HSP Dans blast2 : T=11 Exemple: + 15 hits avec score > 13. 22 hits additionnels avec un score > 11 2 paires de hits sont sur une même diagonale et à une distance <40 Blast original (T=13) : 15 tentatives d extension Blast2 (T=11) : 2 tentatives d extension => gain de temps Algorithme de Blast Alignement optimal (Smith & Waterman) - Sélection des HSPs avec score suffisant - Choix d une paire de résidus (amorce) dans l HSP : paire centrale du meilleur segment de 11 paires - Alignement optimal «limité» à partir de l amorce => introduction de gaps L alignement optimal se fait en considérant seulement les alignements qui ne tombent pas plus de Xg en dessous du meilleur score obtenu. amorce 12
Algorithme de Blast Alignement optimal limité Y C W Q A T D S G L N A K S I M W Q A T R C I S V Algorithme de Blast Alignement optimal obtenu Lettre : identité + : score positif Alignements e tsobtenus uspar Blast1 amorce 13
Les différentes comparaisons Programmes Requête Banque Comparaison Exemples d utilisation Blastn ADN ADN nucléique Recherche d ARN structuraux, d éléments régulateurs Blastp Protéine protéines protéique Recherche de protéines homologues Tblastn Protéine ADN (traduit dans les 6 cadres) Blastx Tblastx ADN (traduit dans les 6 cadres) ADN (traduit dans les 6 cadres) protéique Recherche de similarités entre une protéine et une séquence génomique mal annotée protéines protéique Recherche des phases de lecture dans une séquence codante ADN (traduit dans les 6 cadres) protéique Avantages de tblastn et blastx mais très long Megablast => optimisé pour des séquences nucléiques quasi-identiques (>95% identité) (taille des mots = 28), très rapide 14
Interface Blast (NCBI) Sortie Blast Recherche de domaines conservés (Conserved Domain Database, CDD) NCBI-curated domains (use 3D-structure information) http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd Domain models from Pfam SMART COG PRK TIGRFAM 15
Sortie Blast Banque et séquence requête utilisées Sortie 16
Blast : alignements Séquence requête (query) Séquence de la banque Blast : alignements Biais en composition 17
Filtres Filtres Certaines régions peuvent être filtrées : -faible complexité - courts motifs répétés - éléments répétés dispersés connus (ALUs repeats ) => non prises en compte dans la recherche 18
Filtres Blast : taxonomy report 19
BLAT : the Blast-Like Alignment Tool But : identifier rapidement des régions de forte similarité nucléique => au moins 95% sur 40 bases (ex: primates) protéiques => au moins 80% sur 20 aa (ex : vertébrés é terrestres) Applications : localiser une séquence (gène, ARNm, est, protéine) sur un génome déterminer la structure d un gène (carte exonique) Avantages/inconvénients : gain de temps alignements triés en fonction du génome prise en compte des sites d épissages utilisable uniquement pour séquences très proches http://genome.ucsc.edu/cgi-bin/hgblat Kent, Genome Research 2002 BLAT : the Blast-Like Alignment Tool stockage en mémoire des mots de k lettres du génome => gain de temps élimination des mots trop fréquents (séquences répétées) recherche des mots identiques dans la séquence requête k=11 pour comparaison ADN/ADN k=4 pour comparaisons protéiques alignement si : 2 mots identiques (k=11) pour ADN 3 mots (k=4) identiques pour protéines (version serveur) 1 mot (k=5) identique pour protéines (version stand-alone) sur même diagonale et suffisamment proches prise en compte des sites d épissages 20
BLAT : the Blast-Like Alignment Tool BLAT : the Blast-Like Alignment Tool 21
BLAT : the Blast-Like Alignment Tool BLAT : the Blast-Like Alignment Tool 22
Comparaison avec BlastN (ou Megablast) 23