Introduction à l annotation de séquences

Introduction à l annotation de séquences - Université de Lille 1-2 eme Semestre

But de l annotation de séquences Les séquences nucléiques : Détecter la présence de gènes Trouver la structure des gènes (exons/introns) Détecter d autres objets biologiques (gènes ARN, signaux de régulation,...) Les séquences protéiques : Déterminer leur fonction Prédire la localisation cellulaire Étudier les structures 2D et 3D

Prédiction de gènes Localisation des gènes et de leurs exons

Trois types de méthodes Recherche des ORF (Open Reading Frame) localisation des régions de plus de 100 nucléotides entre un codon start (ATG) et un codon stop (TAA,TAG,TGA). Comparaison aux banques Recherche des séquences d ARNm et de protéines qui ressemblent à la séquence étudiée Etude statistique Localisation des séquences codantes et non codantes à partir d exemples

Recherche des ORF Traduction de la séquence nucléique dans les 6 phases de lecture Identification des codons Cinit et Cterm de la transcritption On se restreint aux régions d au moins 100 nucléotides Sélection du Cinit le plus éloigné du Cterm On obtient plusieurs possibilités...

Recherche des ORF N * F T S C N E A E R T P A I N L L H V T K P K E H R L K L I Y F M * R S R K N T G TTTAATTAAATGAAGTACATTGCTTCGGCTTTCTTTGTGGCCGAA

Recherche des ORF N * F T S C N E A E R T P A I N L L H V T K P K E H R L K L I Y F M * R S R K N T G TTTAATTAAATGAAGTACATTGCTTCGGCTTTCTTTGTGGCCGAA AAATTAATTTACTTCATGTAACGAAGCCGAAAGAAACACCGGCTT F * N V E H L S A S L V G A I L K S * T V F G F S C R S N I * K M Y R L R F F V P K

Recherche des ORF (ORF finder)

Les limites Toutes les ORF ne sont pas des gènes Elle contiennent peut-être un gène On utilise alors la comparaison de séquences avec des gènes connus On ne connaît pas la position du vrai Cinit Ce n est pas toujours le plus éloignée Existence de Cinit alternatifs Impossible de détecter les petits gènes Pas d information sur les exons

Comparaison aux banques Recherche de séquences similaires avec Blast ou Fasta Les banques utilisées EST CDS Vecteurs (éliminer les fragments parasites lors du séquençage d un gène) Sélection de séquences d intérêt Alignement des séquences d intérêt Alignement avec SIM4 : 1 adn génomique / 1 ARNm mature Alignement avec Wise2 : 1 adn génomique ou ARNm mature / 1 protéine

Les limites La séquence étudiée doit posséder des homologues dans les banques Les homologues distants sont mal identifiés

Prédiction statistique Principe : discriminer les séquences codantes des non codantes à l aide de critères statistiques. Mise en œuvre : apprentissage à partir d un jeu de données fiable (annoté expérimentalement) Recherche de biais Usage irrégulier des codons synonymes Asymétrie des trois positions dans les codons Enchaînement des mots de 6 nucléotides Utilisation de connaissances biologiques (promoteur, RBS, signal,...)

Principe Mise au point d un score (probabilité qu une fenêtre soit codante) Calcul du score pour une fenêtre glissante Extraction des fenêtres avec score significatif Reconstruction des gènes d après le score et l enchaînement des fenêtres et utilisation des signaux.

Les limites Apprentissage sur des données connues Limité aux séquences similaires au jeu d apprentissage GeneMark (procaryotes) : biais caractéristique pour des séquences dans un certain pourcentage de GC Apprentissage à partir de plusieurs génomes Pas de détection des petits gènes ou petits exons.

Prédiction chez les procaryotes Des génomes simples 80% du génome est codant séquences intergéniques courtes environ 1 gène tous les 1 kb région transcrite et pas traduite (3 et 5 UTR) courte pas d intron Détection simple test des 6 phases comparaison aux banques méthodes statistiques

Les limites Plusieurs codons Start Mais présence de RBS Comparaison aux banques proteiques. Prédiction statistique Gènes incomplets Gènes chevauchants

Prédiction chez les eucaryotes Environ 5% du génome humain est codant Longues régions 5 et 3 UTR (Untranslated) pour chaque cdna. Des introns (qui changent la phase) Epissage alternatif Variation de la densité des gènes et de leur structure (cf GC).

Cas particulier : les gènes ARN Signaux de régulation spécifiques Pas de contrainte de phase de lecture, d usage du code. Contrainte liée à la structure secondaire similarité faible (structure primaire/structure secondaire)

Partie II - comparaison aux banques (suite du cours sur la comparaison de séquences)

Comparaison aux banques on se donne : une séquence requête q une banque de séquences T = {t1,..., t n} on veut : trouver des alignements significatifs entre q et les t i les algorithmes classiques ne fonctionnent pas : prennent trop de temps, il faut trouver des parades

FASTA Pearson et Lipman, 1988 alignement global avec gaps traite les séquences de la banque les unes après les autres fonctionnement : 1. trouve tous les mots exacts de longueur > l communs à q et t i 2. sélectionne ceux de score suffisamment élevé (score PAM par exemple) 3. sélectionne une diagonale d (du dotplot) contenant le maximum de mots exacts de longueur > l 4. procède à un alignement global classique dans une bande de largeur 2k autour de la diagonale d deux paramètres : k et l, l généralement de longueur 6 pour l ADN et 2 pour les protéines

Schématiquement séquence q séquence t

Trouver les l mers chaque mot de longueur l est codé sur un entier code(u 1...u l ) = l c(u i )a l i avec c(u i ) la valeur associée à la lettre u i comprise entre 0 et a 1 et a la taille de l alphabet passage au codage du mot suivant (décalage de 1 dans la séquence) par opérations binaires : décalage binaire + masque binaire utilisation d une table de hachage pour par exemple avoir toutes les occurrences très efficace i=1

Blast Altschul, Gish, Miller, Myers, Lipman, 1990 naît en 1990 : trouve des matchs significatifs sans gaps évolution vers une version 2, avec gaps NCBI-Blast WU-Blast : très similaire à NCBI-Blast (mixe entre Blast1 et FASTA pour la dernière étape) évolution vers des versions avec raffinement des résultats

Blast 1 recherche de mots similaires de taille w (11 pour l ADN, 3 pour les protéines), de score supérieur à un seuil T pour chaque position de la requête q chaque couple de mots w entre q et un t i forme un hit chaque hit est étendu à gauche et à droite : l extension est stoppée lorsque le score du hit décroît de plus de X

Blast 1 - Schématiquement q étape 1 mots de taille w voisins

Blast 1 - Schématiquement q étape 1 mots de taille w voisins étape t1 t2 mots de taille w voisins 2 t4 t3

Blast 1 - Schématiquement q étape 1 mots de taille w voisins étape t1 t2 mots de taille w 2 voisins t4 q t3 étape 3 t3

Blast 1 chaque hit étendu forme un HSP : High scoring Segment Pair le HSP de meilleur score est le MSP : Maximal scoring Segment Pair

NCBI - Blast 2 idée : incorporer des gaps mise en oeuvre : se baser sur 2 hits distants au maximum de A q A étendre les hits comme dans Blast 1 (avec limitation de score) mais en autorisant les gaps t3

Exemple de résultats Query= Felis catus DRD4 gene fordopamine receptor D4 (276 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AB069665 Felis catus DRD4 gene f... 210 5e-52 gi AB069662 Nyctereutes procyonoide... 157 7e-36 gi AB069661 Canis lupus DRD4 gene f... 157 7e-36 gi AB069666 Bos taurus DRD4 gene fo... 143 1e-31 gi 291947 Homo sapiens Dopamine D4 recep... 135 2e-29

Exemple de résultats >gi 18143632 dbj AB069662.1 AB069662 Nyctereutes procyonoides DRD4 gene fordopamine receptor D4. Length = 393 Score = 157 bits (79), Expect = 7e-36 Identities = 94/99 (94%) Strand = Plus / Plus Query 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Sbjct 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Query 49 ggggcctgcggcgctgggaggcggctcgccaggccaagctgcactgccgg 99 Sbjct 49 ggggcctgcggcgctgggaggccgcgcgtcgggccaagctgcacggccgg 99 Score = 107 bits (54), Expect = 5e-21 Identities = 60/62 (96%) Strand = Plus / Plus Query 215 ggaggcgcgccaagatcaccggccgggagcgcaaggccatgagggtcct 252 Sbjct 332 ggagacgcgccaagatcacgggccgggagcgcaaggccatgagggtcct 379 Query 253 tgccggtggtggtc 276 Sbjct 380 tgccggtggtggtc 393

Les systèmes de score score HSP = Score de similarité utilise une matrice de substitution utilisé lors de l extension des hits bit score = score normalisé utilisé (en partie) pour analyser les résultats mesure statistique de l alignement dépendant de la banque interrogée (taille de la banque)

Significativité des MSPs deux séquences peuvent toujours être alignées il existe toujours un (au moins) alignement de meilleur score S entre deux séquences (un MSP) question : ce score est-il suffisamment élevé pour prouver une homologie? problème : peut-on trouver un MSP de meilleur score dans deux séquences aléatoires?

Mesures de significativité la p-valeur (p-value) mesure la probabilité que 2 séquences aléatoires de même longueur et de même composition possèdent un MSP de score supérieur ou égal S la e-valeur (e-value) mesure le nombre de MSPs de score supérieur ou égal S de 2 séquences aléatoires de même longueur et de même composition

Variation de la e-value si la taille de la séquence double : la e-value augmente si la taille de la banque est divisée par deux : la e-value diminue si le score augmente : la e-value diminue

Les différents programmes BLAST nucléique protéique nucléique traduit nucléique blastn blastp protéique blastp tblastn nucléique traduit blastx tblastx