Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr
Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique phénotype = apparence/fonctionnement
Pourquoi Diana n'a-t-elle que 3 doigts? pic de liaison génétique Qu'est ce qu'il y a à cet endroit?
Il faut recenser dans le génome de Diana tous les acteurs moléculaires qui peuvent jouer un rôle...
Annotation de séquence annoter une séquence, c'est localiser et caractériser les élements fonctionels qu'elle contient résultats expérimentaux prédictions bioinformatiques a priori éléments fonctionnels gènes
Annotation des gènes du génome humain Y a-t-il des régions du génome qui, une fois traduites, correspondent à certaines protéines connues ou certains transcrits ("cdnas/est") connus? protéine EST traduction ce fragment du génome est transcrit: gène? comment localiser les fragments sur le génome? (alignements) EST = fragment de (m)rna: ce n'est pas un gène complet... comment trouver des gènes "inconnus"?
Annotation des gènes du génome humain Méthodes ab-initio: Y a-t-il des régions qui ont les caractéristiques typiques d'un gène (présence d'un boite TATA, site d'épissage, )? TATA box sites d'épissage ex: GENSCAN (> 52000 gènes humains prédits ) beaucoup de faux-positifs...
Annotation des gènes du génome humain Evolution du nombre de gènes annotés de référence du NCBI Evolution Version du nombre de gènes annotés 100000 90000 80000 Version de référence du génome humain 40000 35000 70000 30000 source: NCBI Nbre de gènes 60000 50000 25000 40000 20000 30000 15000 20000 10000 10000 5000 0 0 32.1 estimations préliminaires 32 34.1 33.1 33 34.1 34.3 34.2 34.2 35.1 36.1 35.1 36.1 36.2 36.3 36.3 36.2 Version fusion de transcripts (2 transcripts correspondent au même gène),... inclusion de gènes non-codants, annotation de nouveaux transcripts,...
Au delà des gènes codants... le total des exons codants ne représente que 3% du génome humain mais on estime que 5% du génome humain est sous pression de sélection beaucoup de transcription en dehors des gènes codants la taille de l'adn non-codant (et pas le nombre de gènes...) semble être corrélé à la "complexité" de l'organisme Proportion of non coding DNA 120.00% 100.00% percent 80.00% 60.00% 40.00% 20.00% 0.00% S. cerevisae A. thaliana C. elegans D. melanogaster F. rubripes M. Musculus H. sapiens Il doit y avoir autre chose...
projet ENCODE: plus que les gènes... consortium international formé en 2003 BUT: construire une encyclopédie de l'adn (ENcyclopedia of CODing Elements) 1% du génome humain (30 Mb, 44 régions)
ENCODE browser exemple d'une région de 1Mb sur chr5 gènes transcription epigenomics: methylation protein binding
Etude des régions transcrites tiling array avec une résolution de 35 bp ~ 63% des transcripts détectés tombent en dehors des exons annotés niveau de transcription est un ordre de grandeur plus élevé qu'attendu (nouveaux exons? gènes? ncrnas?)
Etudes ultérieures mêmes conclusions chez arabidopsis whole genome human mouse drosophila yeast Hypothèse: ~ 100% du génome non-répétitif est transcrit [Hüttenhofer et al., Trends in Genetics:21(2005)]
Annotation de séquences gènes codants autres éléments fonctionnels
Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators
Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators
L'objet de base de la bioinformatique: la séquence >gi 237649050 ref NR_002848.2 Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC ARN (ADNc) >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA ADN >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR protéine
le format FASTA en-tête de description séquence (nucléique, protéique,...) sur plusieurs lignes >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA longueur de la séquence variable mesurée en nombre d'acides aminés ou en nombre de paires de bases (bp, kb, Mb, Gb,...) dans le cas d'adn, la séquence représente un seul brin!
Séquence = représentation de la molécule >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA >gi 237649050 ref NR_002848.2 Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC???
Quelles questions poser? >gi 136564849 gb EN723164.1 >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA AATTATGGGTGGTGCCATCAGAATACGTA AATTATGGGTGGTGCCATCAGAATACGTA
1. cette séquence contient-elle un élément codant? 2. si oui, ressemble-t-elle à une protéine connue? 3. quelle est sa fonction potentielle? 4. de quel organisme provient cette séquence / quelle est son histoire évolutive? nous allons utiliser des outils "in-silico" pour répondre à ces questions...
QUESTION 1: la séquence d'adn est-elle codante ou non?? (i.e. contient-elle un gène codant pour une protéine?)
Qu'est ce que c'est qu'un gène? A quoi reconnait-on un gène? TSS: transcription start site ADN * transcription codon start * ARN traduction protéine
A quoi reconnait-on un gène? codon d'initiation de la traduction codon stop ACGTCGGATCATGCTTAGCTTAGGCTATGCTTAAATT M L S L G Y A * cadre de lecture ouvert = ORF = "open-reading frame" ATTENTION: un gène contient un ORF, mais un ORF ne correspond pas forcément à un gène!!
un petit calcul fréquence des nucléotides: A,C,G,T = 0.25 fréquence des ATG = 0.25*0.25*0.25 = 0.015 on trouve un ATG en moyenne tous les 67 nucléotides codons stop: TGA, TAA, TAG 1 codon sur ~ 21 en moyenne est un codon stop beaucoup de ATG...(stop) dans les séquences d'adn
la preuve: séquence intergénique de Drosophile (garanti 100% sans gène!) >up FBgn0004859 loc=77668...86744 strand= sourcefile=../dmel chr4 r4.3.fasta.masked CCATCCTGAATGTGGTATGTAAATCTAACATTTTTATGCTAAGCCTCCACTTACTTGTATATTATATAGG CTACGTTTCGTAACGATCGAGGTGTATACAAAGAAGCCGAAATTCACAGGTATGTAAAGCATTTAATTTA... comment distinguer les "bons" ORF des "mauvais"? longueur(orf)» 21 codons
Recherche d'orf sur le brin direct et reverse complémentaire dans les 3 cadres de lecture taille minimale des ORF: > 40-60 AA 3 cadres de lecture directs 3 cadres de lecture reverse E D E A H K T A F E A L V K A A K I N G K M R R T K R P L K R W L K R L K. T E R. G A Q N G L. S A G. S G. N K R N GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGA 10 20 30 40 50 60 CTTCTACTCCGCGTGTTTTGCCGGAAACTTCGCGACCAATTTCGCCGATTTTATTTGCCT F I L R V F R G K F R Q N F R S F Y V S L H P A C F P R Q L A P. L P. F L R F S S A C L V A K S A S T L A A L I F P I
QUESTION 2: cet ORF code-t-il pour une protéine?? cet ORF ressemble-t-il à une protéine connue?
Idée comment? qui, quoi? on va comparer nos ORF à des protéines connues pour voir si ils ressemblent à quelque chose de connu...
exemple de banques de séquences qui, quoi? SwissProt: séquences protéiques (Institut Suisse de Bioinformatique & EBI) 200,000 séquences grande qualité des fiches beaucoup d'informations fonctionnelles nr = non-redundant: compilation de plusieurs banques de données protéiques 3.4 millions de séquences SwissProt Protein Information Ressource (PIR) traduction de séquences nucléiques de GenBank PDB (structurale)
comment? comparaison de séquences >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR Vous trouvez que ça se ressemble??? >gi 7299586 gb AAF54771.1 CG3942 PA [Drosophila melanogaster] MHRWFFANEREECERKPEEDGPSSASETQEPPPPPPVPTTEWPFCVVFHSSLNGNEYVAISGNCPSLGNW DPKEVYILAKNDCISCLCNCRQFEASLEIPRNIDIHYRYCVVIHDPETDEVYIRFWESQLYPRVIRTCQN MLKNCDVFGKPHDDDEANQVDRGWATTETIVHLKIFNAPFCWQRQKPRLLYVHVQPMFEVPENPCNEPAN PIKMVSSQTRLSRYLSTREIKAGNQYLQLAQVEVTNLCVQNALAAQQRFGARCGPKDMELFHCSIAFPEE TLYRLDLYTYAHKAGYDEPPYHYGYGFLMPDQLLGTEGSARVKITCASTHRPLMEMCVRYLIIRPLPNFR CDLSHSYERYWRKNRLCMNIGHKGSGNTYRLGSDVVRENTLYGFKQAVLANADMVEMDVQLTQDAQVVVY HDFVLRFMLQRMPSFEDLLENQDLLIFAYENLNKLMLLAMGGSKRKDLIAVPLEAFSYDQLKEVKVLRFA GSKGCDKSCDRMLLEQRPFPLLLDLLDEENLPVDMGFLIEIKWPQMTNMRRWESGSFKPTFDRNFYVDTI LEIVLNKAGKRRIVFCSFDADICAMVRFKQNVYPVTLLLEDPHSPVQYADQRVSVQDVAVRFCNSLEFLG LTLHANSLLNKPSTMAYLHQINLDAFVYGSSTIDLEIRNKLKKHGVLGIIYDRLDQLDQVGEELEGDTMC TIDSVTTRRVIQETEVEEWIQKCGYKPETSIVVHNIYID
comment? au début sont les alignements... alignements = outils de base de l'analyse bioinformatique permettent de comparer des séquences biologiques nucléiques (ADN,ARN) protéiques différents outils en fonction du type d'alignement (local/global) de la longueur des séquences, etc...
pourquoi comparer les séquences? une ressemblance entre séquences peut indiquer: une fonction biologique proche une structure 3D semblable une origine et/ou histoire évolutive commune la comparaison de séquence permet aussi d'assembler des fragments de séquences de mettre en évidence les différences de séquençage entre différents laboratoires etc...
comparaison de 2 séquences alignement de 2 séquences mon ORF W L T E K E G S Y P K L une autre séquence W L S S S M N N Q V F P Q L exemple d'alignement insertion/deletion W L T E K E G S Y P K L W L T E K E G S Y P K L.............. W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L identité substitution non-conservative substitution conservative
Comment en est-on arrivé là? un scénario possible temps WLTEKEGSQVYPKL séquence ancestrale spéciation WLTEKEGSQVYPKL WLTEKEGSQVYPKL délétion mutations WLSSSMNNQVYPKL WLTEKEGSYPKL mutations WLSSSMNNQVFPKL WLTEKEGSYPKL W L T E K E G S Y P K L....... W L S S S M N N Q V F P Q L ce que l'on observe aujourd'hui
évolution des séquences protéiques mutations d'acides aminés certaines mutations plus favorables propriétés physico-chimiques semblables structure 3D conservée insertion/délétion de fragments de séquences iso-formes issues de l'épissage alternatif certains certainsscénarios scénariosévolutifs évolutifs sont sontplus plusprobables probablesque qued'autres d'autres
évaluation d'un alignement score qui dépend nombre et nature des identités nombre et nature des substitutions nombre d'insertion/délétion score global = scores des positions meilleur alignement: score maximum W L T E K E G S Y P K L W L T E K E G S Y P K L.............. W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L score = s(w,w) +s(l,l) + s(t,s) + s(e,s) +... + s(gap l=2) +...
les paramètres insertion/délétion: 2 paramètres ouverture de gap extension de gap CGATGCAGCAGCAGCATCG CGATGC------AGCATCG CGATGCAGCAGCAGCATCG CG-TG-AGCA-CA--AT-G ouverture de gapextension de gap (13 x 1) - 10 - (6 x 1) = -3 (13 x 1) - (5 x 10) - (6 x 1) = -43 le caractère non linéaire est plus conforme à la réalité biologique
les paramètres ex.: BLOSUM62 identité/substitution: matrices de substitution score pour chaque conservation/substitution obtenu empiriquement à partir des substitutions observées entre séquences
alignement global/local A B Alignement global Alignement forcé des extrémités A B Alignement local Pénalisation forte des délétions/insertions
alignement global A B Alignement global Alignement forcé des extrémités utilisé pour aligner des séquences homologues (gènes, protéines, chromosomes) afin de déterminer les mutations évolutives à la base des alignements multiples (ClustalW,...)
alignement local A B Alignement local Pénalisation forte des délétions/insertions utilisé pour identifier des séquences homologues, p.ex. dans les banques de données l'homologie peut être restreinte à une portion de séquence (domaine protéique) algo. le plus répandu: BLAST (blastp, blastn,...)
BLAST plusieurs versions séquence b a n q u e d e séquence b la s tn n u c lé iq u e n u c lé iq u e b la s tp p ro té iq u e p ro té iq u e b la s tx n u c lé iq u e p ro té iq u e p ro té iq u e tb la s tn p ro té iq u e n u c lé iq u e p ro té iq u e tb la s tx n u c lé iq u e n u c lé iq u e p ro té iq u e p ro té iq u e permet de détecter permet de détecter des gènes potentiels des gènes potentiels dans une séquence dans une séquence d'adn d'adn
Comparer ADN ou peptide?? 73% nucl. id 93% nucl. id A C C G T T A C A T G G T A T A C G G T G A C C T G G T A C A C C G T T A C A T G G T A T A C C G T T A T A T G G T A T T V T W Y T V T W Y 100% AA id T V T W Y T V I W Y 80% AA id Conclusion: les mutations dans la séquence d'adn ne sont pas équivalentes: mutations synonymes (ne changent pas l'aa) mutations non-synonymes
Comparer ADN ou peptide?? similarité moyenne entre 2 séquences d'adn de longueur égale: 25% similarité moyenne entre 2 séquences d'aa de longueur égale: 5% Conclusion: il est plus fréquent d'avoir une bonne similarité due au hasard entre 2 séquences d'adn que d'aa Si la séquence d'adn est potentiellement codante (présence d'orf),on compare les séquences d'acides aminés plutôt que les séquences d'adn
et si notre ORF de 100 acides aminés ne ressemble à rien de connu???? qu'est ce qu'on en conclu????
QUESTION 3: si la séquence est codante, quelle est la fonction de la protéine?
"Guilt by association" ou le délit de faciès en biologie!!!
"Guilt by association" ou le délit de faciès en biologie RNA-directed RNA polymerase!!! PUTATIVE (RNA-directed) RNA polymerase
cette protéine ressemble diablement à des protéines impliquées dans la mort cellulaire/ fragmentation de l'adn... on peut raisonnablement penser qu'elle est impliquée également dans cette fonction...
Familles, domaines, motifs etc domaine protéique: unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) motifs protéiques: plus courts site de modification post-traductionnelle site de liaison (ADN, métal,...) site actif d'enzyme un domaine protéique une fonction biologique
InterPro banque de données de motifs protéiques InterProScan outils de comparaison d'une séquence avec les motifs protéiques d'interpro
analyse d'une protéine contre InterPro recherche de fiches par mots-clé
Résultat InterProScan fiche Pfam fiche ProDom
QUESTION 4: de quel organisme provient cette séquence? quelle est son histoire?
Une nouvelle science: la métagénomique 2000: expédition Sorcerer II de C. Venter dans la mer des Sargasses But: prélever des échantillons marins séquencer l'adn présent étudier les diversité des organismes marins "In one drop of water are found all the secrets of the oceans" les fragments d'adn obtenus sont d'origine inconnue...
De quel organisme provient cette séquence? difficile de répondre à cette question!!!! on ne connait (probablement) que < 1% de la biodiversité marine 99% de chance que ce soit la première fois que l'on rencontre cet organisme! Quelle famille?
Avons nous les bons outils? BLAST: comparaisons 2 à 2 on voudrait comparer toutes les séquences entre elles simultanément Pourquoi?
MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD QDDHLWNDHGSQSSFVEMTIL MYYVRPSLKTSILAFGETWYVLKIE MKLISTHTVLAGQRTLEKKIS
MSTTRWLLGTSQQVTYESSIL QDDHLWNDHGSQSSFVEMTIL MSTTRWLLGTSQQVTYESSIL MKLISTHTVLAGQRTLEKKIS MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD MSTTRWLLGTSQQVTYESSIL MYYVRPSLKTSILAFGETWYVLKIE
MSTTRWLLGTSQQVTYESSIL...E.....E......E......E... alignement multiple:permet d'identifier les AA/nucléotides invariants dans des séquences homologues "pression évolutive" fonction? ("pourquoi le glutamate est-il conservé dans toutes les séquences???")
Exemple: RNA polii T>N L>T
Conclusion: annotation de séquences = enquête de voisinage... 1. est ce que la séquence d'adn est potentiellement codante? ORFfinder 2. est ce que cet ORF correspond à une protéine? BLAST 3. quelle est la fonction potentielle de la protéine? BLAST, INTERPROSCAN 4. quelle est son histoire évolutive/ son origine? Clustalw ClustalNJ, PhyML