Annotation in silico de séquences biologiques



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Big data et sciences du Vivant L'exemple du séquençage haut débit

MABioVis. Bio-informatique et la

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction à la Génomique Fonctionnelle

Introduction aux bases de données: application en biologie

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Contrôle de l'expression génétique :

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Bases de données des mutations

Perl Orienté Objet BioPerl There is more than one way to do it

CATALOGUE DES PRESTATIONS DE LA

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Génétique et génomique Pierre Martin

Identification de nouveaux membres dans des familles d'interleukines

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Biomarqueurs en Cancérologie

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

VI- Expression du génome

Base de données bibliographiques Pubmed-Medline

Bases moléculaires des mutations Marc Jeanpierre

TD de Biochimie 4 : Coloration.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Cours 3 : Python, les conditions

Hépatite chronique B Moyens thérapeutiques

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Introduction à l approche bootstrap

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Génomique Comparative et intégrative

Les bases de données transcriptionnelles en ligne

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Gènes Diffusion - EPIC 2010

Bibliographie Introduction à la bioinformatique

MYRIAD. l ADN isolé n est à présent plus brevetable!

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Séquence 2. L expression du patrimoine génétique. Sommaire

Détection et prise en charge de la résistance aux antirétroviraux

LA RECHERCHE DOCUMENTAIRE

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Extraction d information des bases de séquences biologiques avec R

Bases de données et outils bioinformatiques utiles en génétique

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

Analyse des données de séquençage massif par des méthodes phylogénétiques

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Systèmes de transmission

SysFera. Benjamin Depardon

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Initiation à la recherche documentaire

2 C est quoi la chimie?

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Univers Vivant Révision. Notions STE

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Diagnostic et suivi virologique des hépatites virales B et C. Marie-Laure Chaix Virologie Necker

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

I. La levure Saccharomyces cerevisiae: mode de vie

Les tests génétiques à des fins médicales

UE6 - Cycle de vie du médicament : Conception rationnelle

EXERCICES : MECANISMES DE L IMMUNITE : pages

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Conception de Médicament

Chapitre 7. Récurrences

Prédiction de la structure d une

L axe 5 du Cancéropole Nord Ouest

Validation probabiliste d un Système de Prévision d Ensemble

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Principes de bonne pratique :

Bulletin officiel n 29 du 19 juillet 2012 Sommaire

Principe d un test statistique

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Cellules procaryotes Service histologie Pr.k.mebarek

Big Data et la santé

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Séquence 4. Comment expliquer la localisation des séismes et des volcans à la surface du globe?

Les OGM. 5 décembre Nicole Mounier

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Transcription:

Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr

Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique phénotype = apparence/fonctionnement

Pourquoi Diana n'a-t-elle que 3 doigts? pic de liaison génétique Qu'est ce qu'il y a à cet endroit?

Il faut recenser dans le génome de Diana tous les acteurs moléculaires qui peuvent jouer un rôle...

Annotation de séquence annoter une séquence, c'est localiser et caractériser les élements fonctionels qu'elle contient résultats expérimentaux prédictions bioinformatiques a priori éléments fonctionnels gènes

Annotation des gènes du génome humain Y a-t-il des régions du génome qui, une fois traduites, correspondent à certaines protéines connues ou certains transcrits ("cdnas/est") connus? protéine EST traduction ce fragment du génome est transcrit: gène? comment localiser les fragments sur le génome? (alignements) EST = fragment de (m)rna: ce n'est pas un gène complet... comment trouver des gènes "inconnus"?

Annotation des gènes du génome humain Méthodes ab-initio: Y a-t-il des régions qui ont les caractéristiques typiques d'un gène (présence d'un boite TATA, site d'épissage, )? TATA box sites d'épissage ex: GENSCAN (> 52000 gènes humains prédits ) beaucoup de faux-positifs...

Annotation des gènes du génome humain Evolution du nombre de gènes annotés de référence du NCBI Evolution Version du nombre de gènes annotés 100000 90000 80000 Version de référence du génome humain 40000 35000 70000 30000 source: NCBI Nbre de gènes 60000 50000 25000 40000 20000 30000 15000 20000 10000 10000 5000 0 0 32.1 estimations préliminaires 32 34.1 33.1 33 34.1 34.3 34.2 34.2 35.1 36.1 35.1 36.1 36.2 36.3 36.3 36.2 Version fusion de transcripts (2 transcripts correspondent au même gène),... inclusion de gènes non-codants, annotation de nouveaux transcripts,...

Au delà des gènes codants... le total des exons codants ne représente que 3% du génome humain mais on estime que 5% du génome humain est sous pression de sélection beaucoup de transcription en dehors des gènes codants la taille de l'adn non-codant (et pas le nombre de gènes...) semble être corrélé à la "complexité" de l'organisme Proportion of non coding DNA 120.00% 100.00% percent 80.00% 60.00% 40.00% 20.00% 0.00% S. cerevisae A. thaliana C. elegans D. melanogaster F. rubripes M. Musculus H. sapiens Il doit y avoir autre chose...

projet ENCODE: plus que les gènes... consortium international formé en 2003 BUT: construire une encyclopédie de l'adn (ENcyclopedia of CODing Elements) 1% du génome humain (30 Mb, 44 régions)

ENCODE browser exemple d'une région de 1Mb sur chr5 gènes transcription epigenomics: methylation protein binding

Etude des régions transcrites tiling array avec une résolution de 35 bp ~ 63% des transcripts détectés tombent en dehors des exons annotés niveau de transcription est un ordre de grandeur plus élevé qu'attendu (nouveaux exons? gènes? ncrnas?)

Etudes ultérieures mêmes conclusions chez arabidopsis whole genome human mouse drosophila yeast Hypothèse: ~ 100% du génome non-répétitif est transcrit [Hüttenhofer et al., Trends in Genetics:21(2005)]

Annotation de séquences gènes codants autres éléments fonctionnels

Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators

Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators

L'objet de base de la bioinformatique: la séquence >gi 237649050 ref NR_002848.2 Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC ARN (ADNc) >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA ADN >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR protéine

le format FASTA en-tête de description séquence (nucléique, protéique,...) sur plusieurs lignes >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA longueur de la séquence variable mesurée en nombre d'acides aminés ou en nombre de paires de bases (bp, kb, Mb, Gb,...) dans le cas d'adn, la séquence représente un seul brin!

Séquence = représentation de la molécule >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA >gi 237649050 ref NR_002848.2 Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC???

Quelles questions poser? >gi 136564849 gb EN723164.1 >gi 136564849 gb EN723164.1 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA AATTATGGGTGGTGCCATCAGAATACGTA AATTATGGGTGGTGCCATCAGAATACGTA

1. cette séquence contient-elle un élément codant? 2. si oui, ressemble-t-elle à une protéine connue? 3. quelle est sa fonction potentielle? 4. de quel organisme provient cette séquence / quelle est son histoire évolutive? nous allons utiliser des outils "in-silico" pour répondre à ces questions...

QUESTION 1: la séquence d'adn est-elle codante ou non?? (i.e. contient-elle un gène codant pour une protéine?)

Qu'est ce que c'est qu'un gène? A quoi reconnait-on un gène? TSS: transcription start site ADN * transcription codon start * ARN traduction protéine

A quoi reconnait-on un gène? codon d'initiation de la traduction codon stop ACGTCGGATCATGCTTAGCTTAGGCTATGCTTAAATT M L S L G Y A * cadre de lecture ouvert = ORF = "open-reading frame" ATTENTION: un gène contient un ORF, mais un ORF ne correspond pas forcément à un gène!!

un petit calcul fréquence des nucléotides: A,C,G,T = 0.25 fréquence des ATG = 0.25*0.25*0.25 = 0.015 on trouve un ATG en moyenne tous les 67 nucléotides codons stop: TGA, TAA, TAG 1 codon sur ~ 21 en moyenne est un codon stop beaucoup de ATG...(stop) dans les séquences d'adn

la preuve: séquence intergénique de Drosophile (garanti 100% sans gène!) >up FBgn0004859 loc=77668...86744 strand= sourcefile=../dmel chr4 r4.3.fasta.masked CCATCCTGAATGTGGTATGTAAATCTAACATTTTTATGCTAAGCCTCCACTTACTTGTATATTATATAGG CTACGTTTCGTAACGATCGAGGTGTATACAAAGAAGCCGAAATTCACAGGTATGTAAAGCATTTAATTTA... comment distinguer les "bons" ORF des "mauvais"? longueur(orf)» 21 codons

Recherche d'orf sur le brin direct et reverse complémentaire dans les 3 cadres de lecture taille minimale des ORF: > 40-60 AA 3 cadres de lecture directs 3 cadres de lecture reverse E D E A H K T A F E A L V K A A K I N G K M R R T K R P L K R W L K R L K. T E R. G A Q N G L. S A G. S G. N K R N GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGA 10 20 30 40 50 60 CTTCTACTCCGCGTGTTTTGCCGGAAACTTCGCGACCAATTTCGCCGATTTTATTTGCCT F I L R V F R G K F R Q N F R S F Y V S L H P A C F P R Q L A P. L P. F L R F S S A C L V A K S A S T L A A L I F P I

QUESTION 2: cet ORF code-t-il pour une protéine?? cet ORF ressemble-t-il à une protéine connue?

Idée comment? qui, quoi? on va comparer nos ORF à des protéines connues pour voir si ils ressemblent à quelque chose de connu...

exemple de banques de séquences qui, quoi? SwissProt: séquences protéiques (Institut Suisse de Bioinformatique & EBI) 200,000 séquences grande qualité des fiches beaucoup d'informations fonctionnelles nr = non-redundant: compilation de plusieurs banques de données protéiques 3.4 millions de séquences SwissProt Protein Information Ressource (PIR) traduction de séquences nucléiques de GenBank PDB (structurale)

comment? comparaison de séquences >gi 217817 dbj BAA01254.1 glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR Vous trouvez que ça se ressemble??? >gi 7299586 gb AAF54771.1 CG3942 PA [Drosophila melanogaster] MHRWFFANEREECERKPEEDGPSSASETQEPPPPPPVPTTEWPFCVVFHSSLNGNEYVAISGNCPSLGNW DPKEVYILAKNDCISCLCNCRQFEASLEIPRNIDIHYRYCVVIHDPETDEVYIRFWESQLYPRVIRTCQN MLKNCDVFGKPHDDDEANQVDRGWATTETIVHLKIFNAPFCWQRQKPRLLYVHVQPMFEVPENPCNEPAN PIKMVSSQTRLSRYLSTREIKAGNQYLQLAQVEVTNLCVQNALAAQQRFGARCGPKDMELFHCSIAFPEE TLYRLDLYTYAHKAGYDEPPYHYGYGFLMPDQLLGTEGSARVKITCASTHRPLMEMCVRYLIIRPLPNFR CDLSHSYERYWRKNRLCMNIGHKGSGNTYRLGSDVVRENTLYGFKQAVLANADMVEMDVQLTQDAQVVVY HDFVLRFMLQRMPSFEDLLENQDLLIFAYENLNKLMLLAMGGSKRKDLIAVPLEAFSYDQLKEVKVLRFA GSKGCDKSCDRMLLEQRPFPLLLDLLDEENLPVDMGFLIEIKWPQMTNMRRWESGSFKPTFDRNFYVDTI LEIVLNKAGKRRIVFCSFDADICAMVRFKQNVYPVTLLLEDPHSPVQYADQRVSVQDVAVRFCNSLEFLG LTLHANSLLNKPSTMAYLHQINLDAFVYGSSTIDLEIRNKLKKHGVLGIIYDRLDQLDQVGEELEGDTMC TIDSVTTRRVIQETEVEEWIQKCGYKPETSIVVHNIYID

comment? au début sont les alignements... alignements = outils de base de l'analyse bioinformatique permettent de comparer des séquences biologiques nucléiques (ADN,ARN) protéiques différents outils en fonction du type d'alignement (local/global) de la longueur des séquences, etc...

pourquoi comparer les séquences? une ressemblance entre séquences peut indiquer: une fonction biologique proche une structure 3D semblable une origine et/ou histoire évolutive commune la comparaison de séquence permet aussi d'assembler des fragments de séquences de mettre en évidence les différences de séquençage entre différents laboratoires etc...

comparaison de 2 séquences alignement de 2 séquences mon ORF W L T E K E G S Y P K L une autre séquence W L S S S M N N Q V F P Q L exemple d'alignement insertion/deletion W L T E K E G S Y P K L W L T E K E G S Y P K L.............. W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L identité substitution non-conservative substitution conservative

Comment en est-on arrivé là? un scénario possible temps WLTEKEGSQVYPKL séquence ancestrale spéciation WLTEKEGSQVYPKL WLTEKEGSQVYPKL délétion mutations WLSSSMNNQVYPKL WLTEKEGSYPKL mutations WLSSSMNNQVFPKL WLTEKEGSYPKL W L T E K E G S Y P K L....... W L S S S M N N Q V F P Q L ce que l'on observe aujourd'hui

évolution des séquences protéiques mutations d'acides aminés certaines mutations plus favorables propriétés physico-chimiques semblables structure 3D conservée insertion/délétion de fragments de séquences iso-formes issues de l'épissage alternatif certains certainsscénarios scénariosévolutifs évolutifs sont sontplus plusprobables probablesque qued'autres d'autres

évaluation d'un alignement score qui dépend nombre et nature des identités nombre et nature des substitutions nombre d'insertion/délétion score global = scores des positions meilleur alignement: score maximum W L T E K E G S Y P K L W L T E K E G S Y P K L.............. W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L score = s(w,w) +s(l,l) + s(t,s) + s(e,s) +... + s(gap l=2) +...

les paramètres insertion/délétion: 2 paramètres ouverture de gap extension de gap CGATGCAGCAGCAGCATCG CGATGC------AGCATCG CGATGCAGCAGCAGCATCG CG-TG-AGCA-CA--AT-G ouverture de gapextension de gap (13 x 1) - 10 - (6 x 1) = -3 (13 x 1) - (5 x 10) - (6 x 1) = -43 le caractère non linéaire est plus conforme à la réalité biologique

les paramètres ex.: BLOSUM62 identité/substitution: matrices de substitution score pour chaque conservation/substitution obtenu empiriquement à partir des substitutions observées entre séquences

alignement global/local A B Alignement global Alignement forcé des extrémités A B Alignement local Pénalisation forte des délétions/insertions

alignement global A B Alignement global Alignement forcé des extrémités utilisé pour aligner des séquences homologues (gènes, protéines, chromosomes) afin de déterminer les mutations évolutives à la base des alignements multiples (ClustalW,...)

alignement local A B Alignement local Pénalisation forte des délétions/insertions utilisé pour identifier des séquences homologues, p.ex. dans les banques de données l'homologie peut être restreinte à une portion de séquence (domaine protéique) algo. le plus répandu: BLAST (blastp, blastn,...)

BLAST plusieurs versions séquence b a n q u e d e séquence b la s tn n u c lé iq u e n u c lé iq u e b la s tp p ro té iq u e p ro té iq u e b la s tx n u c lé iq u e p ro té iq u e p ro té iq u e tb la s tn p ro té iq u e n u c lé iq u e p ro té iq u e tb la s tx n u c lé iq u e n u c lé iq u e p ro té iq u e p ro té iq u e permet de détecter permet de détecter des gènes potentiels des gènes potentiels dans une séquence dans une séquence d'adn d'adn

Comparer ADN ou peptide?? 73% nucl. id 93% nucl. id A C C G T T A C A T G G T A T A C G G T G A C C T G G T A C A C C G T T A C A T G G T A T A C C G T T A T A T G G T A T T V T W Y T V T W Y 100% AA id T V T W Y T V I W Y 80% AA id Conclusion: les mutations dans la séquence d'adn ne sont pas équivalentes: mutations synonymes (ne changent pas l'aa) mutations non-synonymes

Comparer ADN ou peptide?? similarité moyenne entre 2 séquences d'adn de longueur égale: 25% similarité moyenne entre 2 séquences d'aa de longueur égale: 5% Conclusion: il est plus fréquent d'avoir une bonne similarité due au hasard entre 2 séquences d'adn que d'aa Si la séquence d'adn est potentiellement codante (présence d'orf),on compare les séquences d'acides aminés plutôt que les séquences d'adn

et si notre ORF de 100 acides aminés ne ressemble à rien de connu???? qu'est ce qu'on en conclu????

QUESTION 3: si la séquence est codante, quelle est la fonction de la protéine?

"Guilt by association" ou le délit de faciès en biologie!!!

"Guilt by association" ou le délit de faciès en biologie RNA-directed RNA polymerase!!! PUTATIVE (RNA-directed) RNA polymerase

cette protéine ressemble diablement à des protéines impliquées dans la mort cellulaire/ fragmentation de l'adn... on peut raisonnablement penser qu'elle est impliquée également dans cette fonction...

Familles, domaines, motifs etc domaine protéique: unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) motifs protéiques: plus courts site de modification post-traductionnelle site de liaison (ADN, métal,...) site actif d'enzyme un domaine protéique une fonction biologique

InterPro banque de données de motifs protéiques InterProScan outils de comparaison d'une séquence avec les motifs protéiques d'interpro

analyse d'une protéine contre InterPro recherche de fiches par mots-clé

Résultat InterProScan fiche Pfam fiche ProDom

QUESTION 4: de quel organisme provient cette séquence? quelle est son histoire?

Une nouvelle science: la métagénomique 2000: expédition Sorcerer II de C. Venter dans la mer des Sargasses But: prélever des échantillons marins séquencer l'adn présent étudier les diversité des organismes marins "In one drop of water are found all the secrets of the oceans" les fragments d'adn obtenus sont d'origine inconnue...

De quel organisme provient cette séquence? difficile de répondre à cette question!!!! on ne connait (probablement) que < 1% de la biodiversité marine 99% de chance que ce soit la première fois que l'on rencontre cet organisme! Quelle famille?

Avons nous les bons outils? BLAST: comparaisons 2 à 2 on voudrait comparer toutes les séquences entre elles simultanément Pourquoi?

MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD QDDHLWNDHGSQSSFVEMTIL MYYVRPSLKTSILAFGETWYVLKIE MKLISTHTVLAGQRTLEKKIS

MSTTRWLLGTSQQVTYESSIL QDDHLWNDHGSQSSFVEMTIL MSTTRWLLGTSQQVTYESSIL MKLISTHTVLAGQRTLEKKIS MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD MSTTRWLLGTSQQVTYESSIL MYYVRPSLKTSILAFGETWYVLKIE

MSTTRWLLGTSQQVTYESSIL...E.....E......E......E... alignement multiple:permet d'identifier les AA/nucléotides invariants dans des séquences homologues "pression évolutive" fonction? ("pourquoi le glutamate est-il conservé dans toutes les séquences???")

Exemple: RNA polii T>N L>T

Conclusion: annotation de séquences = enquête de voisinage... 1. est ce que la séquence d'adn est potentiellement codante? ORFfinder 2. est ce que cet ORF correspond à une protéine? BLAST 3. quelle est la fonction potentielle de la protéine? BLAST, INTERPROSCAN 4. quelle est son histoire évolutive/ son origine? Clustalw ClustalNJ, PhyML