Prédiction de gènes. Présentation du problème. Open Reading Frame. HMM (Modèles de Markov cachés) Fonctionnement Exemples Limites



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Contrôle de l'expression génétique :

VI- Expression du génome

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Bases moléculaires des mutations Marc Jeanpierre

Identification de nouveaux membres dans des familles d'interleukines

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

PARTIE I Compte pour 75 %

Cours 3 : Python, les conditions

Bases de données des mutations

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Bibliographie Introduction à la bioinformatique

Bases de données et outils bioinformatiques utiles en génétique

Apprentissage Automatique

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Séquence 2. L expression du patrimoine génétique. Sommaire

Introduction à la Génomique Fonctionnelle

Big data et sciences du Vivant L'exemple du séquençage haut débit

Resolution limit in community detection

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Modélisation du comportement habituel de la personne en smarthome

CATALOGUE DES PRESTATIONS DE LA

Nombre de marches Nombre de facons de les monter

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Génétique et génomique Pierre Martin

Raisonnement probabiliste

Univers Vivant Révision. Notions STE

MYRIAD. l ADN isolé n est à présent plus brevetable!

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Gènes Diffusion - EPIC 2010

Chapitre 7. Récurrences

Analyse des données de séquençage massif par des méthodes phylogénétiques

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Activité 4. Tour de cartes Détection et correction des erreurs. Résumé. Liens pédagogiques. Compétences. Âge. Matériels

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Que faire lorsqu on considère plusieurs variables en même temps?

MABioVis. Bio-informatique et la

Biomarqueurs en Cancérologie

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

TD de Biochimie 4 : Coloration.

Unité 2 Leçon 2 Les permutations et les combinaisons

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Introduction aux bases de données: application en biologie

Hépatite chronique B Moyens thérapeutiques

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Sur quelques applications des processus de branchement en biologie moléculaire

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

données en connaissance et en actions?

Introduction au Data-Mining

Introduction à l approche bootstrap

Chaînes de Markov au lycée

Y a-t-il une place pour un vaccin thérapeutique contre l hépatite B? H. Fontaine, Unité d Hépatologie Médicale, Hôpital Cochin

Prédiction de la structure d une

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Structure quantique cohérente et incohérente de l eau liquide

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Repérer et utiliser différents types de documents

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Quelques algorithmes simples dont l analyse n est pas si simple

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

DNS Poisoning. Pollution de cache sur des serveurs DNS. Xavier Dalem, Adrien Kunysz, Louis Plair. 15 mars Université de Liège

GOL502 Industries de services

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Fluctuation d une fréquence selon les échantillons - Probabilités

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Modèles et Méthodes de Réservation

Cryptologie. Algorithmes à clé publique. Jean-Marc Robert. Génie logiciel et des TI

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Isolement et Diversité Génétique des Dugongs de Nouvelle Calédonie

LE PROBLEME DU PLUS COURT CHEMIN

IDENTIFIER LES TEMPS DE JEU NE PAS PERDRE LE BALLON

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Détection et prise en charge de la résistance aux antirétroviraux

Le ranking de Augure Influencers La méthodologie AIR en détails

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Analyse de la variance Comparaison de plusieurs moyennes

Transcription:

Présentation du problème Open Reading Frame Fonctionnement Exemples Limites Procaryotes versus eucaryotes Validation des résultats: 1) comparaison de séquences 2) utilisation de données statistiques HMM (Modèles de Markov cachés) Définition Cas procaryote Cas eucaryote 1

But: Identifier des régions d ADN génomique qui encodent des protéines Méthodes: Problème Détection des ORF (Open Reading Frame) - Méthode naïve - Consiste à localiser des régions assez grandes ( + de 100 paires de bases) situées entre un codon START et un codon STOP Comparaison de séquences - souvent utilisée comme validation d un ORF - recherche la similarité entre l ORF trouvé et les séquences d ARNm ou protéiques disponibles dans les banques de données Statistique - utiliser des statistiques particulières sur des régions de séquences, des espèces etc. pour valider ou trouver une région codante 2

Open Reading Frame Un Open Reading Frame ou cadre de lecture ouvert est une région de plus de 100bp située entre un codon START -> Methyanine et un codon STOP: http://www.accessexcellence.org/rc/vl/gg/genetic.html http://psyche.uthct.edu/shaun/sblack/geneticd.html 3

Open Reading Frame (suite) Chaque région d ADN à 6 cadres de lecture différents: 3 dans le sens 5-3 et 3 dans le sens 3-5 (3 sur un brin et 3 sur le brin complémentaire) 5' 3' atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa 1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa M P K L N S V E G F S S F E D D V * 2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat C P S * I A * R G F H H L R T M Y 3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata A Q A E * R R G V F I I * G R C I http://bioweb.uwlax.edu/genweb/molecular/seq_anal/translation/translation.html 3' 5' ttatacatcgtcctcaaatgatgaaaacccctctacgctattcagcttgggcat -1 tta tac atc gtc ctc aaa tga tga aaa ccc ctc tac gct att cag ctt ggg cat L Y I V L K * * K P L T A I Q L G H -2 tat aca tcg tcc tca aat gat gaa aac ccc tct acg cta ttc agc ttg ggc Y T S S S N D E N P S T L F S L G -3 ata cat cgt cct caa atg atg aaa acc cct cta cgc tat tca gct tgg gct I H R P Q R M K T P L R Y S A W A Habituellement, seulement un cadre de lecture est utilisé lors de la traduction d un gène et c est le + long 4

Open Reading Frame (suite) Plusieurs logiciels donnent une représentation graphique des cadres de lecture ouverts Voici un exemple de représentation graphique donnée par le logiciel DNA STRIDER (freeware pour MAC, disponible sur http://www.cellbiol.com/soft.htm): David W. Mount, Bioinformatics Sequence and Genome Analysis, Second Edition, p. 367 5

Remarques et limitations - un cadre de lecture qui n encadre pas un gène devrait avoir de courts ORFs dû à la présence d une grande quantité de codons STOP - Tous les ORF ne sont pas des gènes -> validation avec comparaison de séquences ou statistiques - Comment choisir le bon codon START? # Pas toujours le codon le plus éloigné du codon STOP # On va valider en cherchant des séquences connues pour être situées en début de gènes chez l espèce étudié - Il est possible d avoir plus d un gène sur un ARNm - Il arrive qu il y ait des gènes qui se chevauchent codant deux protéines différentes # Ces gènes sont trouvés dans des cadres de lecture différents 6

Remarques et limitations (suite) - le code génétique d un génome en particulier peut varier du code universel - les gènes courts ne peuvent être détectés par cette méthode - problème avec les gènes d eucaryotes qui contiennent des exons et des introns. Dans ce cas chaque partie codante (exon) n est pas délimitée par un codon START et un codon STOP 7

Procaryotes versus eucaryotes Prédiction chez les procaryotes: Ce qui nous facilite la vie: Plus de 80% du génome est codant Les gènes ont une structure très simple: pas d intron, régions transcrites mais non traduites très courtes Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants 8

Procaryotes versus eucaryotes Prédiction chez les eucaryotes: Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants La structure des gènes est beaucoup plus complexe # Présence d exons non codants (longues régions transcrites mais non traduites) # Présence d introns # Épissage alternatif Faible pourcentage de séquences transcrites (chez l humain, environ 2%) La densité en gènes varie selon les régions d un génome (contenu GC) 9

Problème introns-exons Problème: Chez les eucaryotes, les ORFs peuvent être interrompus par la présence des introns (qui contiennent habituellement plusieurs codons STOP) Solution possible: - construire des modèles informatiques basés sur des statistiques de longueurs, de compositions ou autres caractéristiques des séquences présentes dans les introns d un organisme particulier - ces modèles peuvent reconnaître les introns et les frontières entre introns-exons - les introns peuvent alors être enlevés ce qui joint les exons dans un long ORF qui peut être transcrit pour prédire la séquence protéique 10

Validation des ORFs On peut utiliser des méthodes statistiques ou de la comparaison de séquences pour valider notre ORF: 1) Il a été remarqué que pour les codons présents dans un ORF, la 3ième base est beaucoup plus souvent identique que dans les séquences aléatoires - Cette statistique est vraie peu importe l espèce avec laquelle on travail - Il existe un logiciel: TESTCODE (http://www.genomicsplace.com/ testcode.html) pour valider un ORF selon cette statistique 2) Comparer l ORF traduit en séquences d acides aminés avec les séquences présentes dans les banques de données existantes. 3) On peut tester si les codons de notre ORF correspondent à des codons utilisés dans d autres gènes du même organisme - pour ce test, on a besoin d information sur le % d apparition en moyenne d un codon particulier dans les gènes d un espèce 11

Validation des ORFs (suite) UUU 17.1(512809) UCU 14.9(446155) UAU 12.1(361956) UGU 10.3(308142) UUC 20.5(613217) UCC 17.7(529657) UAC 15.5(463626) UGC 12.6(377700) UUA 7.4(221399) UCA 12.0(358579) UAA 0.7( 21406) UGA 1.2( 36979) UUG 12.7(381325) UCG 4.5(134506) UAG 0.6( 17116) UGG 13.1(392380) Homo sapiens [gbpri]: 83813 CDS's (35876646 codons) ------------------------------------------------------------------------ fields: [triplet] [frequency: per thousand] ([number]) CUU 13.0(388166) CCU 17.4(520986) CAU 10.6(319087) CGU 4.6(138576) CUC 19.7(591041) CCC 20.1(601567) CAC 15.1(451362) CGC 10.7(321492) CUA 7.0(210542) CCA 16.8(503114) CAA 12.0(358796) CGA 6.2(186498) CUG 40.2(1205731) CCG 7.1(211675) CAG 34.4(1030691) CGG 11.7(349511) Homo sapiens AUU 15.8(472168) ACU 13.0(389477) AAU 16.7(499386) AGU 12.0(360406) AUC 21.1(633572) ACC 19.2(574769) AAC 19.2(575759) AGC 19.5(584628) AUA 7.2(216924) ACA 14.9(446261) AAA 23.9(717175) AGA 11.7(350438) AUG 22.2(664767) ACG 6.2(185097) AAG 32.2(965496) AGG 11.7(350668) GUU 10.9(328023) GCU 18.5(555789) GAU 21.9(656552) GGU 10.8(323268) GUC 14.7(439612) GCC 28.4(849789) GAC 25.5(765702) GGC 22.6(678626) GUA 7.0(210447) GCA 15.9(477991) GAA 28.8(862606) GGA 16.4(491144) GUG 28.6(858400) GCG 7.6(227382) GAG 40.0(1198968) GGG 16.5(495078) Escherichia coli B [gbbct]: 11 CDS's (3771 codons) ------------------------------------------------------------------------ fields: [triplet] [frequency: per thousand] ([number]) UUU 28.9( 109) UCU 8.5( 32) UAU 18.6( 70) UGU 4.2( 16) UUC 18.8( 71) UCC 8.0( 30) UAC 8.5( 32) UGC 5.8( 22) UUA 17.5( 66) UCA 6.1( 23) UAA 1.9( 7) UGA 0.8( 3) UUG 18.6( 70) UCG 11.4( 43) UAG 0.3( 1) UGG 12.7( 48) Escherichia coli B CUU 12.7( 48) CCU 5.8( 22) CAU 9.3( 35) CGU 16.4( 62) CUC 14.1( 53) CCC 2.4( 9) CAC 7.2( 27) CGC 18.8( 71) CUA 3.4( 13) CCA 7.4( 28) CAA 13.5( 51) CGA 2.4( 9) CUG 54.9( 207) CCG 24.9( 94) CAG 24.7( 93) CGG 5.0( 19) AUU 33.9( 128) ACU 7.7( 29) AAU 21.2( 80) AGU 9.0( 34) AUC 31.0( 117) ACC 25.2( 95) AAC 15.9( 60) AGC 14.3( 54) AUA 5.0( 19) ACA 6.1( 23) AAA 29.2( 110) AGA 2.4( 9) AUG 37.4( 141) ACG 14.6( 55) AAG 8.8( 33) AGG 2.1( 8) http://www.kazusa.or.jp/codon/ GUU 19.6( 74) GCU 13.8( 52) GAU 30.0( 113) GGU 24.4( 92) GUC 14.3( 54) GCC 25.5( 96) GAC 15.1( 57) GGC 33.1( 125) GUA 10.6( 40) GCA 19.6( 74) GAA 29.4( 111) GGA 8.2( 31) GUG 33.9( 128) GCG 32.6( 123) GAG 18.0( 68) GGG 14.3( 54) 12

Validation des ORFs (suite) 4) Chaque espèce à des patterns spécifiques d utilisation des codons synonymes (codons représentants le même acide aminé) 5) Les codons utilisés dans les gènes fortement exprimés diffèrent des codons utilisés dans les gènes faiblement exprimés 6) Les organismes ayant un contenu GC important ont très souvent un G ou un C à la troisième position des codons apparaissant dans des ORFs 7)... 13

Chaînes de Markov Une chaîne de Markov est une séquence d événements aléatoires X 0,X 1,..., faisant partie d un ensemble possible d états S = {s 1,s 2,...,s N }, qui satisfait la propriété de Markov: P(X n+1 = s X 0 = s 0,X 1 = s 1,...X n = s n )=P(X n+1 = s X n = s n ) i.e le prochain état dans lequel on sera ne dépend que de l état où l on est présentement et non des états passés Une chaîne de Markov a une distribution de probabilités initiales π = {π 1,π 2,...,π N } où et un ensemble de probabilités de transitions p ij = P(X n+1 = s j X n = s i ) P(X 0 = s i )=π i 14

Chaînes de Markov (suite) Exemple de chaînes de Markov*: Ensemble d états S = {a,b,c} 0.2 Dans ce graphe, les flèches indiquent les transitions possibles et les étiquettes indiquent les probabilités de transitions 0.8 1.0 0.3 Ex: P(X n+1 = b X n = c)=0.3 0.2 0.5 a b c a 0 0 1 b 0.8 0.2 0 c 0.2 0.3 0.5 * adapté de HMM-based gene prediction de M. Alexandersson 15

HMM: Modèles de Markov cachés Dans les modèles de Markov cachés, on a une chaîne de Markov X 0,X 1,... prenant des valeurs dans un ensemble d états S = {s 1,s 2,...,s N }. Par contre ici, au lieu d observer les valeurs de X 0,X 1,..., on observe des valeurs Y 0,Y 1,... qui sont une fontion des états de S. Exemple: HMM-based gene prediction de M. Alexandersson Ici, les états sont deux dés, le dé A et le dé B. Par contre, les valeurs observées seront 1, 2, 3, 4, 5 ou 6. 16

HMM: Modèles de Markov cachés (suite) Supposons que A est un dé normal et B, un dé truqué. HMM-based gene prediction de M. Alexandersson Comme pour la chaîne de Markov, on a des probabilités de transitions entre le dé A et et le dé B (données par les transitions du graphe) Ici, on aura aussi une distribution pour les événements de sorties (ici 1,2,3,4,5,6) Comme A est un dé normal, on a que B est un dé biaisé e i (y)=p(y n = y X n = s i ) e A (1)=e A (2)=e A (3)=e A (4)=e A (5)=e A (6)=1/6 e B (1)=e B (2)=e B (3)=e B (4)=e B (5)=1/10 e B (6)=5/10 = 1/2 17

HMM: Modèles de Markov cachés (suite) Utilisation des HMMs: Étant donnée une séquence de sortie, trouver le meilleur chemin (celui ayant la plus grande probabilité) parmi l ensemble d états pour cette sortie. Dans notre exemple: supposons qu on observe la sortie 66361. On se demande quelle est la suite de dés la plus probable pour cette sortie, d après notre modèle: HMM-based gene prediction de M. Alexandersson Au total, il y a ici 2 5 chemins possibles. On peut les calculer tous ou utiliser un algorithme appelé : algorithme de Viterbi http://www.cim.mcgill.ca/~latorres/viterbi/va_main.html 18

19

20

21

22

Quelques logiciels de prédiction utilisant les HMM FGENES (Solovyev et al., 1995) http://linux1.softberry.com/berry.phtml Genehacker (Hirosawa et al., 1997) GeneMark (Lukashin et al., 1998) http://www-btls.jst.go.jp/genehacker/ http://opal.biology.gatech.edu/genemark/ Genie (Kulp et al., 1996) http://www.fruitfly.org/~martinr/doc/genie.html... 23

24