Présentation du problème Open Reading Frame Fonctionnement Exemples Limites Procaryotes versus eucaryotes Validation des résultats: 1) comparaison de séquences 2) utilisation de données statistiques HMM (Modèles de Markov cachés) Définition Cas procaryote Cas eucaryote 1
But: Identifier des régions d ADN génomique qui encodent des protéines Méthodes: Problème Détection des ORF (Open Reading Frame) - Méthode naïve - Consiste à localiser des régions assez grandes ( + de 100 paires de bases) situées entre un codon START et un codon STOP Comparaison de séquences - souvent utilisée comme validation d un ORF - recherche la similarité entre l ORF trouvé et les séquences d ARNm ou protéiques disponibles dans les banques de données Statistique - utiliser des statistiques particulières sur des régions de séquences, des espèces etc. pour valider ou trouver une région codante 2
Open Reading Frame Un Open Reading Frame ou cadre de lecture ouvert est une région de plus de 100bp située entre un codon START -> Methyanine et un codon STOP: http://www.accessexcellence.org/rc/vl/gg/genetic.html http://psyche.uthct.edu/shaun/sblack/geneticd.html 3
Open Reading Frame (suite) Chaque région d ADN à 6 cadres de lecture différents: 3 dans le sens 5-3 et 3 dans le sens 3-5 (3 sur un brin et 3 sur le brin complémentaire) 5' 3' atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa 1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa M P K L N S V E G F S S F E D D V * 2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat C P S * I A * R G F H H L R T M Y 3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata A Q A E * R R G V F I I * G R C I http://bioweb.uwlax.edu/genweb/molecular/seq_anal/translation/translation.html 3' 5' ttatacatcgtcctcaaatgatgaaaacccctctacgctattcagcttgggcat -1 tta tac atc gtc ctc aaa tga tga aaa ccc ctc tac gct att cag ctt ggg cat L Y I V L K * * K P L T A I Q L G H -2 tat aca tcg tcc tca aat gat gaa aac ccc tct acg cta ttc agc ttg ggc Y T S S S N D E N P S T L F S L G -3 ata cat cgt cct caa atg atg aaa acc cct cta cgc tat tca gct tgg gct I H R P Q R M K T P L R Y S A W A Habituellement, seulement un cadre de lecture est utilisé lors de la traduction d un gène et c est le + long 4
Open Reading Frame (suite) Plusieurs logiciels donnent une représentation graphique des cadres de lecture ouverts Voici un exemple de représentation graphique donnée par le logiciel DNA STRIDER (freeware pour MAC, disponible sur http://www.cellbiol.com/soft.htm): David W. Mount, Bioinformatics Sequence and Genome Analysis, Second Edition, p. 367 5
Remarques et limitations - un cadre de lecture qui n encadre pas un gène devrait avoir de courts ORFs dû à la présence d une grande quantité de codons STOP - Tous les ORF ne sont pas des gènes -> validation avec comparaison de séquences ou statistiques - Comment choisir le bon codon START? # Pas toujours le codon le plus éloigné du codon STOP # On va valider en cherchant des séquences connues pour être situées en début de gènes chez l espèce étudié - Il est possible d avoir plus d un gène sur un ARNm - Il arrive qu il y ait des gènes qui se chevauchent codant deux protéines différentes # Ces gènes sont trouvés dans des cadres de lecture différents 6
Remarques et limitations (suite) - le code génétique d un génome en particulier peut varier du code universel - les gènes courts ne peuvent être détectés par cette méthode - problème avec les gènes d eucaryotes qui contiennent des exons et des introns. Dans ce cas chaque partie codante (exon) n est pas délimitée par un codon START et un codon STOP 7
Procaryotes versus eucaryotes Prédiction chez les procaryotes: Ce qui nous facilite la vie: Plus de 80% du génome est codant Les gènes ont une structure très simple: pas d intron, régions transcrites mais non traduites très courtes Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants 8
Procaryotes versus eucaryotes Prédiction chez les eucaryotes: Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants La structure des gènes est beaucoup plus complexe # Présence d exons non codants (longues régions transcrites mais non traduites) # Présence d introns # Épissage alternatif Faible pourcentage de séquences transcrites (chez l humain, environ 2%) La densité en gènes varie selon les régions d un génome (contenu GC) 9
Problème introns-exons Problème: Chez les eucaryotes, les ORFs peuvent être interrompus par la présence des introns (qui contiennent habituellement plusieurs codons STOP) Solution possible: - construire des modèles informatiques basés sur des statistiques de longueurs, de compositions ou autres caractéristiques des séquences présentes dans les introns d un organisme particulier - ces modèles peuvent reconnaître les introns et les frontières entre introns-exons - les introns peuvent alors être enlevés ce qui joint les exons dans un long ORF qui peut être transcrit pour prédire la séquence protéique 10
Validation des ORFs On peut utiliser des méthodes statistiques ou de la comparaison de séquences pour valider notre ORF: 1) Il a été remarqué que pour les codons présents dans un ORF, la 3ième base est beaucoup plus souvent identique que dans les séquences aléatoires - Cette statistique est vraie peu importe l espèce avec laquelle on travail - Il existe un logiciel: TESTCODE (http://www.genomicsplace.com/ testcode.html) pour valider un ORF selon cette statistique 2) Comparer l ORF traduit en séquences d acides aminés avec les séquences présentes dans les banques de données existantes. 3) On peut tester si les codons de notre ORF correspondent à des codons utilisés dans d autres gènes du même organisme - pour ce test, on a besoin d information sur le % d apparition en moyenne d un codon particulier dans les gènes d un espèce 11
Validation des ORFs (suite) UUU 17.1(512809) UCU 14.9(446155) UAU 12.1(361956) UGU 10.3(308142) UUC 20.5(613217) UCC 17.7(529657) UAC 15.5(463626) UGC 12.6(377700) UUA 7.4(221399) UCA 12.0(358579) UAA 0.7( 21406) UGA 1.2( 36979) UUG 12.7(381325) UCG 4.5(134506) UAG 0.6( 17116) UGG 13.1(392380) Homo sapiens [gbpri]: 83813 CDS's (35876646 codons) ------------------------------------------------------------------------ fields: [triplet] [frequency: per thousand] ([number]) CUU 13.0(388166) CCU 17.4(520986) CAU 10.6(319087) CGU 4.6(138576) CUC 19.7(591041) CCC 20.1(601567) CAC 15.1(451362) CGC 10.7(321492) CUA 7.0(210542) CCA 16.8(503114) CAA 12.0(358796) CGA 6.2(186498) CUG 40.2(1205731) CCG 7.1(211675) CAG 34.4(1030691) CGG 11.7(349511) Homo sapiens AUU 15.8(472168) ACU 13.0(389477) AAU 16.7(499386) AGU 12.0(360406) AUC 21.1(633572) ACC 19.2(574769) AAC 19.2(575759) AGC 19.5(584628) AUA 7.2(216924) ACA 14.9(446261) AAA 23.9(717175) AGA 11.7(350438) AUG 22.2(664767) ACG 6.2(185097) AAG 32.2(965496) AGG 11.7(350668) GUU 10.9(328023) GCU 18.5(555789) GAU 21.9(656552) GGU 10.8(323268) GUC 14.7(439612) GCC 28.4(849789) GAC 25.5(765702) GGC 22.6(678626) GUA 7.0(210447) GCA 15.9(477991) GAA 28.8(862606) GGA 16.4(491144) GUG 28.6(858400) GCG 7.6(227382) GAG 40.0(1198968) GGG 16.5(495078) Escherichia coli B [gbbct]: 11 CDS's (3771 codons) ------------------------------------------------------------------------ fields: [triplet] [frequency: per thousand] ([number]) UUU 28.9( 109) UCU 8.5( 32) UAU 18.6( 70) UGU 4.2( 16) UUC 18.8( 71) UCC 8.0( 30) UAC 8.5( 32) UGC 5.8( 22) UUA 17.5( 66) UCA 6.1( 23) UAA 1.9( 7) UGA 0.8( 3) UUG 18.6( 70) UCG 11.4( 43) UAG 0.3( 1) UGG 12.7( 48) Escherichia coli B CUU 12.7( 48) CCU 5.8( 22) CAU 9.3( 35) CGU 16.4( 62) CUC 14.1( 53) CCC 2.4( 9) CAC 7.2( 27) CGC 18.8( 71) CUA 3.4( 13) CCA 7.4( 28) CAA 13.5( 51) CGA 2.4( 9) CUG 54.9( 207) CCG 24.9( 94) CAG 24.7( 93) CGG 5.0( 19) AUU 33.9( 128) ACU 7.7( 29) AAU 21.2( 80) AGU 9.0( 34) AUC 31.0( 117) ACC 25.2( 95) AAC 15.9( 60) AGC 14.3( 54) AUA 5.0( 19) ACA 6.1( 23) AAA 29.2( 110) AGA 2.4( 9) AUG 37.4( 141) ACG 14.6( 55) AAG 8.8( 33) AGG 2.1( 8) http://www.kazusa.or.jp/codon/ GUU 19.6( 74) GCU 13.8( 52) GAU 30.0( 113) GGU 24.4( 92) GUC 14.3( 54) GCC 25.5( 96) GAC 15.1( 57) GGC 33.1( 125) GUA 10.6( 40) GCA 19.6( 74) GAA 29.4( 111) GGA 8.2( 31) GUG 33.9( 128) GCG 32.6( 123) GAG 18.0( 68) GGG 14.3( 54) 12
Validation des ORFs (suite) 4) Chaque espèce à des patterns spécifiques d utilisation des codons synonymes (codons représentants le même acide aminé) 5) Les codons utilisés dans les gènes fortement exprimés diffèrent des codons utilisés dans les gènes faiblement exprimés 6) Les organismes ayant un contenu GC important ont très souvent un G ou un C à la troisième position des codons apparaissant dans des ORFs 7)... 13
Chaînes de Markov Une chaîne de Markov est une séquence d événements aléatoires X 0,X 1,..., faisant partie d un ensemble possible d états S = {s 1,s 2,...,s N }, qui satisfait la propriété de Markov: P(X n+1 = s X 0 = s 0,X 1 = s 1,...X n = s n )=P(X n+1 = s X n = s n ) i.e le prochain état dans lequel on sera ne dépend que de l état où l on est présentement et non des états passés Une chaîne de Markov a une distribution de probabilités initiales π = {π 1,π 2,...,π N } où et un ensemble de probabilités de transitions p ij = P(X n+1 = s j X n = s i ) P(X 0 = s i )=π i 14
Chaînes de Markov (suite) Exemple de chaînes de Markov*: Ensemble d états S = {a,b,c} 0.2 Dans ce graphe, les flèches indiquent les transitions possibles et les étiquettes indiquent les probabilités de transitions 0.8 1.0 0.3 Ex: P(X n+1 = b X n = c)=0.3 0.2 0.5 a b c a 0 0 1 b 0.8 0.2 0 c 0.2 0.3 0.5 * adapté de HMM-based gene prediction de M. Alexandersson 15
HMM: Modèles de Markov cachés Dans les modèles de Markov cachés, on a une chaîne de Markov X 0,X 1,... prenant des valeurs dans un ensemble d états S = {s 1,s 2,...,s N }. Par contre ici, au lieu d observer les valeurs de X 0,X 1,..., on observe des valeurs Y 0,Y 1,... qui sont une fontion des états de S. Exemple: HMM-based gene prediction de M. Alexandersson Ici, les états sont deux dés, le dé A et le dé B. Par contre, les valeurs observées seront 1, 2, 3, 4, 5 ou 6. 16
HMM: Modèles de Markov cachés (suite) Supposons que A est un dé normal et B, un dé truqué. HMM-based gene prediction de M. Alexandersson Comme pour la chaîne de Markov, on a des probabilités de transitions entre le dé A et et le dé B (données par les transitions du graphe) Ici, on aura aussi une distribution pour les événements de sorties (ici 1,2,3,4,5,6) Comme A est un dé normal, on a que B est un dé biaisé e i (y)=p(y n = y X n = s i ) e A (1)=e A (2)=e A (3)=e A (4)=e A (5)=e A (6)=1/6 e B (1)=e B (2)=e B (3)=e B (4)=e B (5)=1/10 e B (6)=5/10 = 1/2 17
HMM: Modèles de Markov cachés (suite) Utilisation des HMMs: Étant donnée une séquence de sortie, trouver le meilleur chemin (celui ayant la plus grande probabilité) parmi l ensemble d états pour cette sortie. Dans notre exemple: supposons qu on observe la sortie 66361. On se demande quelle est la suite de dés la plus probable pour cette sortie, d après notre modèle: HMM-based gene prediction de M. Alexandersson Au total, il y a ici 2 5 chemins possibles. On peut les calculer tous ou utiliser un algorithme appelé : algorithme de Viterbi http://www.cim.mcgill.ca/~latorres/viterbi/va_main.html 18
19
20
21
22
Quelques logiciels de prédiction utilisant les HMM FGENES (Solovyev et al., 1995) http://linux1.softberry.com/berry.phtml Genehacker (Hirosawa et al., 1997) GeneMark (Lukashin et al., 1998) http://www-btls.jst.go.jp/genehacker/ http://opal.biology.gatech.edu/genemark/ Genie (Kulp et al., 1996) http://www.fruitfly.org/~martinr/doc/genie.html... 23
24