BI Cours 1 et 2 Introduction à la Bio-informatique et la Génomique Biais de composition des séquences Introduction : La bioinformatique Qu'est-ce que c'est? C'est répondre à des problématiques biologiques en utilisant des méthodes informatiques. Comment ça se passe? A partir d'une problématique biologique et éventuellement de données expérimentales (séquençage, puces à ADN, données d'interaction, RNA-seq, etc.), la bioinformatique permet un traitement massif et rapide du problème afin de réduire les champs d'investigation à venir et/ou de formuler des prédictions. Les prédictions établies sur la base d'une méthodologie bio-informatique sont ensuite validées (ou invalidées) expérimentalement. Rien n'empêche que la bioinformatique soit l'élément déclenchant du questionnement. Importance du dialogue Biologiste/(Bio-)Informaticien. Interfaces fréquentes avec d'autres disciplines telles que la physique, les mathématiques, les statistiques. Pour quoi faire? Champs d'investigation vastes et variés. Quelques exemples : Analyse de séquences (comparaisons, recherche de motifs/domaines, recherche de répétitions, recherche de biais du contenu, etc.) Prédictions de structures tri-dimensionnelles (protéines,arns) Bases de données pour stocker et mettre à disposition les données (séquences) ou répertorier des plans expérimentaux (Limms) Analyses phylogénétiques et évolutives (classification, arbre, étude des pressions évolutives) Et bien d'autres. Dans ce module, on insistera surtout sur les méthodes bioinformatiques de la génomique. La Génomique Qu'est-ce que c'est? C'est la science/le domaine (-omique) 1 qui étudie les génomes en se basant sur leur séquence. Les analyses génomiques concernent les génomes individuellement et les uns par rapport aux autres => Génomique comparative Oui mais un génome? 1On parle aussi de protéomique, transcriptomique, métagénomique, etc.
C'est l'ensemble du matériel génétique d'un organisme, c'est à dire les gènes codants (=> protéines) ou non codants (ARNt, ARNr ARNi, snarn, snoarn et microarn), les signaux de régulation (séquences types «boîtes» par ex.) et plus encore... J'en veux un facile! Les données issues du séquençage sont stockées dans des banques de données. Certaines données sont privées mais de nombreux génomes complètement séquencés sont publiques et leur séquence est disponible en ligne. Par exemple, au NCBI (http://www.ncbi.nlm.nih.gov/genome/browse/) ou à l'embl-ebi (http://www.ebi.ac.uk/genomes/). Depuis les années 80, séquençage de génomes complets (de + en + grand). Maintenant métagénome aussi. Séquençage de + en + rapide. EMBL-EBI : (Janvier 2014) 2615 bactéries, 171 eucaryotes, 3490 virus, 1514 phages Ça ressemble à quoi? C'est une longue série des bases A,C,G,T des acides nucléiques qui composent l'adn de l'organisme étudié. On parle de séquence brute. Le format standard pour échanger ce type de données est le format FASTA 2. Il se compose d'une ligne d'entête (> suivi d'un identifiant/commentaire sur la nature et l'origine des données) puis la séquence elle même sur les lignes suivantes avec un nombre fixe de caractères par ligne (nbre variable d'un fichier à un autre, autour de 60 à 80). Pour un génome qui contient plusieurs chromosomes, le fichier est souvent un «fasta multiple» qui contient autant de '>' et de séquences qu'il y a de chromosomes (les uns à la suite des autres). Rque importante : Où commence cette séquence?? arbitraire sinon comment choisir? Surtout si molécule circulaire. ORI pour les bactéries? Qu'est-ce qu'on en fait? Etude des caractéristiques générales : Les génomes sont de tailles variables (de 160 kb à 10Mb pour les bactéries). Quelques repères de taille : Virus : de quelques Kb à 10^5 bp et jusqu'à 1200 gènes (mimivirus) E. coli (K12) : 4,6Mb 4400 gènes Levure : 1,4x10^7 bp, 6000 gènes Drosophile : 1x10^8 bp, 12000 gènes Homme/Souris : 3x10^9 bp, 35000 gènes Rq : k=10^3, M=10^6, G=10^9 Composition en nt Règles de Chargaff (1950!!) Dans une molécule double brin A=T et G=C => attribué plus tard (1953) aux appariements Watson Crick dans le double hélice d'adn Au sein du même brin (et à l'échelle macroscopique) A=T et G=C!!! On ne sait toujours pas 2 Le format fasta est aussi le format des séquences pour les gènes, les protéines, etc.
Le %GC pourquoi même si la présence d'éléments inversés répétés contribuent à maintenir cet équilibre Les génomes présentent des compositions en bases différentes (de 16 à 75% de GC chez les bactéries). Taux variable aussi chez les génomes eucaryotes. Quand le %GC d'un génome s'éloigne de la moyenne, on dit que sa composition est biaisée (génome GC riche ou AT riche) même si il n'y a pas vraiment de norme en la matière du fait des différences constatées. Le %GC sur la 3ième base du codon (%GC3) reflète le taux de GC du génome en l'absence de contrainte (évolution neutre) du fait du wooble (mutation silencieuse sur la 3ième base du codon). Le %GC3 est une caractéristique utilisée surtout chez les vertébrés (du fait de la faible densité de codant). On a pu remarqué que les génomes courts ont un plus faible pourcentage en GC. On a montré que les organismes ayant un mode de vie parasitique ont un taux de GC plus faible que ceux ayant un mode de vie libre (Rocha and Danchin, 2002). Plusieurs autres corrélations plus moins nettes ont été testées (lien avec la température de croissance, le stress oxydatif, etc.) Il faut noter que ce %GC reflète la composition globale du génome. En fait, celle-ci varie le long du génome et on peut parfois constater d'importantes variations locales. En général, les gènes sont plus riches en GC que le reste du génome. Mais ces variations locales peuvent aussi être liées à des séquences issues de transferts horizontaux et/ou des éléments mobiles. cf image de Mabs ci-après Accident dun GC% qui chute <=> prophage (en vert) ID=*, particulièrement regroupés à cet endroit Caractérisation des éléments d'un génome Annotation des génomes C'est établir le «catalogue» de tous les objets génétiques présents dans le génome. Prédire les gènes codants, les ARN non codants (ARNt, ARNr, etc.), les signaux régulateurs repérables, les éléments mobiles ou transférés, etc. L'annotation peut être syntaxique et fonctionnelle. Comment on le fait? Les techniques sont différentes selon ce qu'on cherche à identifier. On exploite en fait la connaissance des éléments qu'on cherche à identifier pour trouver les signaux assez discriminants pour permettre une détection automatique à partir de la séquence brute. Par exemple, les trna sont repérés en recherchant des séquences susceptibles de s'apparier pour donner la structure secondaire tige/boucle caractéristique + anti-codon (trna-scan). Autre exemple, les ARNr étant très conservés en séquences, on les retrouve par similarité de séquence avec d'autres ARNr déjà connus. Cas particulier de la détection des gènes codants Un gène codant bactérien se caractérise par : Un promoteur constitué d'1 boîte de Pribnow (TTGACa) vers -35, 1 boîte TATA (TatAAT) vers -10 et le site d'initiation de la transcription (A/G). On peut aussi repérér un spacer
d'environ 17bp entre la région -35 et -10. Pribnow Ecoli (%) = T82 T84 G78 A65 C54 a45 TATA Ecoli(%) = T80 A95 T45 A60 a50 T96 NB : notion de consensus et de PSSM fera l'objet d'un prochain cours Un CDS = Coding Sequence débutant par un codon START (très souvent le codon ATG) et se terminant par un codon STOP (TAA,TAG ou TGA) => ORF (Open Reading Frame) le RBS (Ribosome Binding Site) ou séquence de Shine-Dalgarno environ 10 nt avant le start. Cette région s'apparie avec l'arn 16s (aggaggu). Un terminateur Rho dépendants ou pas (tiges-boucles riches en GC) => Autant de signaux qui peuvent permettre de détecter les gènes codant. Mais Problème de sensibilité/spécificité. Trouver tout (ne rien manquer mais sans trop de faux positifs). La recherche de signaux seule s'avère insuffisante. Rq : Pour les gènes eucaryotes, les signaux sont différents (TATA box, 5'UTR,3'UTR et Site PolyA, ilôts CpG des vertébrés, sites donneurs/accepteurs des jonctions introns exons). Autre information détectable : le contenu. En fait le contenu est principalement dans les ORFs (cf biais d'usage des codons). On a pu montré que la différence de composition entre un gène codant et son environnement est détectable si on observe la composition en hexanucléotides (série de 6 nt). On peut ainsi établir des matrices de transition qui reflètent la probabilité d'être ou pas codant (Chaînes de Markov). Ces modèles ont été améliorés en tenant compte de beaucoup plus d'états que codants/non codants en utilisant les HMM et en combinant l'analyse du contenu avec celle des signaux (RBS par exemple). Exemples de logiciels de prédiction : GenMark, Glimmer. Rq : chez les eucaryotes, la nature morcelée en introns/exons des gènes rend plus difficile la détection automatique des gènes (p.ex avec Genscan). L'annotation des gènes eucaryotes est souvent combinée avec l'alignement avec des ESTs (Expressed Sequence Tags) ou des données de RNAseq. Dans tous les cas, il est indispensable de vérifier les annotations automatiques en confrontant les prédictions à des données expérimentales. Cependant, la validation des prédictions par recherche de similarité dans les banques même si elle est intéressante repose sur une hypothèse conservative qui tend à la fois à propager les erreurs et à manquer certains changements (mutations). Aparté sur la notion de phase Pour traduire un ARNm en protéine, les bases sont lues par triplet. Chaque triplet est un codon. A chaque codon correspond un acide-aminé (il peut y avoir plusieurs codons pour un même acide aminé). Ainsi, il existe 3 phases différentes selon laquelle on peut lire les triplets et même 6 si on considère également l'autre sens. Que peux on dire des éléments ainsi catalogués? Quelques éléments remarquables. On constate une inégale répartition des éléments catalogués. Les gènes sont inégalement répartis sur le chromosome (cf représentation de B. subtilis diaporama). En fait, il sont plus nombreux sur le brin qui est répliqué en continu (ou brin précoce). Chez B. subtilis, 75% des gènes sont sur le brin précoce. Pour d autres organismes, le biais n est visible
qu au niveau des gènes essentiels tels que les opérons codant pour les ARN ribosomaux qui sont tous sur le brin précoce chez E. coli. Une explication de ce phénomène vient des interactions entre l ADN polymérase de la fourche de réplication et l ARN polymérase qui effectue la transcription qui soit rentrent en collision (peut être délétère) soient avancent dans le même sens. => sélection favoriserait donc gènes sur brin précoce surtout pour les gènes «essentiels». cf images réplication dans le diaporama Fourche de réplication montre bien que brin précoce et tardif sont inversés de part et d'autre de l'axe ORI-ter. Cf diaporam Les éléments mobiles/transférés peuvent être groupés (liés à des 'spots' de recombinaisons). Variation locale du contenu en GC + contenu atypique (en hexanucléotides par exemple). Cf image de M. abscessus. Biais d'usage du code Les gènes codants sont affectés par un biais d'usage des codons (= du code). 64 codons (statistique!) dont 3 STOP donc 61 codons pour les AA. 20 AA à coder => redondance du code, codons synonymes. Plusieurs codons codent pour un même AA (1,2,3,4 ou 6). cf diapo du code génétique. On a déjà vu que 3ième base moins contrainte (wooble et mutations silencieuses). Mais chaque espèce utilise «préférentiellement» certains codons. Lesquels? Pourquoi? On a pu constaté que : => Les codons favorisés correspondent aux ARNt majoritaires. Certains gènes sont fortement exprimés (protéines traduites en très grand nbre) => Ces gènes présentent la fréquence la plus élevée de codons favorisés. Ceci a permis de définir des codons «optimaux». Ce sont ceux qui permettent les taux de traduction les + élevés. Rque 1 : Chez E. coli, 35 (39?) anticodons de trna différents. Il y a moins d'anticodons différents que de codons distincts. En fait, la reconnaissance trna/codon se fait avec un certain flou ce qui permet a un même trna de reconnaître plusieurs codons synonymes. Il ne les reconnaît cependant pas avec la même affinité => codons «préférés» ou «favorisés». Rque2 : Le biais de composition des génomes (%GC) peut influer sur le biais d'usage des codons. Quelques mesures du biais d'usage du code : RSCU (Relative Synonymous Codon Usage) = fréquence observée / fréquence attendue 1 calcul de RSCU pour chaque codon. Par exemple, chez E.coli. ARG codée par 6 codons différents mais le codon préférentiel est CGC avec 40% de fréquence observée contre 17% (=1/6) de fréquence attendue (RSCU = 2.39). CAI = Codon Adaptation Index calcul pour 1 gène (tient compte de tous les codons du gènes)
=> permet de détecter les gènes fortement exprimés. CAI = CAIobs/CAImax (ne pas utiliser certains gènes tq ribo???) CAIobs = Produit des RSCU pour tous les codons du gènes élevé puissance 1/n où n est le nbre de codons dans le gène CAImax même chose si tous les codons du gènes étaient optimaux. Rq : il existe aussi des mesures indépendantes de l'identification des codons optimaux. Par exemple, Nc:effective Number of Codons. En conclusion, les mesures de bais d'usage du code permettent d'indentifier les gènes fortement exprimés. Ils peuvent aussi permettre d'identifier des gènes issus de transferts horizontaux (provenant d'espèces ayant un usage des codons différent). Le GC skew... GC skew = (G-C)/(G+C) Enrichissement en G ou en C. cf diapos sur le GC-skew A gauche (G<C), Lagging Strand (=tardif) A droite (G>C), Leading Strand (=précoce) Lié à la réplication et aux taux de mutation qui sont différents entre brin précoce et tardif. Le brin tardif étant plus longtemps exposé sous la forme simple brin réagit différemment aux mutations. Essentiellement, la désamination des Cytosines sur le brin précoce. Désamination plus rapide sur ADN simple brin donc sur le complémentaire du brin tardif en cours de synthèse qui est donc le brin précoce de la prochaine génération. Après correction C => T (baisse du nb de C sur brin précoce) => exploité pour détecter Origine de réplication (=ORI) et terminus des bactéries en utilisant une fenêtre glissante.