Introduction : La bioinformatique



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

VI- Expression du génome

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Contrôle de l'expression génétique :

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

Bases moléculaires des mutations Marc Jeanpierre

Cours 3 : Python, les conditions

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Identification de nouveaux membres dans des familles d'interleukines

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Séquence 2. L expression du patrimoine génétique. Sommaire

Analyse dialectométrique des parlers berbères de Kabylie

Génomique Comparative et intégrative

Big data et sciences du Vivant L'exemple du séquençage haut débit

Biomarqueurs en Cancérologie

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

CATALOGUE DES PRESTATIONS DE LA

Univers Vivant Révision. Notions STE

choisir H 1 quand H 0 est vraie - fausse alarme

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

TD de Biochimie 4 : Coloration.

Bases de données des mutations

Solution de stress test Moody s Analytics

Gènes Diffusion - EPIC 2010

OpenOffice.org Présentation - Débuter. Distribué par Le projet OpenOffice.org

Analyse des données de séquençage massif par des méthodes phylogénétiques

Le passage d un ordre de bourse, sa comptabilisation et la gestion des conflits d intérêts

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Apprentissage Automatique

À l'intention des parents

Constituer et gérer une bibliographie avec le logiciel zotero. Support de cours et liens utiles

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Projet Pédagogique Conférence interactive HUBERT REEVES Vendredi 13 mars H

Mes premiers diaporamas avec Open Office Impress?

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VI ALEAS. 6.1.Généralités.

IlliS. Le ribosome bactérien : structure et fonctions SYNTHÈSE

Cellules procaryotes Service histologie Pr.k.mebarek

Standard du Commerce Equitable Fairtrade. les organisations de petits producteurs

Salle de technologie

Tarif MediaSpecs plate-forme Valable à partir du 01/01/2015

Systèmes de transport public guidés urbains de personnes

La crise n'a pas entamé la générosité des belges

Les OGM. 5 décembre Nicole Mounier

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

I. La levure Saccharomyces cerevisiae: mode de vie

Géographie CM2. Guide pédagogique. Ressources vidéoprojetables & 14 animations interactives. Jacques Arnaud Nicole Darcy Daniel Le Gal

Tableau 1. Liste (non exhaustive) des protéines se localisant dans les P-Bodies

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Sommaire. 2. Utiliser la télécommande Télécommande Administrateur Télécommande Utilisateur Échanger une télécommande...

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Evaluation de la variabilité d'un système de mesure

Direction des Ressources Humaines 14/10/04 CLASSIFICATION DU GROUPE CREDIT COOPERATIF

Numéro du document: N 073. Compte rendu de la réunion du GT méthodologie générale du 26 mars 2013

Économie d énergie dans les centrales frigorifiques : La haute pression flottante

Plan d action de l ISO pour les pays en développement

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Open Office - Présentation

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Service Utilisateur Concept, configuration et bonnes pratiques

PREVISION DU BESOIN EN FONDS DE ROULEMENT - PRINCIPES

Initiation à LabView : Les exemples d applications :

Diigo : fonctions avancées

Accident de voiture : six bons réflexes pour remplir le constat amiable

Baccalauréat technologique

BeLearner.com, en 5 leçons!

TUTORIEL IMPRESS. Ouvrir Impress cocher «présentation vierge», «suivant» cocher «écran», «suivant» cocher «standard», «créer»

Initiation à la recherche documentaire

Domain Name System. F. Nolot

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Manuel d utilisation de l outil collaboratif

Tutoriel : logiciel de présentation Openoffice Impress

Transmission d informations sur le réseau électrique

A.-M. Cubat Mise à jour de PMB Passer à une version plus récente du logiciel Page 1 Source :

DOSSIER DE GESTION. Sommaire

Dossier technique. Présentation du bus DMX et Utilisation des options EL13 / EL14 ERM AUTOMATISMES INDUSTRIELS 1 LE PROTOCOLE DMX 2

La fonction exponentielle

Bases de données et outils bioinformatiques utiles en génétique

VI. Tests non paramétriques sur un échantillon

Chapitre 1: Facteurs d'échelle

Relation entre deux variables : estimation de la corrélation linéaire

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

LOCAL TRUST Charte Open-Source

ASSURANCE PROSPECTION - GLOSSAIRE DES DÉPENSES

Aperçu rapide de PC BSD 1.2.

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Hépatite chronique B Moyens thérapeutiques

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Systèmes de transmission

Recherche bibliographique

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

Transcription:

BI Cours 1 et 2 Introduction à la Bio-informatique et la Génomique Biais de composition des séquences Introduction : La bioinformatique Qu'est-ce que c'est? C'est répondre à des problématiques biologiques en utilisant des méthodes informatiques. Comment ça se passe? A partir d'une problématique biologique et éventuellement de données expérimentales (séquençage, puces à ADN, données d'interaction, RNA-seq, etc.), la bioinformatique permet un traitement massif et rapide du problème afin de réduire les champs d'investigation à venir et/ou de formuler des prédictions. Les prédictions établies sur la base d'une méthodologie bio-informatique sont ensuite validées (ou invalidées) expérimentalement. Rien n'empêche que la bioinformatique soit l'élément déclenchant du questionnement. Importance du dialogue Biologiste/(Bio-)Informaticien. Interfaces fréquentes avec d'autres disciplines telles que la physique, les mathématiques, les statistiques. Pour quoi faire? Champs d'investigation vastes et variés. Quelques exemples : Analyse de séquences (comparaisons, recherche de motifs/domaines, recherche de répétitions, recherche de biais du contenu, etc.) Prédictions de structures tri-dimensionnelles (protéines,arns) Bases de données pour stocker et mettre à disposition les données (séquences) ou répertorier des plans expérimentaux (Limms) Analyses phylogénétiques et évolutives (classification, arbre, étude des pressions évolutives) Et bien d'autres. Dans ce module, on insistera surtout sur les méthodes bioinformatiques de la génomique. La Génomique Qu'est-ce que c'est? C'est la science/le domaine (-omique) 1 qui étudie les génomes en se basant sur leur séquence. Les analyses génomiques concernent les génomes individuellement et les uns par rapport aux autres => Génomique comparative Oui mais un génome? 1On parle aussi de protéomique, transcriptomique, métagénomique, etc.

C'est l'ensemble du matériel génétique d'un organisme, c'est à dire les gènes codants (=> protéines) ou non codants (ARNt, ARNr ARNi, snarn, snoarn et microarn), les signaux de régulation (séquences types «boîtes» par ex.) et plus encore... J'en veux un facile! Les données issues du séquençage sont stockées dans des banques de données. Certaines données sont privées mais de nombreux génomes complètement séquencés sont publiques et leur séquence est disponible en ligne. Par exemple, au NCBI (http://www.ncbi.nlm.nih.gov/genome/browse/) ou à l'embl-ebi (http://www.ebi.ac.uk/genomes/). Depuis les années 80, séquençage de génomes complets (de + en + grand). Maintenant métagénome aussi. Séquençage de + en + rapide. EMBL-EBI : (Janvier 2014) 2615 bactéries, 171 eucaryotes, 3490 virus, 1514 phages Ça ressemble à quoi? C'est une longue série des bases A,C,G,T des acides nucléiques qui composent l'adn de l'organisme étudié. On parle de séquence brute. Le format standard pour échanger ce type de données est le format FASTA 2. Il se compose d'une ligne d'entête (> suivi d'un identifiant/commentaire sur la nature et l'origine des données) puis la séquence elle même sur les lignes suivantes avec un nombre fixe de caractères par ligne (nbre variable d'un fichier à un autre, autour de 60 à 80). Pour un génome qui contient plusieurs chromosomes, le fichier est souvent un «fasta multiple» qui contient autant de '>' et de séquences qu'il y a de chromosomes (les uns à la suite des autres). Rque importante : Où commence cette séquence?? arbitraire sinon comment choisir? Surtout si molécule circulaire. ORI pour les bactéries? Qu'est-ce qu'on en fait? Etude des caractéristiques générales : Les génomes sont de tailles variables (de 160 kb à 10Mb pour les bactéries). Quelques repères de taille : Virus : de quelques Kb à 10^5 bp et jusqu'à 1200 gènes (mimivirus) E. coli (K12) : 4,6Mb 4400 gènes Levure : 1,4x10^7 bp, 6000 gènes Drosophile : 1x10^8 bp, 12000 gènes Homme/Souris : 3x10^9 bp, 35000 gènes Rq : k=10^3, M=10^6, G=10^9 Composition en nt Règles de Chargaff (1950!!) Dans une molécule double brin A=T et G=C => attribué plus tard (1953) aux appariements Watson Crick dans le double hélice d'adn Au sein du même brin (et à l'échelle macroscopique) A=T et G=C!!! On ne sait toujours pas 2 Le format fasta est aussi le format des séquences pour les gènes, les protéines, etc.

Le %GC pourquoi même si la présence d'éléments inversés répétés contribuent à maintenir cet équilibre Les génomes présentent des compositions en bases différentes (de 16 à 75% de GC chez les bactéries). Taux variable aussi chez les génomes eucaryotes. Quand le %GC d'un génome s'éloigne de la moyenne, on dit que sa composition est biaisée (génome GC riche ou AT riche) même si il n'y a pas vraiment de norme en la matière du fait des différences constatées. Le %GC sur la 3ième base du codon (%GC3) reflète le taux de GC du génome en l'absence de contrainte (évolution neutre) du fait du wooble (mutation silencieuse sur la 3ième base du codon). Le %GC3 est une caractéristique utilisée surtout chez les vertébrés (du fait de la faible densité de codant). On a pu remarqué que les génomes courts ont un plus faible pourcentage en GC. On a montré que les organismes ayant un mode de vie parasitique ont un taux de GC plus faible que ceux ayant un mode de vie libre (Rocha and Danchin, 2002). Plusieurs autres corrélations plus moins nettes ont été testées (lien avec la température de croissance, le stress oxydatif, etc.) Il faut noter que ce %GC reflète la composition globale du génome. En fait, celle-ci varie le long du génome et on peut parfois constater d'importantes variations locales. En général, les gènes sont plus riches en GC que le reste du génome. Mais ces variations locales peuvent aussi être liées à des séquences issues de transferts horizontaux et/ou des éléments mobiles. cf image de Mabs ci-après Accident dun GC% qui chute <=> prophage (en vert) ID=*, particulièrement regroupés à cet endroit Caractérisation des éléments d'un génome Annotation des génomes C'est établir le «catalogue» de tous les objets génétiques présents dans le génome. Prédire les gènes codants, les ARN non codants (ARNt, ARNr, etc.), les signaux régulateurs repérables, les éléments mobiles ou transférés, etc. L'annotation peut être syntaxique et fonctionnelle. Comment on le fait? Les techniques sont différentes selon ce qu'on cherche à identifier. On exploite en fait la connaissance des éléments qu'on cherche à identifier pour trouver les signaux assez discriminants pour permettre une détection automatique à partir de la séquence brute. Par exemple, les trna sont repérés en recherchant des séquences susceptibles de s'apparier pour donner la structure secondaire tige/boucle caractéristique + anti-codon (trna-scan). Autre exemple, les ARNr étant très conservés en séquences, on les retrouve par similarité de séquence avec d'autres ARNr déjà connus. Cas particulier de la détection des gènes codants Un gène codant bactérien se caractérise par : Un promoteur constitué d'1 boîte de Pribnow (TTGACa) vers -35, 1 boîte TATA (TatAAT) vers -10 et le site d'initiation de la transcription (A/G). On peut aussi repérér un spacer

d'environ 17bp entre la région -35 et -10. Pribnow Ecoli (%) = T82 T84 G78 A65 C54 a45 TATA Ecoli(%) = T80 A95 T45 A60 a50 T96 NB : notion de consensus et de PSSM fera l'objet d'un prochain cours Un CDS = Coding Sequence débutant par un codon START (très souvent le codon ATG) et se terminant par un codon STOP (TAA,TAG ou TGA) => ORF (Open Reading Frame) le RBS (Ribosome Binding Site) ou séquence de Shine-Dalgarno environ 10 nt avant le start. Cette région s'apparie avec l'arn 16s (aggaggu). Un terminateur Rho dépendants ou pas (tiges-boucles riches en GC) => Autant de signaux qui peuvent permettre de détecter les gènes codant. Mais Problème de sensibilité/spécificité. Trouver tout (ne rien manquer mais sans trop de faux positifs). La recherche de signaux seule s'avère insuffisante. Rq : Pour les gènes eucaryotes, les signaux sont différents (TATA box, 5'UTR,3'UTR et Site PolyA, ilôts CpG des vertébrés, sites donneurs/accepteurs des jonctions introns exons). Autre information détectable : le contenu. En fait le contenu est principalement dans les ORFs (cf biais d'usage des codons). On a pu montré que la différence de composition entre un gène codant et son environnement est détectable si on observe la composition en hexanucléotides (série de 6 nt). On peut ainsi établir des matrices de transition qui reflètent la probabilité d'être ou pas codant (Chaînes de Markov). Ces modèles ont été améliorés en tenant compte de beaucoup plus d'états que codants/non codants en utilisant les HMM et en combinant l'analyse du contenu avec celle des signaux (RBS par exemple). Exemples de logiciels de prédiction : GenMark, Glimmer. Rq : chez les eucaryotes, la nature morcelée en introns/exons des gènes rend plus difficile la détection automatique des gènes (p.ex avec Genscan). L'annotation des gènes eucaryotes est souvent combinée avec l'alignement avec des ESTs (Expressed Sequence Tags) ou des données de RNAseq. Dans tous les cas, il est indispensable de vérifier les annotations automatiques en confrontant les prédictions à des données expérimentales. Cependant, la validation des prédictions par recherche de similarité dans les banques même si elle est intéressante repose sur une hypothèse conservative qui tend à la fois à propager les erreurs et à manquer certains changements (mutations). Aparté sur la notion de phase Pour traduire un ARNm en protéine, les bases sont lues par triplet. Chaque triplet est un codon. A chaque codon correspond un acide-aminé (il peut y avoir plusieurs codons pour un même acide aminé). Ainsi, il existe 3 phases différentes selon laquelle on peut lire les triplets et même 6 si on considère également l'autre sens. Que peux on dire des éléments ainsi catalogués? Quelques éléments remarquables. On constate une inégale répartition des éléments catalogués. Les gènes sont inégalement répartis sur le chromosome (cf représentation de B. subtilis diaporama). En fait, il sont plus nombreux sur le brin qui est répliqué en continu (ou brin précoce). Chez B. subtilis, 75% des gènes sont sur le brin précoce. Pour d autres organismes, le biais n est visible

qu au niveau des gènes essentiels tels que les opérons codant pour les ARN ribosomaux qui sont tous sur le brin précoce chez E. coli. Une explication de ce phénomène vient des interactions entre l ADN polymérase de la fourche de réplication et l ARN polymérase qui effectue la transcription qui soit rentrent en collision (peut être délétère) soient avancent dans le même sens. => sélection favoriserait donc gènes sur brin précoce surtout pour les gènes «essentiels». cf images réplication dans le diaporama Fourche de réplication montre bien que brin précoce et tardif sont inversés de part et d'autre de l'axe ORI-ter. Cf diaporam Les éléments mobiles/transférés peuvent être groupés (liés à des 'spots' de recombinaisons). Variation locale du contenu en GC + contenu atypique (en hexanucléotides par exemple). Cf image de M. abscessus. Biais d'usage du code Les gènes codants sont affectés par un biais d'usage des codons (= du code). 64 codons (statistique!) dont 3 STOP donc 61 codons pour les AA. 20 AA à coder => redondance du code, codons synonymes. Plusieurs codons codent pour un même AA (1,2,3,4 ou 6). cf diapo du code génétique. On a déjà vu que 3ième base moins contrainte (wooble et mutations silencieuses). Mais chaque espèce utilise «préférentiellement» certains codons. Lesquels? Pourquoi? On a pu constaté que : => Les codons favorisés correspondent aux ARNt majoritaires. Certains gènes sont fortement exprimés (protéines traduites en très grand nbre) => Ces gènes présentent la fréquence la plus élevée de codons favorisés. Ceci a permis de définir des codons «optimaux». Ce sont ceux qui permettent les taux de traduction les + élevés. Rque 1 : Chez E. coli, 35 (39?) anticodons de trna différents. Il y a moins d'anticodons différents que de codons distincts. En fait, la reconnaissance trna/codon se fait avec un certain flou ce qui permet a un même trna de reconnaître plusieurs codons synonymes. Il ne les reconnaît cependant pas avec la même affinité => codons «préférés» ou «favorisés». Rque2 : Le biais de composition des génomes (%GC) peut influer sur le biais d'usage des codons. Quelques mesures du biais d'usage du code : RSCU (Relative Synonymous Codon Usage) = fréquence observée / fréquence attendue 1 calcul de RSCU pour chaque codon. Par exemple, chez E.coli. ARG codée par 6 codons différents mais le codon préférentiel est CGC avec 40% de fréquence observée contre 17% (=1/6) de fréquence attendue (RSCU = 2.39). CAI = Codon Adaptation Index calcul pour 1 gène (tient compte de tous les codons du gènes)

=> permet de détecter les gènes fortement exprimés. CAI = CAIobs/CAImax (ne pas utiliser certains gènes tq ribo???) CAIobs = Produit des RSCU pour tous les codons du gènes élevé puissance 1/n où n est le nbre de codons dans le gène CAImax même chose si tous les codons du gènes étaient optimaux. Rq : il existe aussi des mesures indépendantes de l'identification des codons optimaux. Par exemple, Nc:effective Number of Codons. En conclusion, les mesures de bais d'usage du code permettent d'indentifier les gènes fortement exprimés. Ils peuvent aussi permettre d'identifier des gènes issus de transferts horizontaux (provenant d'espèces ayant un usage des codons différent). Le GC skew... GC skew = (G-C)/(G+C) Enrichissement en G ou en C. cf diapos sur le GC-skew A gauche (G<C), Lagging Strand (=tardif) A droite (G>C), Leading Strand (=précoce) Lié à la réplication et aux taux de mutation qui sont différents entre brin précoce et tardif. Le brin tardif étant plus longtemps exposé sous la forme simple brin réagit différemment aux mutations. Essentiellement, la désamination des Cytosines sur le brin précoce. Désamination plus rapide sur ADN simple brin donc sur le complémentaire du brin tardif en cours de synthèse qui est donc le brin précoce de la prochaine génération. Après correction C => T (baisse du nb de C sur brin précoce) => exploité pour détecter Origine de réplication (=ORI) et terminus des bactéries en utilisant une fenêtre glissante.