maria barbi (10 janvier 2005)

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

VI- Expression du génome

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Univers Vivant Révision. Notions STE

Bases moléculaires des mutations Marc Jeanpierre

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Séquence 2. L expression du patrimoine génétique. Sommaire

Génétique et génomique Pierre Martin

Base de données bibliographiques Pubmed-Medline

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Big data et sciences du Vivant L'exemple du séquençage haut débit

Perl Orienté Objet BioPerl There is more than one way to do it

TD de Biochimie 4 : Coloration.

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

Consignes pour les travaux d actualité Premier quadrimestre

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Introduction aux bases de données: application en biologie

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Chapitre 7 : Structure de la cellule Le noyau cellulaire

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Extraction d information des bases de séquences biologiques avec R

Génomique Comparative et intégrative

Alarme domestique- Présentation

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

L universalité et la variabilité de l ADN

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Contrôle de l'expression génétique :

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

TP N 3 La composition chimique du vivant

MYRIAD. l ADN isolé n est à présent plus brevetable!

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Enregistrement et transformation du son. S. Natkin Novembre 2001

Cellules procaryotes Service histologie Pr.k.mebarek

CATALOGUE DES PRESTATIONS DE LA

Mesures et incertitudes

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

MABioVis. Bio-informatique et la

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Cours 3 : Python, les conditions

Conférence technique internationale de la FAO

LES DECIMALES DE π BERNARD EGGER

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Structure quantique cohérente et incohérente de l eau liquide

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Analyse des données de séquençage massif par des méthodes phylogénétiques

Techniques de Lyapunov en contrôle quantique pour le couplage dipolaire et polarisabilité

Chap17 - CORRECTİON DES EXERCİCES

Memento de la recherche documentaire en santé

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Physique Chimie. Utiliser les langages scientifiques à l écrit et à l oral pour interpréter les formules chimiques

Comité permanent du droit des marques, des dessins et modèles industriels et des indications géographiques

Bases de données et outils bioinformatiques utiles en génétique

Rappel sur les bases de données

Chaînes de Markov au lycée

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Transformations nucléaires

Continuité en un point

Hépatite chronique B Moyens thérapeutiques

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Résonance Magnétique Nucléaire : RMN

Document d orientation sur les allégations issues d essais de non-infériorité

Bibliographie Introduction à la bioinformatique

Introduction à la Génomique Fonctionnelle

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

EXERCICE II. SYNTHÈSE D UN ANESTHÉSIQUE : LA BENZOCAÏNE (9 points)

avec des nombres entiers

Nom de l application

RNV3P Recherche de pathologies émergentes

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Création et développement d une base de données sur le VIH

Bases de données des mutations

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

GUIDE Excel (version débutante) Version 2013

Comment interroger PubMed pour accéder aux revues en ligne AP-HP sur Intranet

ANTIVIRAUX ET INTERFERONS LES ANTIVIRAUX

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

A.3 Les méthodes : L applicabilité

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Identification de nouveaux membres dans des familles d'interleukines

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Application de l'analyse multifractale à l'estimation des crues extrêmes en Tunisie

Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Ondes gravitationnelles de basses fréquences et relativité

Transcription:

Étude des séquences d ADN maria barbi (10 janvier 2005) 1 Introduction 1.1 Le code génétique La fonction de l ADN est de fournir les indications nécessaires à la fabrication des protéines dont l organisme a besoin. L instruction pour cette opération est inscrite dans la molécule d ADN sous la forme d une séquence de quatre bases azotées, Adénine (A), Cytosine (C), Guanine (G), Tymine (T). La synthèse protéique commence par une phase de transcription, où une partie d ADN est recopié dans une séquence d ARN messager, puis cet ARN est utilisé pour assembler dans le bon ordre la séquence d acides aminées qui forme la protéine (traduction). Le code génétique est le système de correspondance qui permet à la cellule de fabriquer des protéines à partir de son ADN. Il traduit des mots de l ADN en chaînes d acides aminés. Ces mots sont formés par groupes de trois bases, appelées codons. Chaque codon correspond à un acide aminé (par exemple, le codon AAT de l ADN correspond à l acide aminé leucine ) ; l ordre des codons correspond à l ordre des acides aminés dans la protéine. Le code génétique est universel : chez tous les êtres vivants, un même triplet de nucléotides correspond à un même acide aminé. Le code génétique est dégénéré : les codons différents ne codent pas forcement pour des acides aminés différents. Les différents codons qui codent pour le même acide aminé sont dit synonymes. En effet, quatre nucléotides (A, C, T, G) sont possibles pour chacune des trois positions du codons : on peut ainsi former 4 4 4 = 64 codons différents, alors que les acides aminés sont en nombre de 20 seulement. Il y a donc une certaine redondance dans le code génétique. On a remarqué que tous les codons associés à un même acide aminé ne sont pas présents avec la même fréquence dans les séquences codantes. Ce biais dans l emploi des codons est propre au génome : quand il existe, il est identique pour la majorité des protéines d un organisme. On a aussi montré qu il y avait une forte corrélation entre la fréquence d utilisation des codons synonymes et la fréquence de leur ARN de transfert dans le cytoplasme (ARNt, les petites unités d ARN chargées de porter chaque acide aminé en solution et de lire l ARN messager pour aligner ces acides aminés avec sa séquence). Cette corrélation est importante pour les gènes hautement exprimés alors que les gènes peu exprimés montrent des fréquences des codons synonymes plus ou moins similaires. On en a déduit que les codons synonymes les plus utilises sont ceux qui sont reconnus par la classe d ARNt la plus abondante. Dans ces projets, on pourra mettre en évidence ce caractère non aléatoire de l utilisation des codons dans certaines séquences d ADN grâce à une étude de leur spectre en fréquence. 1.2 ADN codant et non codant Le génome humain contient autour de 3 milliards de bases azotées. Cette information pourrait suffire à coder plus de trois millions de types de protéines en sachant qu une protéine est formée en moyenne par 300 acides aminés (donc 900 bases ou 300 triplets). Or, cela ne correspond pas au nombre de protéines différentes que l on 1

Fig. 1 Le code génétique peut retrouver chez les organismes supérieures : on estime qu il y a entre 10000 et 30000 protéines différentes dans un organisme. Il y a donc un excès important de bases sur l ADN. On parle alors d ADN dit codant, et d ADN non codant qui ne sert pas (pas directement en tous cas) pour la synthèse des protéines. La fonction des séquences non codantes n est pas bien connue, mais on commence aujourd hui à envisager soit une fonction régulatrice des phénomènes plus spécifiquement associés à la transcription et à la réplication de l ADN, soit un rôle dans l organisation de la molécule dans le noyau cellulaire, etc. Cet ADN non codant n est généralement pas ou peu présent dans les procaryotes (cellules privées de noyau cellulaire) et dans les virus, mais peut être une portion très importante du génome des eucaryotes (cellules avec noyau cellulaire, organismes supérieurs). On estime que seulement 10 % des bases de l ADN humain sont codantes. Des régions non codantes peuvent être présentes aussi dans les gènes (unités de transcription). La région codante d un gène est appelée exon. Un gène renferme plusieurs exons et ceux-ci ne sont pas disposés les uns à côté des autres. Ils sont séparés par des régions appelées introns dont la séquence n est pas utilisé lors de la synthèse d une protéine. Il peut exister plusieurs introns dans un même gène, avec un nombre total de bases plus grand que pour les exons. Les projets proposent aussi de comparer le spectre d un ADN procaryote à celui d un ADN eucaryote, et d en analyser et interpréter les différences sur la base des considérations précédentes. 1.3 Corrélation longue portée dans l ADN Si le rôle des nombreuses séquences non codantes est lié à l organisation spatiale de l ADN, l ordre temporel des phénomènes qui l impliquent, la régulation de l intensité de ces phénomènes, leur coordination etc., on est tenté d imaginer que ces séquences ne soient pas aléatoires, mais possèdent une organisation interne complexe. De plus, leur rôle dans l organisation du fonctionnement de l ADN laisse soupçonner que cette organisation soit plutôt répandue sur des longues distances. 2

En mots plus concrets, une corrélation doit exister entre portions de séquences bien distantes le long de la molécule. En effet, des corrélations longue portée on été mis en évidence pour les ADN riches en séquences non codantes. Il existe différentes hypothèses sur l origine exacte de ces corrélations : une réponse définitive n existe pas encore, et ce problème fait l objet d études actuellement en développement, qui impliquent, d ailleurs, des techniques d analyse des signaux de plus en plus évoluées. 3

projets 1 et 2 Récupérer dans la banque de données NCBI (National Center for Biotechnology Information, site internet http://www.ncbi.nlm.nih.gov/) la séquence de bases du génome complet du virus bactériophage Lambda (lambda phage, séquence de 48502 bases) et la séquence de nucléotides correspondante au récepteur des cellules T humain nommée HUMTCRADCV (97630 bases). Utiliser le mode de display nommé FASTA (ou TinySeq XLM) pour obtenir les séquences sous un format plus compact et les sauver dans deux fichiers. Éliminer tous les commentaires et modifier le format des fichiers de telle sorte que la séquence de bases soit écrite sur une colonne continue. Écrire un programme scilab pour lire la séquence de lettres, puis la traduire en séquence numérique en utilisant un code de son choix (on peut par exemple associer les bases puriniques A et G à la valeur 1 et les pyrimidiques, C et T à la valeur 1, ou à 0. Alternativement, on peut associer différemment les bases en couples, ou bien en choisir une à opposer à toutes les autres, etc.). projet 1 Étudier le spectre en fréquence des différentes séquences considérées comme des signaux temporels échantillonnés, les comparer à celui d un signal du même type complètement aléatoire. Décrire les résultats obtenus et essayer de les expliquer. Que peut-on conclure sur la nature des deux ADN considérés? Étudier l effet de l usage d un code différent pour la numérisation du signal. Étudier la fonction corrélation des différentes séquences considérées comme des signaux temporels échantillonnés, les comparer à ce d un signal du même type complètement aléatoire. Décrire les résultats obtenus et essayer de les expliquer. Que peut-on conclure sur la nature des deux ADN considérés? Étudier l effet de l usage d un code différent pour la numérisation du signal. projet 2 Une petite bibliographie de référence sur ces thèmes est donnée. Faire une synthèse de ces articles en expliquant quelles sont les méthodes utilisées pour l étude des séquences génomiques, les informations que ces méthodes permettent d obtenir et l interprétation des résultats obtenus par les différents auteurs. En collaboration avec l étudiant qui s occupe du premier projet, expliquer les résultats obtenus ainsi que les difficultés et les avantages des différentes méthodes d analyse des séquences. Bibliographie : Voss, Evolution of long-range Fractal correlations and 1/f noisein DNA base sequences, Prhysical Review E 68, 3805 (1992). Buldyrev et al, Long-range correlation properties of coding and noncoding DNA sequences : GenBank analysis, Phys. Rev. E 51, 5084 (1995) Allegrini et al, Dynamical models for DNA sequences, Physical Review E 52, 5281 (1995) ( Introduction ). Li, The complexity of DNA, Complexity 3, 33 (1997). 4

Note technique Pour traduire la séquence de lettres en séquence numérique, on peut envisager de passer par la séquence numérique des codes ascii associés aux quatre lettres par scilab, puis substituer à ces valeurs les valeurs souhaitées. Alternativement, le passage à la séquence numérique peut être fait directement avec l éditeur de texte (dans une copie du fichier texte de départ). Fonctions scilab qui peuvent résulter utiles pour le projet : ascii find fft strsubst read str2code rand round corr Voici enfin des instructions pour les traduire (sous scilab) en séquences numeriques. 1) scilab contient un codage propre pour tous les caractères : -->ascii("a") ans = 65. on peux donc l utiliser, et il est bien de le definir dans son propre fichier avec des noms : // ascii code of A ca=65 ; // code of A (de meme pour C G et T) 2) nous voulons par contre un code à nous, à definir aussi, par exemple : my ca=1 ; // my code of A (et aussi pour T G C) 3) la séquence peut se lire avec read : il faut specifier le nom du fichier, le nombre de lignes, le nombre de colonnes, et le format : pour ce dernier utiliser (a). 4) Une fois obtenue la sequence (dans une variable seq par exemple) on peux la convertir dans le code ascii avec la commande ascs = ascii(seq) (faire clear seq en suite pour nettoyer la memoire). 5) Apres on definira un vecteur nul (qu on appelle ici s) de longuer appropriée, 6) et pour changer le code, on peut utiliser la methode suivante : idx=find(ascs==ca); s(idx)=my ca*ones(length(idx),1); (de meme pour C T G : à chaque passage verifier ce que s devient.. ) (faire clear ascs après). 5