Master Recherche de l Université des Sciences et Technologies de Lille (spécialité informatique)

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

MABioVis. Bio-informatique et la

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Cet article s attache tout d abord

Resolution limit in community detection

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

LES DECIMALES DE π BERNARD EGGER

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Résonance Magnétique Nucléaire : RMN

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Item 169 : Évaluation thérapeutique et niveau de preuve

Document d orientation sur les allégations issues d essais de non-infériorité

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Univers Vivant Révision. Notions STE

Perl Orienté Objet BioPerl There is more than one way to do it

Nom de l application

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Précision d un résultat et calculs d incertitudes

AGROBASE : un système de gestion de données expérimentales

Manuel de recherche en sciences sociales

Gouvernance des mesures de sécurité avec DCM-Manager. Présentation du 22 mai 2014

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Performance Eléments clés de l étude

Rapport d'analyse des besoins

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

Les OGM. 5 décembre Nicole Mounier

CHAPITRE 2 : Structure électronique des molécules

Conférence technique internationale de la FAO

TSTI 2D CH X : Exemples de lois à densité 1

La classification automatique de données quantitatives

Introduction à la B.I. Avec SQL Server 2008

ACTION N 1 Réseau d élevages bovins laitiers en Agrobiologie

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

23. Interprétation clinique des mesures de l effet traitement

TEPZZ A_T EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 ( ) G06K 19/077 (2006.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

TD de Biochimie 4 : Coloration.

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Mesures et incertitudes

Système d information pour la gestion d un réseau d Université

SUGARCRM MODULE RAPPORTS

Associations Dossiers pratiques

EXERCICE II. SYNTHÈSE D UN ANESTHÉSIQUE : LA BENZOCAÏNE (9 points)

Identification de nouveaux membres dans des familles d'interleukines

LIVRE BLANC Décembre 2014

INF6304 Interfaces Intelligentes

Rapport. Examen des méthodes de paiement et des tendances des paiements au Canada Octobre 2012

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

ÉVALUATION DES CONSEILS D ADMINISTRATION/SURVEILLANCE : UN RETOUR D EXPÉRIENCE TRÈS POSITIF DES ADMINISTRATEURS

2 e partie de la composante majeure (8 points) Les questions prennent appui sur six documents A, B, C, D, E, F (voir pages suivantes).

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

Consensus Scientifique sur. les. Champs statiques

Alarme domestique- Présentation

Chaînes de Markov au lycée

II. REVOD Plongée à l ordinateur. Septembre Plan de l exposé

Économie d énergie dans les centrales frigorifiques : La haute pression flottante

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?»

Molécules et Liaison chimique

Présentation du programme. de physique-chimie. de Terminale S. applicable en septembre 2012

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Conseil économique et social

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Rapport de stage. Développement d un logiciel de vidéoconférence : Enjeux 3. Guillaume DOTT 2009

La nouvelle planification de l échantillonnage

ISO/CEI Technologies de l information Gestion des actifs logiciels. Partie 1: Procédés et évaluation progressive de la conformité

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

VI- Expression du génome

1. La production d électricité dans le monde : perspectives générales

L universalité et la variabilité de l ADN

Rapport : Base de données. Anthony Larcher 1

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Comité permanent du droit des marques, des dessins et modèles industriels et des indications géographiques

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Introduction au Data-Mining

Chapitre 7. Récurrences

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

RÉSULTATS DE L OBSERVATOIRE TECHNICO-ÉCONOMIQUE DU RAD Synthèse Exercice comptable 2010

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

ÉCOLE SUPÉRIEURE D INGÉNIEURS DE LUMINY - MARSEILLE

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Une approche à multiples niveaux en matière de sécurité des cartes de paiement

COMMENTAiRES/ DECISIONS

L a d é m a r c h e e t l e s o u t i l s p r o p o s é s

Transcription:

Détection d RN non-codants MÉMOIRE présenté le 4 juillet 2005 pour le stage de Master Recherche de l niversité des Sciences et Technologies de Lille (spécialité informatique) par rnaud Fontaine Hélène Touzet, Maître de Conférences Directrice de stage Jean-Luc Dekeyser, Professeur Responsable du Master Recherche Informatique NIVERSITE DES SCIENCES ET TECHNOLOIES DE LILLE Laboratoire d Informatique Fondamentale de Lille - PRES 8022.F.R d I.E.E. - Bât. M3-59655 Villeneuve d scq Cedex Tél. : +33 (0)3 20 43 47 24 - Télécopie : +33 (0)3 20 43 65 66 - Courriel : direction@lifl.fr

ii

Remerciements Je tiens à remercier en premier lieu ma directrice de stage, Hélène TOZET, pour la patience dont elle a fait preuve à mon égard, et pour l orientation qu elle a donnée à mon travail. Je lui suis également reconnaissant d avoir su me communiquer sa passion pour la recherche. J espère sincèrement que nous pourrons continuer à travailler ensemble. Je remercie l ensemble des membres de l équipe Bioinfo pour leur accueil chaleureux et leur convivialité. n grand merci à ude LIEFOOHE, Matthieu DEFRNCE et Martin FIEC pour leur soutien quotidien, et pour les bons moments que nous avons passés ensemble. Je tiens enfin à remercier le LIFL qui m a accueilli dans ses locaux et qui m a donné les moyens techniques de réaliser mon stage dans de bonnes conditions. iii

iv Chapitre 0. Remerciements

Table des matières Remerciements Introduction iii vii 1 Les RN non-codants 1 1.1 Quelques notions de biologie.............................. 1 1.1.1 Le dogme central................................ 1 1.1.2 n monde d RN............................... 1 1.2 La structure d un RN................................ 2 1.3 L analyse bio-informatique des RN non-codants.................. 3 2 Détection à partir d une séquence 7 2.1 Les signaux biologiques................................ 7 2.1.1 ènes à protéine................................ 7 2.1.2 ènes à RN.................................. 7 2.2 Les biais de composition................................ 8 2.3 Les motifs structuraux................................. 10 2.4 L information thermodynamique........................... 11 2.4.1 Qualité des structures d RN non-codants.................. 11 2.4.2 Structures optimales d RN messagers.................... 15 2.4.3 Sélection des RN messagers......................... 17 2.4.4 Conclusion................................... 17 3 Détection à partir d une famille de séquences 19 3.1 Principe général.................................... 19 3.2 QRN........................................... 20 3.2.1 Le modèle RN................................ 21 3.2.2 Le modèle COD................................ 22 3.2.3 Le modèle OTH................................ 23 3.3 ddbrn.......................................... 23 3.3.1 Détection des appariements conservés.................... 23 3.3.2 Significativité des observations........................ 24 3.4 MSRi.......................................... 24 3.4.1 Recherche de tiges conservées......................... 25 3.4.2 Significativité des observations........................ 26 3.5 RNz........................................... 26 3.5.1 Significativité de la structure commune................... 26 3.5.2 Classification de l alignement......................... 27 v

vi Table des matières 4 Expérimentation et résultats 29 4.1 Le protocole expérimental............................... 29 4.1.1 Les propriétés évaluées............................. 29 4.1.2 Evaluation des performances......................... 30 4.1.3 Les jeux de données.............................. 31 4.2 Les résultats...................................... 32 4.2.1 Résultats généraux............................... 32 4.2.2 Influence de la méthode d alignement.................... 34 4.2.3 Influence du nombre de séquences...................... 36 4.2.4 Influence de la conservation.......................... 36 4.2.5 Influence de la qualité de la structure.................... 37 4.2.6 Conclusion................................... 40 5 Pistes algorithmiques 43 5.1 Essais préliminaires................................... 43 5.1.1 Idées générales................................. 43 5.1.2 Essais avec Carnac............................... 44 5.2 n modèle codant................................... 45 5.2.1 Idées....................................... 45 5.2.2 Implémentation................................. 46 5.3 n modèle RN.................................... 46 5.3.1 Idée générale.................................. 46 5.3.2 Inférence d une structure secondaire incomplète conservée......... 48 5.3.3 Evaluation de la qualité de la structure................... 48 5.4 Classification...................................... 48 Conclusion 49 Bibliographie 53 Soumission à JOBIM 2005 55

Introduction La bio-informatique a fait son apparition dans les années 70. L une des thématiques phares de la bio-informatique est l algorithmique pour l analyse des séquences génomiques. La problématique de la prédiction de gènes à RN, apparue il y a une dizaine d années, s inscrit dans cette thématique. La notion de gène à RN est à mettre en opposition avec la notion de gène à protéine. L expression d un gène à protéine produit une molécule d RN, qui est ensuite traduite en une protéine. L expression d un gène à RN produit quant à elle une molécule d RN fonctionnelle : un RN non-codant. Cette molécule acquiert sa fonction en se repliant sur elle-même. Les RN non-codants participent à de nombreux processus fondamentaux, comme la synthèse protéique et la régulation de l expression des gènes. Depuis une dizaine d années, les découvertes de nombreux RN non-codants bouleversent les principes établis sur les processus fondamentaux de la cellule. La mise en évidence expérimentale des gènes à RN par des techniques de biologie moléculaire est assez difficile, et surtout relativement coûteuse. C est pourquoi la prédiction des gènes à RN par des méthodes bio-informatiques est un enjeu important. Dans le premier chapitre, nous rappelons les concepts biologiques nécessaires à la bonne compréhension de ce mémoire. Nous présentons le contexte biologique dans lequel évoluent les molécules d RN, et leurs rôles au sein de la cellule. Les problématiques bio-informatiques de l RN sont présentées dans la dernière partie de ce chapitre. Dans le second chapitre, nous examinons les approches existantes de détection de gènes à RN ab initio à partir d une seule séquence. Ces approches ont pour objectif l annotation automatique des gènes à RN dans les génomes. Pour clore ce chapitre, nous montrons par une analyse systémique que les signaux présents dans une séquence ne suffisent pas à détecter les gènes à RN de manière fiable. Dans le troisième chapitre, nous nous intéressons aux approches basées sur des familles de séquences. L objectif de ces méthodes est de détecter si une famille de séquences correspond à une famille d RN non-codants. Nous évaluons l apport que peut constituer la génomique comparative pour la détection de gènes à RN. Les quatre programmes actuels (ddbrn, QRN, RNz et MSRi) de détection de gènes à RN qui utilisent des familles de séquences font l objet d une présentation détaillée. Dans le quatrième chapitre, nous présentons une étude que nous avons réalisée sur les performances des méthodes introduites dans le chapitre précédent. Tout d abord, nous précisons la démarche que nous avons suivie. Puis, nous énonçons les résultats obtenus. Enfin, nous proposons à une analyse de ces résultats. Nous démontrons, entre autre, que quelque soit la méthode, on obtient de meilleurs résultats avec un nombre réduit de séquences. Dans le cinquième et dernier chapitre, nous explorons les perspectives ouvertes par l étude précédente. Cette démarche nous amène à proposer des pistes algorithmiques pour le développement d une nouvelle méthode de détection de gènes à RN. vii

viii Chapitre 0. Introduction

Chapitre 1 Les RN non-codants 1.1 Quelques notions de biologie Dans chacune des cellules d un organisme vivant, il existe trois grands types de molécules : l DN (acide désoxyribonucléique), l RN (acide ribonucléique) et les protéines. L DN stocke l information génétique transmise au cours des générations cellulaires. Les protéines sont le résultat de l expression de cette information ; elles assurent la plupart des tâches nécessaires au bon fonctionnement de l organisme. L RN est une molécule polyvalente. C est lui qui va nous intéresser dans la suite de ce mémoire. l image de l DN, l RN est un acide nucléique. n acide nucléique est une molécule organisée autour d un squelette formé de phosphates et de sucres. Il est caractérisé par un enchaînement de bases azotées fixées sur ce squelette. Ces bases, qu on appelle également des nucléotides, sont au nombre de quatre : l adénine (), la cytosine (C), la guanine () et la thymine (T) pour l DN ou l uracile () pour l RN. 1.1.1 Le dogme central Le dogme central (figure 1.1), proposé par Francis Crick à la fin des années 50, formalise les mécanismes de la synthèse protéique à partir de l information génétique. Il fait apparaître deux étapes : la transcription et la traduction. La transcription est un processus qui recopie un fragment d DN, c est-à-dire un gène, contenant l information nécessaire à la production d une protéine. Le produit de la transcription est une molécule d RN appelée RN messager (RNm). La traduction est un processus qui, comme son nom l indique, traduit l information portée par un RN messager en une protéine. ne protéine est une molécule constituée d un enchaînement d acides aminés. Pour produire une protéine, les bases qui constituent l RN messager sont lues trois par trois par la machinerie traductionnelle. chaque lecture d un triplet, appelé codon, l acide aminé correspondant est ajouté à la protéine en cours d assemblage. La correspondance entre codon et acide aminé est universelle et régie par le code génétique. 1.1.2 n monde d RN Le dogme central fait apparaître une des fonctions des RN : servir d intermédiaire dans la synthèse protéique avec les RN messagers. Il existe néanmoins d autres types d RN, issus de la transcription, mais qui ne subissent pas de traduction. Ces RN sont fonctionnels par eux-mêmes, sans coder pour une protéine. Pour les distinguer des RN messagers, on les appelle des RN non-codants (RNnc). 1

2 Chapitre 1. Les RN non-codants T C C C T C C Transcription RN messager Traduction prote ine DN Fig. 1.1: Le dogme central. Suite a la de couverte des me canismes du dogme central, Watson et Crick ont mis en e vidence en 1961 les deux premiers types d RN non-codants : les RN ribosomiques (RNr) et les RN de transfert (RNt). Ces RN sont les plus ce le bres et sont pre sents dans tous les organismes vivants. Ils interviennent tous deux au niveau de la traduction. Les RN ribosomiques, assemble s a des prote ines, forment le complexe qui permet la lecture des codons sur l RN messager et l assemblage des acides amine s. Les RN de transfert sont capables de porter un acide amine correspondant a un codon spe cifique. Ils sont en quelque sorte les garants d une traduction fide le au code ge ne tique. Depuis la de couverte de ces deux familles d RN, de nombreuses autres ont e te trouve es [1]. En 1978, le premier RN pre sentant des proprie te s catalytiques a e te de couvert, couple a une prote ine, la ribonucle ase P (RNase P). Cette de couverte de cisive d RN aux proprie te s catalytiques, les ribozymes, a e te couronne e par un prix Nobel de chimie en 1989. Leur nom reprend celui des prote ines aux proprie te s e quivalentes : les enzymes. Plus re cemment, plusieurs e tudes ont re ve le l existence de nombreux petits RN. De ja en 1980, de petits RN inconnus avait e te isole s. Ces RN forment un complexe avec une prote ine, le complexe ribonucle oprote ine (RNP), responsab de l alte ration de certains RN messagers. Ces RN ont par la suite e te nomme s petits RN nucle aires (snrn) car on les trouve exclusivement dans le noyau des cellules, le compartiment central qui contient l DN et qui est le lieu de la transcription. En 1999, d autres petits RN ont e te trouve s dans le nucle ole, un pseudocompartiment du noyau. Ces petits RN nucle olaires (snorn), servent a guider une enzyme vers une base pre cise d un RN ribosomique a modifier. ce jour, deux sous-familles sont connues : les petits RN nucle olaires a boı te C/D et a boı te H/C. Chacune est caracte rise e par un motif, c est-a -dire une suite de bases. Le motif guide avec pre cision l enzyme vers la base qu elle doit modifier. C est en 2001, qu une famille d RN implique e dans la re gulation de la traduction, les micro RN, est de couverte gra ce a une approche bio-informatique : l analyse comparative de ge nomes. Cette me thode consiste a comparer les ge nomes de diffe rentes espe ces proches afin d extraire les re gions conserve es pour leurs fonctions, et non par hasard. Pour e tre confirme s, les re sultats obtenus ont e te ve rifie s par des me thodes classiques de biochimie. ctuellement, plus de 100 familles d RN non-codants sont connues et re pertorie es dans des bases de donne es publiques telles que RFM [2], et plus re cemment NONCODE [3]. 1.2 La structure d un RN La fonction d un RN non-codant est de termine e par la conformation spatiale adopte e par la mole cule, c est-a -dire sa structure.

1.3. L analyse bio-informatique des RN non-codants 3 Contrairement à l DN, l RN est une molécule simple brin. Cette propriété lui confère la capacité de se replier sur lui-même en formant des appariements entre ses bases. n appariement est constitué d une ou plusieurs liaisons hydrogène selon la nature des bases appariées. Les appariements se font de manière contiguë pour former des tiges. Les régions non appariées forment des boucles (figure 1.2). tige C C C boucle Fig. 1.2: Exemple de formation d une tige-boucle. ne structure est décrite par une classification en quatre niveaux hiérarchiques. La structure primaire est simplement la séquence, orientée de 5 en 3, des bases qui composent la molécule. La structure secondaire est l ensemble des appariements sans croisement, formant des tiges emboîtées ou juxtaposées (figure 1.3). La structure tertiaire est l ensemble de tous les appariements. En plus des appariements de la structure secondaire, les appariements suivants sont donc autorisés : les pseudonœuds (appariements chevauchants), les triplets (appariement à trois), les quadruplets (à quatre) et les appariements isolés. Enfin, la structure spatiale désigne la configuration de la molécule dans l espace. La figure 1.4 donne un exemple de ces quatre niveaux hiérarchiques pour un RN de transfert. La figure 1.5 montre la structure tertiaire d un RN ribosomique de levure. Ces deux exemples montrent la variété du monde des RN. (a) Tiges emboîtées (b) Tiges juxtaposées Fig. 1.3: Conformations possibles des tiges des structures secondaires. La stabilité d une molécule d RN est mesurée par son énergie libre qui est issue des principes de la thermodynamique. Plus l énergie libre d une structure est faible, plus celle-ci est stable. Les tiges stabilisent une structure, tandis que les boucles la déstabilisent. La stabilité apportée par une tige est fonction de sa longueur et de la nature de ses appariements : les appariements canoniques ( C, = et =) sont plus stables que les appariements noncanoniques (, C,...). Toutes ces caractéristiques sont reprises dans le modèle d énergie de Turner, largement utilisé pour le calcul de l énergie libre. 1.3 L analyse bio-informatique des RN non-codants vec sa structure, l RN est un objet combinatoire complexe, qui pose des problèmes biologiques et algorithmiques spécifiques.

4 Chapitre 1. Les RN non-codants ggggcuauagcucagcugggagagcgccugcuuugcacgcaggaggucugcgguucgaucccgcauagcuccacca (a) Structures primaire et secondaire (b) Structure secondaire (c) Structure tertiaire (d) Structure spatiale Fig. 1.4: Exemple de la hiérarchie de structure de l RN de transfert d Escherichia coli. (a) Représentation de la structure primaire, c est-à-dire la séquence composée d une soixantaine de bases, et de la structure secondaire où les appariements sont symbolisés par des arcs. (b) ne autre représentation de la structure secondaire fait apparaître quatre tiges et la structure en feuille de trèfle. (c) La structure tertiaire de cet RN comporte huit appariements supplémentaires. (d) La structure spatiale obtenue par cristallographie.

1.3. L analyse bio-informatique des RN non-codants 5 Fig. 1.5: L RN ribosomique 18S de Saccharomyces cerevisiae.

6 Chapitre 1. Les RN non-codants Le premier problème est celui de la détermination expérimentale de la structure. ne structure peut être obtenue par cristallographie aux rayons X. Cette technique nécessite toutefois des équipements lourds et coûteux, et requiert de nombreuses manipulations délicates. Ces restrictions ont conduit au développement d outils informatiques de prédiction de structures à partir d une ou plusieurs séquences d RN. Les premières méthodes de prédiction n utilisent qu une séquence et s appuient sur l approche thermodynamique. Cette approche repose sur le postulat que la stabilité d une structure d RN est essentielle à sa fonction. Suivant les principes de la thermodynamique, l RN se replie donc dans une conformation d énergie libre minimale. La recherche de la structure tertiaire optimale est un problème NP-complet. Néanmoins, la recherche de la structure secondaire optimale est réalisée en temps cubique par programmation dynamique. Les deux programmes les plus utilisés qui appliquent cette approche sont RNfold [4] et Mfold [5]. Les méthodes de prédiction qui fournissent les meilleurs résultats utilisent en plus de l approche thermodynamique l analyse comparative. Cette approche nécessite de disposer d un ensemble de séquences homologues, c est-à-dire des séquences qui partagent une même fonction, conservée durant l évolution. Elle repose sur le postulat que la conservation d une structure au fil de l évolution indique que cette structure est fonctionnellement importante. Pour des RN d une même famille, la structure commune inférée est alors caractéristique de la famille à laquelle ils appartiennent, comme la structure en feuille de trèfle des RN de transfert présentée en figure 1.4. Les programmes d inférence de structures communes à partir de plusieurs séquences homologues ont récemment fait l objet d une comparaison [6]. Ces programmes appliquent des stratégies différentes, comme RNalifold [7] et Carnac [8]. RNalifold étend le principe de RNfold à des séquences préalablement alignées. Carnac ne nécessite pas d alignement car il procède à une recherche de tiges dans chaque séquence, puis sélectionne des tiges copliables pour former une structure commune, c est-à-dire des tiges qui peuvent être repliées simultanément sans créer de conflit. La seconde problématique liée aux RN est la localisation d RN non-codants connus dans les génomes. Les premiers programmes de localisation développés sont dédiés à la recherche d RN de transfert. Par exemple, trnscan-se [9] recherche des structures en feuille de trèfle ainsi que des positions conservées qui rendent ces RN aisément repérables. Des programmes moins spécifiques sont également disponibles, comme par exemple RSERCH [10], Erpin [11] et Palingol [12]. RSERCH tente de localiser dans une base de données des séquences homologues à une séquence dont la structure est connue. Erpin fonctionne de manière analogue à RSERCH sur un alignement multiple dont la structure commune est connue. Palingol est un programme qui permet de décrire une structure secondaire et qui tente de localiser dans une base de données des séquences susceptibles de former cette structure. La localisation d RN est par nature restreinte aux familles d RN connues. ne problématique récente est la détection des RN non-codants, sans connaissance a priori sur la structure. Cette problématique est celle qui retiendra notre attention durant la suite de ce mémoire.

Chapitre 2 Détection à partir d une séquence Pour les gènes à protéine, il existe des algorithmes de détection fiables, tels que enemark [13] ou enscan [14]. Il n existe, à l heure actuelle, aucun programme équivalent pour les RN non-codants. Plusieurs pistes ont d ores et déjà été explorées. Dans ce chapitre, nous proposons une synthèse de différentes études menées autour de la détection d RN non-codants dans une séquence génomique. Cet état de l art a pour but de démontrer en quoi une approche basée sur une seule séquence ne fournit pas des performances suffisantes pour la mise en œuvre d algorithmes de prédiction de gènes à RN. 2.1 Les signaux biologiques La détection de gènes est essentiellement basée sur l existence de signaux biologiques. Il convient de distinguer deux types de signaux : les signaux liés à la machinerie transcriptionnelle ou traductionnelle, et ceux qui se trouvent dans la séquence elle-même, et sont liés à sa fonction. 2.1.1 ènes à protéine Dans le cas d un gène à protéine, on dispose de nombreuses informations. La figure 2.1 représente de manière schématique la structure d un gène à protéine. Le signal principal dont on dispose est un cadre ouvert de lecture, c est-à-dire un enchaînement de codons lus dans la même phase qui commence par un codon STRT et se termine par un codon STOP. Les codons STRT et STOP sont bien déterminés : T pour le codon STRT, T, T ou T pour le codon STOP. Les codons situés entre le STRT, et le STOP constituent la séquence codante. Ce signal est renforcé par le fait que la séquence codante est soumise à un biais de composition. Le code génétique est en effet redondant, c est-à-dire qu il existe plusieurs codons différents qui codent pour le même acide aminé. Le choix d un codon pour un acide aminé induit un biais de composition propre à chaque organisme. Des signaux auxiliaires liés à la transcription et à la traduction peuvent conforter l existence d un gène : les boîtes -10 et -35 et le RBS. Les boîtes -10 et -35 sont des motifs courts et approchés (figure 2.1) qui servent à fixer les complexes protéiques associés à la transcription. Le RBS (Ribosome Binding Site) est aussi un motif court et approché qui sert à la fixation du ribosome sur l RN messager lors de l initiation de la traduction. 2.1.2 ènes à RN Dans le cas des gènes à RN, les signaux qui indiquent un cadre ouvert de lecture sont absents, et pour cause : ces signaux sont utilisés pour la synthèse protéique. Les seuls signaux 7

8 Chapitre 2. Détection à partir d une séquence RN messager +1 Séquence codante 5 Boîte -35 TTC Boîte -10 TTT RBS T STRT T STOP T T T 3 Fig. 2.1: Schéma d un gène codant pour une protéine. La flèche surmontée de +1 marque le premier nucléotide transcrit. biologiques qui subsistent sont donc les boîtes -10 et -35 utilisées pour la transcription. Ces signaux sont trop faibles pour être informatifs. On dispose toutefois d une information supplémentaire liée à la fonction d un RN noncodant : la formation d une structure. Ce signal est-il détectable au niveau de la séquence? Nous allons explorer deux pistes : les biais de composition qui pourraient être induits par la présence d une structure, et l énergie libre d une structure potentielle. 2.2 Les biais de composition Comme il existe un biais de composition dans la séquence codante d un gène à protéine, on peut imaginer qu il existe un biais de composition dans la séquence d un gène à RN induit par la formation d une structure. Certains appariements sont en effet plus stables que d autres, comme les appariements C et =, qui peuvent introduire un biais de composition en mono-nucléotides. L adjacence des appariements est également importante. Les empilements d appariements contribuent en effet beaucoup à la stabilité des structures (section 1.2). Le biais de composition pourrait donc également porter sur les di-nucléotides, c est-à-dire des couples de nucléotides adjacents. Pour vérifier ces hypothèses, il est nécessaire d observer les compositions en mono-nucléotides et en di-nucléotides dans les RN non-codants. Les travaux de Schattner, publiés en 2002, s intéressent à l existence de ces biais [15]. Ses expériences ont été menées sur des RN de transfert, des RN ribosomiques, des RN nucléaires, des RN nucléolaires et des SRP dans trois organismes : la bactérie Methanococcus jannaschii, le ver Caenorhabditis elegans et le parasite Plasmodium falciparum. Les auteurs se sont focalisés sur le pourcentage en C, c est-à-dire la proportion des bases et C notée (+C)%, et sur la fréquence d apparition du di-nucléotide Cp normalisée, notée ρ(c), c est-à-dire à dire la fréquence d apparition du di-nucléotide Cp rapportée sur le produit des fréquences d apparition des nucléotides C et. Pour les RN non-codants, les mesures ont été réalisées par famille sur la totalité des RN non-codants connus des organismes. Pour les génomes, 1 000 fragments de 100 bases chacun ont été choisis aléatoirement dans chacun des génomes. Les résultats obtenus sont synthétisés dans le tableau 2.1. Dans chacun des trois organismes, le pourcentage en C des séquences d RN non-codants est en moyenne plus élevé que celui de leur génome. Pour Methanococcus jannaschii et Caenorhabditis elegans, le di-nucléotide Cp apparaît plus fréquemment dans les RN non-codants que dans le reste de leur génome. Cependant, ce di-nucléotide est globalement sous-représenté dans les génomes de ces organismes par rapport aux nucléotides C et, c est-à-dire que les dinucléotides Cp et pc n apparaissent pas de manière équiprobable, compte tenu des fréquences

2.2. Les biais de composition 9 Organisme Nb séq. (+C)% ρ(c) Methanococcus jannaschii 44 63.1 (7.3) 0.75 (0.24) Caenorhabditis elegans 59 32.1 (7.2) 0.94 (0.56) Plasmodium falciparum 59 53.5 (8.2) 0.96 (0.23) (a) Résultats sur les RN non-codants Source (+C)% ρ(c) Methanococcus jannaschii 31.4 (6.9) 0.34 (0.47) Caenorhabditis elegans (chr. II) 20.0 (8.4) 0.75 (1.30) Plasmodium falciparum (chr. I) 35.9 (8.8) 1.03 (0.68) (b) Résultats sur les génomes Tab. 2.1: Résultats des mesures effectuées par Schattner dans [15]. (+C)% correspond à la moyenne du pourcentage en C observé. ρ(c) correspond à la moyenne de la fréquence normalisée du di-nucléotide Cp. Les valeurs entre parenthèses sont les écarts-types associés. d apparition des nucléotides C et. Dans Plasmodium falciparum, le phénomène inverse se produit puisque le di-nucléotide Cp est légèrement moins fréquent dans les RN non-codants que dans son génome. lobalement, ces observations font apparaître une grande variabilité du pourcentage en C ainsi que de la fréquence d apparition du di-nucléotide Cp entre les organismes. Les valeurs des écarts-types montrent également que cette variabilité existe au sein même d un organisme. Bien que peu d organismes aient été pris en compte, ces résultats montrent que les biais de composition en mono-nucléotides et en di-nucléotides n apportent pas de signal suffisant pour la détection d RN non-codants. Bien que les biais de composition ne semblent pas exister dans tous les organismes, ils sont observables chez Methanococcus jannaschii. Schattner a donc cherché à déterminer si une variation locale des compositions en mono-nucléotides et en di-nucléotides pouvait révéler la présence d un RN non-codant pour cet organisme. Les variations du pourcentage en C et de la fréquence d apparition du di-nucléotide Cp sont observées à l aide d une fenêtre glissante le long du génome de Methanococcus jannaschii. Les seuils de détection ainsi que la taille de la fenêtre glissante ont été obtenus par apprentissage sur des fragments de séquences de Methanococcus jannaschii contenant six RN de transfert et un RN ribosomique. Le tableau 2.2 contient les résultats des prédictions réalisées. Le génome de Methanococcus jannaschii contient 44 RN non-codants, en majorité des RN de transfert. Les prédictions erronées englobent les RN non-codants prédits à tort ainsi que les RN noncodants non détectés. Nb RNnc Nb prédictions Comptage détectés erronées (+C)% 44 41 (+C)% et ρ(c) 43 28 Tab. 2.2: Résultats de Schattner sur le génome de Methanococcus jannaschii. En n utilisant que le pourcentage en C, les 44 RN non-codants de Methanococcus jan-

10 Chapitre 2. Détection à partir d une séquence naschii sont détectés, mais 41 régions riches en C supplémentaires sont trouvées, ce qui représente quasiment autant de bonnes prédictions que de mauvaises. En exploitant en plus la fréquence d apparition du di-nucléotide Cp, les prédictions deviennent plus spécifiques : seulement 28 régions supplémentaires sont détectées, ce qui représente tout de même près de 40% de prédictions incorrectes. Les résultats obtenus sur Methanococcus jannaschii montrent que même lorsqu un biais assez significatif existe dans les compositions en mono-nucléotides et en di-nucléotides, le signal apporté n est pas suffisant pour produire une méthode de détection performante. De plus, les six RN de transfert et l RN ribosomique ayant servis à la phase d apprentissage ne sont pas exclus lors de la phase de test sur le génome de Methanococcus jannaschii et peuvent donc légèrement améliorer la sensibilité de la méthode présentée. 2.3 Les motifs structuraux Les motifs structuraux sont des fragments de séquences approchés. Ces motifs sont fonctionnels uniquement lorsqu ils sont intégrés dans une structure qui leur garantit une conformation spatiale précise. Ils sont caractéristiques de certaines intéractions ; on ne les trouve donc pas dans tous les RN non-codants. Leur taille est variable, allant de trois bases à plus d une vingtaine de bases. La figure 2.2 donne des exemples de ces motifs, qui proviennent de la base de données SCOR [16], qui recense les occurrences des motifs structuraux connus. (a) Exemple de triloop. (b) Exemple de tetraloop NR. (c) Exemple de tetraloop NC. Fig. 2.2: Exemples de motifs structuraux. La lettre N désigne l une des bases, C, ou. La lettre R désigne une purine, c est-à-dire une adénine ou une guanine. Sans constituer un biais de composition, la présence de motifs structuraux dans une séquence pourrait conforter la prédiction d RN non-codants. RNENiE [17] est une méthode de détection d RN non-codants qui utilise les motifs structuraux. Son implémentation est un réseau de neurones qui accepte en entrée les fréquences d apparition des mono-nucléotides, des di-nucléotides et de motifs connus. La phase d apprentissage a été effectuée sur l ensemble des RN non-codants de deux souches d Escherichia coli. Ces RN sont principalement des RN de transfert et des RN ribosomiques. Les performances de RNENiE sont évaluées sur les génomes de huit organismes. Entre

2.4. L information thermodynamique 11 80% et 90% des RN non-codants sont correctement détectés avec une proportion de prédictions positives erronées en moyenne inférieure à 15%. Ces résultats restent néanmoins assez variables selon les organismes allant de 64% de spécificité pour 68% de sensibilité à plus de 90% de spécificité pour 90% de sensibilité. Si l on regarde de plus près ce que le réseau de neurones a appris, on constate que les entrées les plus informatives sont les fréquences des nucléotides et, ainsi que des fréquences d apparition des di-nucléotides C, et. Les motifs structuraux ne participent que faiblement au processus de décision. Les résultats de RNENiE sur Methanococcus jannaschii sont meilleurs que les résultats obtenus par la méthode de Schattner. L amélioration provient essentiellement d un processus d apprentissage plus fin que celui employé par Schattner et de l utilisation des fréquences de tous les mono-nucléotides et di-nucléotides. Ces travaux montrent que les motifs structuraux apportent moins d information que les biais de composition en mono-nucléotides et en di-nucléotides pour la détection d RN noncodants. Le peu de variété des organismes utilisés ne permet toutefois pas de tirer des conclusions générales. De plus, les résultats de RNENiE ne sont pas reproductibles 1. 2.4 L information thermodynamique Les biais de composition seuls n apportent pas les informations suffisantes à la détection systématique des RN non-codants. Nous allons maintenant nous intéresser au signal principal : l existence d une structure fonctionnelle. Les programmes de prédiction de structures qui ont une approche thermodynamique, tels que RNfold et Mfold, sont conçus pour fournir la structure d énergie libre minimale qui peut se former à partir d une séquence. Quelque soit la séquence choisie, ces programmes prédisent toujours une structure. Seule, l existence d une structure prédite n est donc pas informative. C est pourquoi nous allons maintenant regarder la qualité, en terme de stabilité thermodynamique, des structures prédites. 2.4.1 Qualité des structures d RN non-codants Pour qu une structure se forme, de nombreux appariements se font puis se défont jusqu à ce qu un état stable soit atteint. On peut donc s attendre à ce que les structures des RN non-codants soient remarquablement stables et donc caractérisées par une énergie libre particulièrement faible. Evaluer la significativité de la stabilité d une structure nécessite de disposer d une distribution de l énergie libre optimale avec laquelle effectuer la comparaison. Il n existe cependant aucune théorie pour la construire. Elle est donc établie de manière empirique, grâce à de nombreuses séquences aléatoires équivalentes. Le protocole suivi pour évaluer la significativité de la stabilité d une structure est le suivant : à partir d une séquence s, 1. calculer E, l énergie libre minimale de la structure optimale prédite pour s, grâce à RNfold ou Mfold ; 2. construire la distribution de l énergie libre, c est-à-dire inférer les structures de 50 à 100 séquences obtenues en mélangeant s ou en utilisant un processus Markovien, de telle sorte que la composition en mono-nucléotides ou en di-nucléotides de s soit conservée ; 3. évaluer la significativité de E à partir de la distribution obtenue grâce au z-score ou à la p-valeur de E ; ces mesures sont équivalentes en terme d information apportée. Le z-score de E mesure l écart de E par rapport à la distribution. On l obtient en calculant le rapport E µ σ 1 ucune version de RNENiE n est disponible, et les auteurs ne sont pas joignables.

12 Chapitre 2. Détection à partir d une séquence où µ et σ sont respectivement la moyenne et l écart-type de la distribution. Comme l énergie libre est à valeur négative, plus le z-score de E est faible, plus la structure optimale de s est stable. La seconde mesure que l on utilise est la p-valeur de E, qui est la proportion d obtenir au moins une valeur d énergie libre égale à E dans la distribution. Plus la p-valeur de E est proche de 0, plus le nombre de structures prédites ayant la même énergie libre est faible. Par conséquent, plus la p-valeur de E est faible, plus la stabilité de la structure optimale de s est significative. Toute la difficulté dans ce processus d évaluation réside dans la constitution de la distribution, et donc dans le choix de la composition des séquences. La conservation de la composition mono-nucléotidique de s permet de tenir compte d un éventuel biais de composition en et en C de s dû à l existence d une structure. La conservation de la composition di-nucléotidique de s a une propriété supplémentaire : prendre en considération la formation éventuelle d empilements d appariements (section 1.2). Composition mono-nucléotidique équivalente Rivas et al. ont proposé en 2000 une étude de la stabilité des structures d RN non-codants [18]. Ils ont tout d abord cherché à estimer si l énergie libre d une structure optimale potentielle était significative. Ils ont donc mesuré les variations du pourcentage en C et les variations de l énergie libre d une structure optimale locale sur un fragment du génome de Caenorhabditis elegans contenant deux RN de transfert, et sur le même fragment où les structures des RN de transfert ont été détruites sans dénaturer la composition locale en mono-nucléotides. Leurs observations, dont les résultats sont donnés en figure 2.3 et en figure 2.4, montrent que les variations de l énergie libre d une structure optimale sont liées à un biais de composition en C et n apportent donc pas plus d information que les variations de composition en mono-nucléotides. Cette affirmation est vérifiée en plongeant un RN de transfert de Caenorhabditis elegans dans une séquence aléatoire de même composition mono-nucléotidique : l RN de transfert est alors indétectable en utilisant les variations de l énergie libre (figure 2.5). (a) Variations de stabilité de la structure optimale. (b) Variations du pourcentage en C. Fig. 2.3: Résultats de Rivas et al. sur un fragment du génome de Caenorhabditis elegans. Les symboles **** marquent la présence d un RN de transfert. Pour pouvoir généraliser leurs observations réalisées sur les RN de transfert, Rivas et al. ont calculé les z-scores de l énergie libre de 243 RN non-codants. Ces RN sont issus de

2.4. L information thermodynamique 13 (a) Variations de stabilité de la structure optimale. (b) Variations du pourcentage en C. Fig. 2.4: Résultats de Rivas et al. sur un fragment du génome de Caenorhabditis elegans où les RN de transfert sont mélangés. Les symboles **** marquent les régions où se situaient les RN de transfert. Fig. 2.5: Variations de stabilité de la structure optimale lorsque qu un RN de transfert est plongé dans une séquence aléatoire de même composition en mono-nucléotides. Les symboles **** marquent la présence de l RN de transfert.

14 Chapitre 2. Détection à partir d une séquence diverses familles : des SRP, des petits RN nucléolaires, des RNaseP et des télomérases. La distribution des z-scores obtenue est donnée en figure 2.6. Sur ce graphique, la négation des z-scores est représentée, c est-à-dire que les z-scores les plus élevés correspondent aux énergies libres les plus faibles. Fig. 2.6: Distribution de la négation des z-scores de l énergie libre des structures de 243 RN non-codants par rapport à des structures optimales de séquences aléatoires de même composition en mono-nucléotides. L observation réalisée sur les RN de transfert n est pas valable pour toutes les familles d RN non-codants : en moyenne, les structures d RN non-codants sont plus stables que les structures optimales de séquences aléatoires équivalentes. Cependant, la stabilité moyenne des RN non-codants n est pas assez significative pour constituer un signal suffisant pour les détecter lorsque la distribution de référence est construite avec des séquences de même longueur et de même composition en mono-nucléotides. Composition di-nucléotidique équivalente Dans [19], Van de Peer et al. ont utilisé des séquences de même composition en dinucléotides sur 500 RN de transfert, 581 RN ribosomiques et 506 micro RN. Leurs résultats révèlent que les micro RN possèdent systématiquement des structures plus stables que des structures de séquences aléatoires de même composition en di-nucléotides. Les structures des RN ribosomiques et des RN de transfert ne sont pas systématiquement plus stables, mais en moyenne plus stables. Clote et al. ont étendu les investigations de Van de Peer et al. à 300 familles d RN noncodants [20]. Cette étude récente (février 2005) ouvre des perspectives intéressantes quant à la conservation de la composition di-nucléotidique pour mesurer la significativité de la stabilité des structures d RN non-codants. Le tableau 2.3 reprend une partie de leurs résultats. Les structures des RN non-codants sont en moyenne plus stables que ce qui est attendu par hasard. Pour certaines familles, comme les RN de transfert et les petits RN nucléolaires 1, les résultats sont plus modérés : la stabilité moyenne des structures n est pas aussi significative que pour les autres familles d RN. Ce biais pourrait-il constituer un signal suffisant pour faire de la prédiction de gènes à RN? Pour tenter de répondre à cette question, nous avons mis en place une méthode opérationnelle de prédiction de gènes à RN basée sur les observations de Clote. Nous utilisons un seuil sur la p-valeur de l énergie libre. La méthode fonctionnerait de la même manière si l on utilisait un seuil sur le z-score de l énergie libre. partir des séquences de Van de Peer

2.4. L information thermodynamique 15 Nombre de z-score Ecart-type z-score z-score p-valeur Famille séquences moyen des z-scores maxi mini moyenne RNt 530 1.591 0.890 0.732 4.035 0.123 Hammerhead III 114 3.188 0.871 1.203 5.345 0.008 SECIS 5 4.736 1.123 3.482 6.694 0.000 SRP 94 3.564 2.140 0.099 9.255 0.046 1 53 1.750 0.931 0.157 4.041 0.102 2 62 4.225 1.216 1.831 7.068 0.002 Tab. 2.3: Extraits des résultats de Clote et al. [20]. Les z-scores et p-valeurs sont ceux de l énergie libre des structures. et al., nous avons calculé la sensibilité de cette méthode avec différents seuils sur la p-valeur (tableau 2.4). Nombre de Sensibilité (en %) Famille séquences p 0.01 p 0.05 p 0.1 p 0.2 RN ribosomiques 581 57 72 78 86 Micro RN 506 90 96 97 98 RN de transfert 500 8 42 64 83 Tab. 2.4: Détection d RN non-codants à partir des données de Van de Peer et al. [19]. Lorsque le seuil varie de 0.05 à 0.2, la sensibilité aux RN ribosomiques et aux micro RN varie peu, alors que la sensibilité aux RN de transfert varie du simple au double. La sensibilité de cette méthode est donc variable selon les familles d RN, surtout lorsque le seuil est inférieur à 0.2. En appliquant cette méthode sur un génome complet avec un seuil de 0.2, on sélectionnerait donc 20% de ce génome. Sur le génome humain, par exemple, cette méthode ne serait pas assez spécifique. En effet, les estimations les plus optimistes [21] évaluent à moins de 6% la part du génome humain occupée par des gènes : un peu plus de 3% pour les gènes à protéine et donc moins de 3% pour les gènes à RN. 2.4.2 Structures optimales d RN messagers Précédemment, nous avons vu que les RN non-codants ont tendance à posséder des structures relativement stables. On peut supposer que pour les RN messagers le phénomène inverse se produise, et donc que la nature sélectionne pour ces RN des séquences qui ne produisent pas de structures remarquablement stables. En 1999, Workman et al. [22] se sont penchés sur les structures optimales des RN messagers. Leurs investigations ont été menées de la même manière que pour les RN non-codants, avec des séquences de même composition mono-nucléotidique et di-nucléotidique. Les z-scores de l énergie libre observés pour chacune des distributions de séquences aléatoires et pour chaque RN messager sont donnés dans le tableau 2.5. En moyenne, les structures optimales d RN ne sont pas plus stables que les structures optimales de séquences de même composition en di-nucléotides. Les di-nucléotides caractérisent la présence d empilements d appariements dans les structures d RN. Les structures prédites pour des RN messagers n ont aucune raison de contenir plus d empilements que des structures prédites sur des séquences aléatoires puisque la fonction des RN messagers n est pas liée à la formation d une structure. Il existe toutefois des RN messagers qui contiennent des parties

16 Chapitre 2. Détection à partir d une séquence Tab. 2.5: Résultats de Workman et al. [22]. zero order et first order correspondent aux distributions générées à l aide d un processus de Markov respectivement d ordre 0 et d ordre 1.

2.4. L information thermodynamique 17 structurées dans les régions non traduites en 3 et en 5, les extrémités de la molécule, ainsi que dans les introns, c est-à-dire des fragments de la partie codante excisés avant la traduction. Pour évaluer la spécificité de notre méthode de détection définie à la page 14 sur des RN messagers, nous l avons appliqué sur les séquences de Workman et al.. Les résultats obtenus sont donnés dans le tableau 2.6. Spécificité (en %) Famille Nb séq. p > 0.01 p > 0.05 p > 0.1 p > 0.2 RN messagers 46 96 87 83 72 Tab. 2.6: Détection d RN non-codants à partir des données de Workman et al. [22]. p désigne la p-valeur moyenne de l énergie libre. La spécificité de notre méthode n est élevée que lorsque le seuil est très bas, à 0.01. u delà de cette valeur, la spécificité se dégrade rapidement. En particulier avec un seuil à 0.2 qui fournit une sensibilité honorable, on constate que près de 30% des RN messagers de Workman sont sélectionnés. 2.4.3 Sélection des RN messagers En 2003, Cohen et al. se sont intéressés à la significativité de la stabilité des structures optimales potentielles d RN messagers en construisant un autre type de distribution de l énergie libre [23]. La redondance du code génétique permet à plusieurs séquences nucléotidiques différentes de coder pour des protéines identiques. Cohen et al. ont donc utilisé des séquences nucléotidiques qui codent pour des protéines identiques pour construire la distribution de l énergie libre. L objectif de cette étude est de déterminer si le choix des codons est lié à la stabilité d une structure potentielle, c est-à-dire si des séquences susceptibles de produire des structures très stables ou très instables sont privilégiées. 27 000 séquences d RN messagers provenant de 34 organismes ont été considérées. Pour chaque RN messager, 5 séquences nucléotidiques qui codent pour des protéines identiques sont choisies aléatoirement. Dans chaque organisme, les structures optimales prédites pour les RN messagers sont en moyenne plus stables que les structures optimales de séquences équivalentes. La répartition est cependant inégale : on observe des structures très stables et des structures très peu stables pour les RN messagers dans presque tous les organismes. Toutefois, dans 19 organismes les structures des RN messagers sont systématiquement plus stables. La nature a donc tendance à préférer des séquences qui produisent des RN messagers capables de se replier en une structure très stable et parfois en une structure très peu stable. 2.4.4 Conclusion lobalement, les structures d RN non-codants sont plus stables que les structures optimales de séquences aléatoires de même composition en di-nucléotides, alors que les structures optimales prédites pour les RN messagers ne le sont pas. Les résultats obtenus avec une méthode de prédiction de gènes à RN basée sur ces observations montrent que le signal induit par ces biais n est pas suffisant pour effectuer des prédictions fiables.

18 Chapitre 2. Détection à partir d une séquence

Chapitre 3 Détection à partir d une famille de séquences Dans le chapitre précédent, nous avons vu que l absence de signal significatif empêchait la production d une méthode de détection d RN non-codants fiable à partir d une seule séquence. Si l on dispose de plusieurs séquences similaires, on dispose alors de plus d informations sur la fonction de ces séquences. Dans ce chapitre, nous allons nous intéresser à la détection d RN non-codants à partir de familles de séquences. 3.1 Principe général Le gain d information apporté par l utilisation de plusieurs séquences est double. Des RN non-codants homologues partagent une fonction induite par une structure commune. Les programmes de prédiction de structures communes sont donc plus fiables et plus robustes que les programmes de prédiction de structures à partir d une seule séquence. De plus, les prédictions de structures communes peuvent être confortées par la présence de mutations compensatoires. Ce type de mutations est engendré par la conservation d une structure au cours de l évolution : lorsqu une base impliquée dans un appariement mute, alors la base complémentaire mute également pour maintenir l appariement et ainsi préserver la structure. La figure 3.1 montre un exemple de mutations compensatoires sur un alignement de sept séquences d RN de transfert. La recherche de mutations compensatoires est réalisée en mesurant la corrélation entre tous les couples de positions d un alignement. Nous allons nous intéresser aux quatre méthodes actuelles de détection d RN non-codants qui utilisent plusieurs séquences : QRN de Rivas et al. [24], ddbrn de Di Bernardo et al. [25], MSRi de Coventry et al. [26] et RNz de Washietl et al. [27]. lobalement, la stratégie adoptée est la même : 1. construction préalable d un alignement multiple de plusieurs séquences avec une méthode d alignement classique ; 2. recherche d une structure commune conservée entre les séquences ; 3. évaluation de la qualité de la structure commune. Les différences entre les méthodes interviennent à deux niveaux : la manière d inférer une structure commune et l évaluation de la qualité de cette structure. QRN et RNz procèdent à une recherche globale de structure commune, c est-à-dire qu ils recherchent une structure optimale de manière exacte. ddbrn et MSRi effectuent tout d abord 19

20 Chapitre 3. Détection à partir d une famille de séquences CCCCCC CCCC CCCCCCCCCCC CCCCC-C C CCC CCCCCCC-- CCCCCCC CCCC CCCCCCCC CCCCCCC CCC CCCCCCC-- CCCCCCC C CCC CCCCC-- CCCCCCC CCC CCCCCCCCCC CCCCCCC C CCCC CCCCCCCCCCC Fig. 3.1: lignement de sept séquences d RN de transfert, avec représentation de la structure commune. Les deux colonnes isolées participent à un même appariement et font apparaître des mutations compensatoires. une recherche de tiges conservées entre les séquences, puis utilisent une heuristique gloutonne pour incorporer une partie de ces tiges dans la structure commune en cours de construction. L évaluation de la qualité de la structure commune trouvée varie selon les méthodes. La particularité de QRN réside dans l utilisation d un modèle codant pour discriminer des séquences qui coderaient pour des protéines homologues. ddbrn s intéresse à la stabilité de la structure commune par rapport à des structures communes de séquences aléatoires. MSRi s intéresse à la stabilité de la structure commune, ainsi qu à la quantité et à la qualité des mutations compensatoires observées. RNz s intéresse quant à lui à la perte d énergie par rapport aux structures optimales prédites pour chacune des séquences. La suite du chapitre est une présentation plus détaillée de chacune des méthodes, des choix réalisés ainsi que la manière dont ces choix ont été implémentés. 3.2 QRN QRN [24] est le premier programme de prédiction d RN non-codants sur une famille de séquences à avoir été développé. Il nécessite un alignement de deux séquences nucléotidiques. Ce programme tente de déterminer le type d un ensemble de séquences en examinant les motifs de substitutions, c est-à-dire si la fonction d une protéine ou d un RN non-codant est conservée par des mutations. Les mutations qui préservent une fonction commune à un ensemble de séquences se produisent différemment si ces séquences codent pour des protéines ou pour des RN non-codants. QRN dispose donc d un modèle pour chaque type de séquences : le modèle RN pour les RN non-codants et le modèle COD pour les protéines. Il dispose d un modèle supplémentaire, le modèle OTH, pour discriminer les séquences similaires pour lesquelles les mutations se produisent de manière aléatoire. Etant donné un alignement, QRN évalue la probabilité de chacun de ses modèles. Le modèle dont la probabilité est la plus élevée est retenu (figure 3.2).