L ARN : de la Séquence à la Structure

Projet Soutenu en 2003 L ARN : de la Séquence à la Structure LE CONTEXTE SCIENTIFIQUE Les grands projets de décryptage des génomes, ainsi que les premières années qui ont vu l'exploitation des données, ont permis de mettre davantage en évidence la complexité des systèmes biologiques. Plutôt que de fonctionner indépendamment, les produits des gènes sont impliqués dans la formation de "machineries moléculaires multi-partites" qui sont les réels acteurs des réseaux de régulation des fonctions biologiques. Parallèlement à cela, la complexité et le degré d'évolution d'un organisme sont reliés à l'existence de centaines de milliers d'arn non-codants, de petites et de grandes tailles, et qui sont des éléments clés de ces machineries moléculaires. Ainsi, de "simple" acteur dans les mécanismes de traduction (via les ARNm, ARNt et ARNr), de nombreuses études montrent que l'arn participe à un nombre toujours croissant de mécanismes régulant les grandes fonctions biologiques et, par voie de conséquence, de mécanismes les perturbant et impliqués dans les phénomènes de cancer, d infections virales et d affections neurologiques. En conséquence, on assiste depuis quelques années au développement de nombreux outils permettant l'identification de nouveaux ARN non-codants au sein des génomes séquencés. Ils ont permis de découvrir un nombre très important de nouveaux candidats dans les organismes modèles. Malheureusement, il est très difficile de les valider dans le contexte du système biologique qu'ils sont censés réguler. En effet, les limites de l'approche expérimentale et celles des formalismes utilisés par les algorithmes actuels ne permettent d'étudier qu'un aspect d'un mécanisme biologique. La démarche actuelle consiste alors à multiplier les approches et à recouper les résultats produits à chaque niveau d'analyse. Face à la richesse des concepts biologiques, à la diversité des méthodologies, aux erreurs expérimentales et aux incertitudes, ce recoupement ne peut se faire que dans le cadre d'une infrastructure informatique adaptée où l'expertise humaine restera prévalente dans la validation et le rejet des hypothèses biologiques. Fabrice Jossinet IBMC/CNRS, Strasbourg (Maître de Conférences, ULP, Strasbourg) Thomas Ludwig (Doctorant, Les participants Financement Human Frontier) Eric Westhof, (Professeur, ULP, Strasbourg) BIA/INRA, Toulouse Christine Gaspin (INRA, Toulouse) [1]

L'existence d'une telle infrastructure permettrait, en retour, d'optimiser l'identification de nouveaux ARN non-codants dans les génomes. En effet, celle-ci est fortement limitée par notre compréhension des règles évolutives s'appliquant à l'arn. Les récents résultats expérimentaux montrent très clairement que l'arn est une molécule extrêmement malléable dont les évolutions ne peuvent pas s'expliquer en se limitant aux seules données de séquences, structures secondaires et structures tridimensionnelles. En conséquence, le biologiste a un urgent besoin d'outils "de plus haut niveau" permettant le replacement et l'interconnexion de l'ensemble de ces résultats (qu'ils soient structuraux, biochimiques, génétiques ou bioinformatiques) dans une vue davantage "intégrative", à la hauteur de la complexité du système analysé. Le support financier dont nous avons pu bénéficier pendant 3 ans nous a permis de jeter les premières bases d une infrastructure qui devra, dans l avenir, nous permettre de réaliser une analyse systémique du rôle des ARN non-codants impliqués dans les maladies humaines et centrée sur leurs propriétés structurales. Nous avons décidé de construire les bases de cette infrastructure en nous intéressant d abord à l interconnexion des données de séquences, de structures secondaires et de structures tridimensionnelles, cette simple interconnexion restant encore bien au-delà de la quasi-totalité des approches bioinformatiques actuelles. LE LOGICIEL S2S : IDENTIFIER LES REGLES EVOLUTIVES DES ARCHITECTURES D ARN S2S permet la construction d alignements structuraux pour une famille d ARN orthologues est couplé à l algorithme RNAVIEW créé par la Nucleic Acid Database et permettant d annoter automatiquement les structures 3D d ARN a f a i t l o b j e t d u n e publication dans le journal Bioinformatics en juillet 2005 (Jossinet et al, 2005) disponible sur http:// bioinformatics.org/s2s L accumulation de génomes séquencés au cours de ces dernières années à permis l identification de nouveaux gènes d ARN non-codants orthologues au sein d une famille moléculaire donnée. Chaque famille d ARN non-codant étant associée à une fonction biologique bien précise et donc à une structure tridimensionnelle apte à réaliser cette fonction, l existence de nombreuses séquences au sein d une même famille nous permet d étudier les règles évolutives s appliquant à l architecture de ces ARNs. L identification de ces règles nous permettrait en retour d optimiser l identification de nouveaux gènes orthologues voir de nouvelles familles. L identification de ces règles est un processus itératif lourd. Le logiciel S2S a donc été pensé afin de réaliser ce processus dans un seul et même environnement informatique. En conséquence, il permet de réaliser les étapes suivantes : une session de travail avec S2S commence par l ouverture d un fichier contenant une information de structure pour un ARN donné. S il s agit d une structure tridimensionnelle au format PDB, S2S fait appel à l algorithme RNAVIEW (Yang et al, 2003) pour annoter automatiquement cette structure et identifier les objets biologiques de types hélices, simple-brins et interactions base-base selon la classification Leontis-Westhof (figure 1 et encart sur cette classification) [2]

Figure 1 Cette capture d écran représente l affichage de la grande sous-unité ribosomique de Haloarcula marismortui (RR0033) dans le logiciel S2S. Sur la partie gauche est représentée la structure tridimensionnelle telle qu elle est stockée dans le fichier PDB. Sur la partie droite est représentée la structure secondaire des ARN ribosomiques contenus dans cette sous-unité et annotées par l algorithme RNAVIEW. Les modules 2D et 3D étant en interconnexion, une structure de cette taille peut donc être facilement analysée et manipulée en se servant de sa carte 2D. au moyen du module graphique RNAlign, l utilisateur peut ensuite construire un alignment structural. Pour cela, il peut rajouter de nouvelles séquences dans sa session de travail qu il aligne contre la molécule de référence liée à l information de structure. à n importe quelle étape de cette construction, l utilisateur visualise le contexte structural et ceci de deux manières : le module RNAlign est en interconnexion avec les modules de visualisation 2D (RNA2DViewer) et 3D (RNA3DViewer) (figure 2) le module RNAlign affiche la conservation des paires de bases d après les matrices d isostérie de la classification Leontis-Westhof (voir l encart sur cette classification) Figure 2 Cette capture d écran représente la construction d un alignement structural avec le logiciel S2S. A n importe quelle étape de cette construction, l utilisateur visualise le contexte structural en 2D (module RNA2DViewer en haut à droite) et 3D (module RNA3DViewer en haut au centre) pour la molécule de référence dans cet alignement. [3]

La classification Leontis-Westhof (Leontis et al, 2002) Les molécules d ARN présentent des structures tridimensionnelles complexes stabilisées notamment par un réseau d interactions faisant intervenir les bases des ribonucléotides (ou interactions base-base). L étude visuelle de structures cristallographiques à haute résolution a permis de confirmer la présence des 12 familles géométriques potentielles classées d après le côté de la base en interaction (Watson-Crick, Hoogsteen ou Sugar Edge) et l orientation des liaisons glycosidiques reliant la base à son sucre (cis ou trans). Les matrices d isostérie Pour chacune des 12 familles de cette classification, il est possible d identifier des sous-familles où chaque membre peut se substituer à un autre sans perturbation locale de la structure tridimensionnelle. Tous les membres de ces sous-familles sont donc isostériques les uns par rapport aux autres. L utilisation de ces règles permettent d identifier des régions conservant localement la structure de référence alors que les résidus ne le sont pas nécessairement. Le module graphique RNAlign de l application S2S permet d afficher ces conservations. Il réutilise la notation pointée des éditeurs d alignements multiples pour indiquer, non plus une conservation en séquence, mais en structure. La figure ci-dessous montre notamment l affichage produit par RNAlign pour une interaction de type trans Hoogsteen-Sugar Edge observée dans la structure 3D entre une adénine et une guanine (en rose). Cette famille d interaction présente trois sous-familles d isostéries (en vert, bleu et blanc). Le masque structural indique qu une telle interaction peut se réaliser sans perturbation locale de la structure entre une cytosine et une guanine et non entre une uracile et une cytosine. ((<...>)) GCAUGAGGC CUCUGAUAG GAUUGACUG A C G U A C G U ((<...>)) GCAUGAGGC... G.U...C.G [4]

LE LOGICIEL ASSEMBLE : LA CONSTRUCTION ab initio D ARCHITECTURES D ARN Une fois l alignement structural réalisé, l étape suivante consiste dans la construction d un modèle théorique 3D pour une séquence d ARN pour laquelle aucune structure tridimensionnelle n existe. Cette construction est un processus itératif complexe qui peut complètement être réalisé dans le logiciel Assemble. A partir d une définition de structure secondaire (construite de novo dans le logiciel ou importée), Assemble scinde cette structure en blocs correspondant chacun à une hélice et la région simple brin attachée à son extrémité 3 (si elle existe). Dans le premier jet du modèle, ces blocs ont une conformation hélicoïdale caractéristique des hélices régulières d ARN (figure 3). Les hélices du modèle 2D sont en général repliées correctement dès cette première étape alors que les régions en simple brin nécessitent des étapes de construction supplémentaires. Figure 3 Le logiciel Assemble propose un module graphique permettant de construire et/ou de retoucher interactivement une structure secondaire pour la molécule d intérêt. Au fur et à mesure de cette construction, un module graphique dessine cette structure secondaire de manière non-recouvrante. Une fois cette structure secondaire validée, Assemble génère un premier jet du modèle 3D en faisant appel à l algorithme NAHELIX. Ces dernières présentent souvent un repliement caractéristique d un motif structural observé de manière récurrente dans les structures tridimensionnelles (boucle GNRA, Kink-turn, boucle E, récepteur à GNRA,...). Si l utilisateur pense avoir identifié un tel motif au moyen des informations dont il dispose, il peut appliquer son repliement à la région sélectionnée grâce à une librairie de motifs navigable depuis l interface du logiciel Assemble (figure 4). Figure 4 Assemble est couplé à une banque de motifs structuraux retrouvés de manière récurrente dans les structures d ARN résolues. Chaque motif est associé à une fiche d identification présentant notamment ses représentations 2D et 3D. Une fois le motif choisi par l utilisateur, il peut très facilement s appliquer à une région sélectionnée dans le modèle en cours de construction. [5]

Figure 5 Chaque résidu du modèle 3D peut être manipulé plus finement grâce à l utilisation d un boite à boutons virtuelle. Chaque bouton permet d agir sur un des angles de torsion le long de la chaîne sucre-phosphate ainsi que sur l angle chi reliant la base à son ribose. Parallèlement à ces repliements automatiques, Assemble propose une boite à boutons virtuelle permettant de modifier chaque angle de torsion d un résidu donné (figure 5). Assemble permet également de couper, lier, appliquer une rotation et une translation sur n importe quel élément moléculaire, depuis quelques atomes, jusqu à une chaîne moléculaire complète. Une fois le modèle achevé, il subsiste généralement des erreurs accumulées au cours des différentes étapes de construction. En conséquence, Assemble propose un module permettant d affiner les coordonnées du modèle (plissement des sucres, distances atomiques, stoechiométrie,...). Chaque étape de la construction détaillée ci-dessus fait appel à un algorithme qui est accessible de manière transparente via l interface graphique d Assemble : l algorithme JESSA (Chetouani et al, 1997) qui permet de produire le représentation 2D non recouvrante pendant la construction de la structure secondaire d ARN, l algorithme NAHELIX (Massire and Westhof, 1998) qui applique la conformation hélicoïdale par défaut à l ensemble des résidus dans le premier jet du modèle 3D, l algorithme FRAGMENT (Massire and Westhof, 1998) utilisé pour replier automatiquement une région sélectionnée d après un motif structural stocké dans la banque de motifs, l algorithme RNART (Massire and Westhof, 1998) qui assure l affinement de coordonnées une fois le modèle achevé. Assemble permet la construction de m o d è l e s t h é o r i q u e s tridimensionnels pour l ARN est couplé à une banque de motifs tridimensionnels applicables au modèle en construction peut superposer l affichage d une carte de densité électronique à un modèle en construction développé avec le language Java repose sur une architecture distribuée de type système multi-agents exploite des algorithmes découplés de l interface g r a p h i q u e e t d o n c réutilisables dans d autres applications disponible sur http:// bioinformatics.org/assemble en cours de publication [6]

Ces algorithmes pouvant être très lourds, nous avons décidé de les dissocier de l interface graphique proprement-dite en faisant reposer Assemble sur une architecture distribuée, et plus particulièrement sur un système multi-agents (Merelli et al, 2007). Il est ainsi possible d installer la partie graphique sur une machine alors que les algorithmes peuvent être déployés sur un autre ordinateur localisé dans le même réseau local. Une telle configuration offre deux avantages supplémentaires : pouvoir faire évoluer les potentialités d Assemble sans avoir à faire évoluer les pré-requis pour la machine de l utilisateur rendre ces algorithmes accessibles à d autres applications graphiques LE LOGICIEL ASSEMBLE COMME SOLUTION LOGICIELLE POUR LA RESOLUTION D ARCHITECTURES D ARN Très souvent, les informations fournies par un alignement structural restent insuffisantes pour parfaire un modèle tridimensionnel. En particulier si la séquence d intérêt que l on souhaite modéliser présente des caractéristiques structurales uniques au sein de sa famille. Il faut alors pouvoir bénéficier d informations fournies par d autres type d analyses : sondages et pontages chimiques en solution, SELEX,... Assemble sera amélioré afin de pouvoir intégrer et afficher ce type d informations permettant ainsi à l utilisateur d en tenir compte dans la construction de son modèle. Récemment, nous nous sommes plus particulièrement intéressé à l affichage des données de cartes de densité électronique (figure 6). Alors que l existence de données de cristallographie pour une molécule d intérêt semble rendre la construction d un modèle désuet ou inutile, ces deux approches deviennent complémentaires lorsque s agit de molécules de tailles importantes. Figure 6 Assemble permet d afficher une carte de densité électronique en parallèle d un modèle tridimensionnel en cours de construction. Assemble permet ainsi de résoudre plus facilement une structure d ARN à partir des données de cristallographie. L engouement suscité par cette nouvelle fonctionnalité auprès de groupes de cristallographie nous a motivé à interfacer d autres programmes utilisés couramment dans la résolution de structures tridimensionnelles d ARN. Ces programmes sont en général très lourds et justifient d autant plus le choix d une architecture distribuée pour Assemble. [7]

LA PLATEFORME P.A.R.A.DIS.E. : PRODUIRE, INTERCONNECTER ET ANALYSER LES ANNOTATIONS DE SEQUENCES D ARN Si les outils S2S et Assemble permettent d identifier, de visualiser et d analyser les règles évolutives de l architecture des ARNs au sein d une famille moléculaire, ils ne permettent pas de comprendre les mécanismes biologiques qui ont favorisé ces évolutions architecturales : pourquoi un motif structural est-il conservé? pourquoi un motif structural apparaît-il ou disparaît-il pour certaines séquences orthologues? pourquoi un motif structural se substitue-t il à un autre au cours de l évolution? Répondre à ces questions nécessite le recoupement des observations effectuées avec S2S et Assemble avec l ensemble des données (ou annotations ) disponibles pour chaque molécule d ARN présente dans la famille d intérêt. En général, ces annotations sont fournies par des banques de données bioinformatiques ou générées au besoin par différents algorithmes. Le type de ces annotations devra être le plus large possible pour espérer comprendre la relation entre la structure et la fonction de la molécule étudiée : contexte génomique, localisation et taux d expression cellulaire et tissulaire, localisation dans les réseaux d interactions moléculaires, groupe phylogénique,... Afin de pouvoir répondre efficacement à ces futures exigences, nous avons construit une plateforme sur laquelle nous avons fait migrer les outils S2S et Assemble et qui sert actuellement au développement de nouveaux outils graphiques (figure 7). Figure 7 : L infrastructure P.A.R.A.DIS.E. dans son état actuel de développement [8]

Nommée P.A.R.A.DIS.E (pour Platform to Analyze RNA Annotations over a DIStributed Environment ), cette plateforme remplit les critères suivants : fournir un modèle informatique extensible et souple pour l ensemble des concepts ARN à analyser fournir une couche de communication entre les banques de données/algorithmes ( producteurs d annotations) et les outils graphiques ( consommatteurs d annotations) permettre l interconnexion entre les différents outils graphiques La création d un modèle informatique pour la manipulation d objets biologiques en mémoire est à la base d un certain nombre d initiatives. On peut notamment citer l ensemble des projets Bio* (BioJava, BioPerl, BioPython, BioRuby,...) (Mangalam 2002). Pourtant, plutôt que de faire reposer P.A.R.A.DIS.E. sur une infrastructure comme BioJava, nous avons préféré réécrire notre propre modèle. La raison principale est que ces infrastructures ont été pensées avant tout pour la manipulation d objets génomiques. L incorporation de concepts structuraux se fait le plus souvent par l introduction de nouveaux objets informatiques totalement déconnectés (à notre sens) de ceux servant à la manipulation des séquences biologiques et de leurs alignements. Un autre aspect important de notre modèle est qu il privilégie l intégration, la comparaison et la mise en cohérence des annotations ARN plutôt que leur calculabilité. Il s agit d un moteur d annotations ARN servant de couche intermédiaire entre les objets manipulés dans les modules graphiques et les données produites par les algorithmes et les bases de données bioinformatiques. La couche de communication de P.A.R.A.DIS.E. est une extension du système multi-agents déjà utilisé pour le logiciel Assemble. La platforme P.A.R.A.DIS.E. peut donc se subdiviser en deux parties : une partie serveur sur laquelle sont déployés les agents interfaçant les algorithmes et les dépôts de données, une partie cliente constituée de plusieurs modules graphiques interconnectés et aptes à visualiser et manipuler les annotations produites par la partie serveur. L interconnexion entre les outils graphiques est quant à elle une extension du mécanisme évènementiel qui était déjà utilisé dans S2S pour la communication du module RNAlign avec les modules de visualisation 2D et 3D. La prochaine évolution majeure de P.A.R.A.DIS.E. portera sur l ajout d un dépôt central de données à la partie serveur. Actuellement, chaque utilisateur peut sauvegarder dans un fichier local les annotations qu il a produites et validées. Il s agit plus particulièrement d un fichier au format OWL (Web Ontology Language) dont la sémantique est décrite dans une ontologie (Bodenreider and Stevens, 2006 ; Leontis et al, 2007). Nous avons choisi ce format pour deux raisons : la structuration des données au format OWL sous forme de graphe est davantage adaptée à notre modèle en mémoire en comparaison de l arborescence d un fichier XML de type RNAML (Waugh et al, 2002) par exemple (utilisé jusque là par S2S) en plus de leur fournir un contexte sémantique, les ontologies rendent ces données intelligibles pour un ordinateur qui peut alors raisonner dessus en utilisant des algorithmes issus de la recherche en intelligence artificielle. Par raisonnement, il faut comprendre la capacité à rajouter automatiquement des informations implicites à partir de règles explicites décrites dans l'ontologie. [9]

Nous souhaitons donc permettre à chaque utilisateur de sauvegarder ses données au format OWL dans un dépôt central afin d en constituer une base de connaissances sur les ARN non-codants au sein d un laboratoire (figure 8). Des algorithmes de raisonnement et de fouille de données s exécuteront de manière récurrente sur cette base de connaissances. Chaque fois que de nouvelles informations seront produites automatiquement, l'infrastructure se servira de sa couche de communication pour alerter les expérimentateurs en cours de session de travail. Ces derniers pourront alors exploiter visuellement ces nouveaux résultats et valider leur pertinence pour les incorporer dans la construction de leurs hypothèses. Figure 8: L évolution du projet P.A.R.A.DIS.E. comme plateforme de biologie systémique des ARN non-codants au sein d un laboratoire [10]

Le support financier de l ACI IMPBIO a permis les réalisations suivantes : Publications avec comité de lecture Affiches présentées à des congrès Jossinet F, Ludwig TE, Westhof E. (2007) Bioinformatic structural analysis of non-coding RNAs. Curr Opin Microbiol. 12, 533-41. Leontis NB, Altman RB, Berman HM, Brenner SE, Brown JW, Engelke DR, Harvey SC, Holbrook SR, Jossinet F, Lewis SE, Major F, Mathews DH, Richardson JS, Williamson JR, Westhof E. (2006). The RNA Ontology Consortium: an open invitation to the RNA community. RNA 12, 533-541. Jossinet F, Westhof E. (2005). Sequence to Structure (S2S): display, manipulate and interconnect RNA data from sequence to structure. Bioinformatics. 21, 3320-3321. Communications orales sur invitation "S2S : une plateforme d'analyse des données de l'arn de la séquence à la structure". Invité le 26 janvier 2006 par le Pr. Alain Denise pour le Laboratoire de Recherche en Informatique, UMR 8623, Université Paris-Sud, Orsay (France). "S2S : visualiser, manipuler et interconnecter les données de l ARN de la séquence à la structure". Présentée aux "Journées Ouvertes Biologie Informatique Mathématiques (JOBIM) 2005" et à la réunion satellite ACI IMPBIO. Lyon (France) 6-8 juillet 2005 Collaborations Organisation à Strasbourg du groupe de réflexion sur la construction, la visualisation et l exploitation des alignements multiples effectuées sur des séquences d ARN. Ce groupe rentre dans le cadre du RNA Ontology Consortium (29-31 mai, 2006) Participation aux réunions du RNA Ontology Consortium (Banff, Canada - 23-24 mai 2005 et 18-19 Seattle, Washington - 18-19 juin 2006) Déplacement de Thomas Ludwig dans le laboratoire de Christine Gaspin dans le cadre de "AReNa : Groupe de travail pluridisciplinaire sur la structure et la fonction des ARN". Toulouse (France) 7-9 décembre 2005 Communications orales à des congrès "S2S : visualiser, manipuler et interconnecter les données de l ARN de la séquence à la structure". Présentée à "AReNa : Groupe de travail pluridisciplinaire sur la structure et la fonction des ARN". Strasbourg (France) 18-20 avril 2005 "S2S : un environnement d'annotation, de visualisation et de manipulation des données bioinformatiques de l'arn". Présentée aux "Journées Ouvertes Biologie Informatique Mathématiques (JOBIM) 2004". Montréal (Canada) 28-30 juin 2004 Matériel stations de travail pour Thomas Ludwig et Fabrice Jossinet serveur UNIX servant au déploiement et au test de la plateforme P.A.R.A.DIS.E. dans le laboratoire serveur UNIX de backup pour l ensemble des projets développés licenses logiciels (environnements intégrés de développement (IDE), license MATHEMATICA,..) livres et petits matériels informatiques Vacations financement d un CDD 1er mars au 31 août 2005 pour Thomas Ludwig [11]

REFERENCES BIBLIOGRAPHIQUES 1. Bodenreider O, Stevens R. Bio-ontologies: current trends and future directions. Brief Bioinform. 2006;7:256-274. 2. Chetouani F, Monestie P, Thebault P, Gaspin C, Michot B. ESSA: an integrated and interactive computer tool for analysing RNA secondary structure. Nucleic Acids Res. 1997;25:3514-3522. Jossinet F, Westhof E. Sequence to Structure (S2S): display, manipulate and interconnect RNA data from sequence to structure. Bioinformatics. 2005;21:3320-3321. 3. Leontis NB, Stombaugh J, Westhof E. The non-watson-crick base pairs and their associated isostericity matrices. Nucleic Acids Res. 2002;30:3497-3531. 4. Leontis NB, Altman RB, Berman HM, et al. The RNA Ontology Consortium: an open invitation to the RNA community. RNA. 2006;12:533-541. 5. Mangalam H. The Bio* toolkits--a brief overview. Brief Bioinform. 2002;3:296-302. 6. Massire C, Westhof E. MANIP: an interactive tool for modelling RNA. J Mol Graph Model. 1998;16:197-205, 255-7. 7. Merelli E, Armano G, Cannata N, et al. Agents in bioinformatics, computational and systems biology. Brief Bioinform. 2007;8:45-59. 8. Waugh A, Gendron P, Altman R, et al. RNAML: a standard syntax for exchanging RNA information. RNA. 2002;8:707-717. 9. Yang H, Jossinet F, Leontis N, et al. Tools for the automatic identification and classification of RNA base pairs. Nucleic Acids Res. 2003;31:3450-3460. [12]