Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données Rfam

Transcription

1 Université de Montréal Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données Rfam par Amell El Korbi Département de biochimie et médecine moléculaire Faculté de médecine Mémoire présenté à la Faculté des études supérieures en vue de l obtention du grade de Maître ès sciences (M.Sc.) en bio-informatique Aout, 2015 Amell El Korbi, 2015.

2 Université de Montréal Faculté de médecine Ce mémoire intitulé : Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données Rfam Présenté par Amell El Korbi a été évalué par un jury composé des personnes suivantes : Nadia El-Mabrouk, président-rapporteur François Major, directeur Jonathan Perreault, co-directeur Daniel Lafontaine, membre du jury

3 Résumé Les ARN non codants (ARNnc) sont des transcrits d'arn qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'arnnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoarn et les microarn (miarn). Les fonctions des ARNnc sont étroitement liées à leurs structures d où l importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'arn. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'arnnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements «bulge», etc. dans toutes les familles d'arnnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les «bulges» et nous avons calculé un score d abondance qui nous a permis d étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d ARN telles que l ARN ribosomal, l analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n ont pas été étudiés auparavant tels que la «tetraloop» UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d utiliser ces scores pour la conception d un filtre qui permettrait d accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles. Mots clés : ARNnc, structure d ARN, structure secondaire, Rfam, motifs iii

4 Abstract Noncoding RNAs (ncrnas) are RNA transcripts that are not translated into proteins yet they play important functional roles in the cell including gene regulation, transcription and translation. Among the many categories of ncrnas that were discovered, we find the wellknown ribosomal RNA (rrna), transfer RNA (trna), snorna and micrornas (mirna). The functions of ncrnas are tightly linked to their structural features. Thus, understanding and predicting RNA structure as well as developing methods to search for new ncrnas help to gain insight into these molecules. Technological advances have made available abundant sequence information accessible in databases such as Rfam, which provides alignments and structural information of many ncrna families. In this research project, we re trieved the information from the Rfam database about the sequences of all secondary structures such as hairpin loops, internal loops, bulges, etc. in all RNA families. A local database, RNAstem, was created to facilitate the use and manipulation of information about secondary structure motifs. We analyzed hairpin loops, bulges and internal loops using the compiled data about the frequencies of occurrence of each loop or bulge and calculated a frequency score. The frequency score is aimed to be an indicator for the abundance of a specific secondary structure motif. While minimizing the bias caused by the high redundancy of some RNA classes as ribosomal RNAs, the frequency score allowed us to identify the rare motifs in each category as well as the common ones. Our findings about the abundant motifs confirm what is already known from previous studies (ex. abundant GNRA or UNCG tetraloops). We found very large gaps between the most abundant and rare RNA structural features. Moreover, we discovered that "A" and "U" dominate single stranded RNA regions, whether they are bulges or loops. We further explored the possibility of using this data to improve current prediction tools for ncrnas by applying a filter to new candidates. We developed a score system, RNAscore, that evaluates RNAs depending on their motif contents and we tested the program with many different controls. Keywords: ncrna, RNA structure, secondary structure, Rfam, motifs iv

5 Table des matières Résumé... iii Abstract... iv Liste des tableaux... viii Liste des figures... ix Liste des abréviations... x Remerciements... xiii Chapitre 1 Introduction et Contexte Introduction Les ARN non-codants ARNnc dont la fonction est reliée à la complémentarité avec une cible ARNnc avec une «activité biochimique» La structure de l'arn Relation Structure/fonction Structure hiérarchique de l ARN Motifs structuraux Modularité de la structure Les outils bioinformatiques de prédiction de structure Les méthodes comparatives Les approches thermodynamiques Autres approches Découverte de nouveaux ARN non-codants Recherche d ARNnc par approche d homologie Recherche ab initio d ARNnc Rfam une base de données de familles d ARNnc Mise en contexte et objectifs du projet de maîtrise Chapitre 2 Compilation des données de Rfam et la conception de la base de données RNAstem v

6 RNAstem: a relational database of stem-loop features in RNA Abstract Introduction Description Implementation Results Conclusion Chapitre 3 Identification des motifs communs et rares des ARN structurés dans la base de données Rfam Identification of Common and Rare Features of Structured RNAs in the Rfam Database Abstract Introduction Materials And Methods Data extraction and analysis Frequency score Superscores Results Abundance of motifs based on size Common and rare terminal loops, bulges and internal loops Base contents of motifs Discussion & Conclusion Chapitre 4 Système de score pour l évaluation de nouveaux candidats d ARN noncodant Mise en contexte RNAscore : Système de score Modification des scores : Q-score et Z-score RNAscore spécifique aux groupes «activité biochimique» et «Antisens» Validation des scores Application de RNAscore sur les nouvelles familles de Rfam Application de RNAscore sur des contrôles négatifs vi

7 Application de RNAscore sur des motifs d études mutationnelles RNAscore d un ensemble aléatoire de motifs scorés Détermination de fonction par les scores «activité biochimique» vs «antisens» Capacité de discerner le type d'arn : échantillon Rfam Applicabilité de RNAscore comme filtre Chapitre 5 Discussion et Conclusion Indication de tendances Faible pouvoir discriminant comme filtre Approches envisagées pour approfondir et améliorer Subdiviser par clan Tenir compte des espèces et de la composition en GC Évaluer d autres éléments structuraux Conclusion Bibliographie Annexe Tables de scores S1 à S40 (supplementary data) vii

8 Liste des tableaux Table 1.Stems with non-canonical bp Table 2. RNA categories and supercategories Table 3. Common and rare terminal loops Table 4. Base content in terminal loops and bulges Table 5. Superscores des «bulges» de taille 1 du groupe «Antisens» Table 6. Application de RNAscore sur des ARNnc de Rfam Table 7. Application de RNAscore sur les nouvelles familles d ARNnc de Rfam Table 8. Application de RNAscore sur des contrôles négatifs Table 9. Application de RNAscore sur des motifs mutés Table 10. Q-scores des contrôles aléatoires. É-T : Écart-Type Table 11. Échantillons pour Test de Student de dq-score «Activité biochimique» vs «Antisens» Table 12. Comparaison des résultats de RNAscore sur les différents contrôles viii

9 Liste des figures Figure 1. Le dogme central de Crick de la biologie moléculaire Figure 2. Transcrits d ARN Figure 3. Séquences consensus et modèles de structures secondaires de riboswitch Figure 4. La structure primaire, secondaire et tertiaire d'un ARNt Figure 5. Structures secondaires et tertiaires de l ARN Figure 6. Séquences et structures consensus de nouveaux ARN identifiés par Weinberg et al Figure 7. Screenshot of interface Figure 8. (A) Secondary structure of an RNA stem (B) Flowchart of data extraction and analysis Figure 9. Motifs abundance by size in all of Rfam ncrna Figure 10. Conception des faux ARN Figure 11. Répartition des scores des contrôles positifs et négatifs par rapport à l intervalle des scores aléatoires Figure 12. Partial score calculation matrix for triloops (top) and common tetraloops (bottom) Figure 13. Possible intermolecular interactions ix

10 Liste des abréviations A : adénine ADN : acide désoxyribonucléiques AdoCbl : adenosylcobalamine ARN : acide ribonucléique ARN MRP : mitochondrial RNA processing ARN SRP : signal recognition particle ARNm : ARN messager ARNnc : ARN non codant ARNr : ARN ribosomique ARNsno : ARN nucléolaire ARNt : ARN de transfert BLAST : Basic Local Alignment Search Tool C : cytosine Cis-reg : cis-regulatory CoTC ribozyme : co-transcriptional cleavage ribozyme CRISPR : clustered regularly interspaced short palindromic FMN : flavin mononucleotide G : guanine GEMM : widespread Genes for the Environment, for Membranes and for Motility glms ribozyme : Glucosamine-6-phosphate activated ribozyme HCV : Hepatitis C virus IRE : Iron response element IRES : Internal ribosome entry site lncrna : long non-coding RNA MAEB : metabolism-associated element in Burkholderia Mg : magnésium miarn : micro ARN x

11 MOCO : molybdenum cofactor NCM : nucleotide cyclic motif parnn (snrna): petit ARN nucléaire (small nuclear RNA) PDB : Protein Data Bank prnpn : petits ribonucléoprotéines nucléaires protéines Sm : protéines Sec1/Munc18-like Rfam : Rna FAMilies RMN : résonance magnétique nucléaire RNase P : ribonucléase P RNP : ribonucléoprotéines SAH : S-adenosylhomocystéine SAM : S-adenosylméthionine sarn (bact) : petits ARN bactérien (small RNA) scarna : Small Cajal body-specific RNA siarn : petits ARN interférents (small interference RNA) SQL : Structured Query Language TERC : telomerase RNA component THF : Tetrahydrofolate TPP : Thiamine pyrophosphate U : uracil xi

12 «Emancipate yourselves from mental slavery. None but ourselves can free our minds.» «Light up the darkness.» Bob Marley xii

13 Remerciements Je voudrais remercier mes directeurs de recherche Jonathan Perreault et François Major de m avoir encadrée pour ce projet, pour leurs aide et disponibilité. Je désire aussi remercier tous les membres des laboratoires Major et Perreault pour les précieux conseils et les discussions constructives. À ma famille qui a cru en moi et m a soutenue pour aller toujours plus loin. Mes parents et mes sœurs, vous êtes ma force et mon support, je vous aime. À mon mari qui m a encouragée et a été à mes cotés même à distance, merci pour tout. À ma Jana chérie, you are my everything, you are my sunshine, my only sunshine! xiii

14 Chapitre 1 Introduction et Contexte 1.1 Introduction La prédiction des structures de l'arn et la recherche de nouveaux gènes à ARN sont des thématiques de la bioinformatique qui ont récemment connu beaucoup de développement (1). Grâce aux avancées technologiques, la nouvelle génération de séquençage à haut-débit génère de grandes quantités de données sur les génomes d'organismes appartenant à tous les règnes du vivant. Ceci a permis une grande expansion des bases de données incluant les bases de données spécialisées pour les familles d'arn, telle que Rfam sur laquelle se base ce projet de recherche. Cette abondance de données offre de nombreuses opportunités ainsi que des défis pour les bioinformaticiens qui se penchent sur la question de l'arn pour mieux comprendre sa fonction et sa structure ainsi que développer des outils permettant de découvrir de nouveaux ARN non-codants (ARNnc). Les ARNnc sont des transcrits (ou régions de transcrits) qui ne sont pas traduits en protéines comme le sont les ARN messagers. L'expression d'un gène à ARN produit une molécule d'arn fonctionnelle dont la fonction cellulaire est étroitement liée à la structure de la molécule. La difficulté que représente la recherche expérimentale des ARNnc par les techniques de biologie moléculaire et biochimie a propulsé le développement des méthodes bioinformatiques (2,3). La bioinformatique de l ARN permet aux scientifiques d améliorer la précision des prédictions de structures, de découvrir de nouveaux ARNnc et d approfondir nos connaissances sur le fonctionnement de ces molécules dont les usages thérapeutiques sont prometteurs (4). 1.2 Les ARN non-codants Le dogme central proposé par Francis Crick en 1957 (figure 1) (5) résume le transfert de l information génétique dans la cellule à partir de l ADN. L'ARN y figure comme l intermédiaire dans la synthèse de protéines, un intermédiaire connu comme l ARN messager. Les ARN ribosomiques (ARNr) et les ARN de transfert (ARNt), omniprésents dans les

15 organismes vivants, sont les premiers exemples d ARNnc qui étaient connus pour leurs rôles dans la traduction à l époque où Crick a présenté le dogme central (6). La vue simpliste limitant l ARN à la fonction de messager a été remise en question depuis la découverte des ribozymes, ARN ayant une fonction enzymatique. La ribonucléase P (RNase P) fut le premier ARN présentant des propriétés catalytiques qui a été découvert en 1983 (7). En parallèle, Thomas Cech et son équipe ont démontré que des introns de certains pré-arnm chez Tetrahymena étaient autocatalytiques et pouvaient se cliver et se liguer sans l intervention de protéines (8). Cette importante découverte des ribozymes a mené à un prix Nobel de chimie en Depuis, plusieurs autres types d ARN issus de la transcription et qui ne subissent pas de traduction ont été découverts. L appellation «ARN non-codants» (ARNnc) est utilisée pour les distinguer des ARN messagers. La science de l ARN a connu une révolution dans les deux dernières décennies durant lesquelles la découverte d ARNnc a connu un rythme remarquable. Exemple de cette évolution, la première version de Rfam 1.0 a été lancée avec 25 familles d ARNnc en Présentement on retrouve 2450 familles dans la dernière mise à jour de la base de données Rfam 12.0 (juillet 2014) (9). Figure 1. Le dogme central de Crick de la biologie moléculaire. Ces ARN qui ne codent pas pour une protéine sont définis par «ce qu ils ne sont pas» plutôt que par «ce qu ils sont» en réalité ce qui engendre une grande hétérogénéité des ARNnc. Ils jouent de nombreuses fonctions cellulaires clés et variées incluant : la régulation, la localisation et la modification des transcrits, la modification de la chromatine et les altérations épigénétiques (figure 2) (10). 2

16 Transcrits d'arn ARN messagers codants transcrits d'arn non-codants ARN régulateurs régulateurs de transcription régulateurs de traduction localisation de ARN/protéine modulateurs de fonction protéique régulateurs de chromatine ARN de maintenance/"housekeeing" ARNt ARNr parnn ARNsno ARN SRP RNase P ARN MRP ARN télomérase Figure 2. Transcrits d ARN. L ARNnc a des fonctions cellulaires variées. Les ARNnc peuvent être classés en ARN régulateurs et en ARN de maintenance. Plusieurs de ces ARN forment avec des protéines des complexes appelés ribonucléoprotéines (RNP). parnn : petits ARN nucléaires («srna», ARN-U) jouent un rôle dans l épissage de l ARNm (snrna). ARNsno : petits ARN nucléolaires («small nucleolar RNA») jouent un rôle dans la maturation d autres ARN tels que l ARNr, l ARNt et les parnn. ARN SRP : «signal recognition particle» reconnaît et lie le peptide signal jouant un rôle dans le trafic et la sécrétion des protéines. RNase P : ribonucléase P a pour fonction la maturation de l ARNt. ARN MRP : sous-unité ARN de l ARNase MRP («mitochondrial RNA processing») qui jouent plusieurs rôles importants dans les cellules eucaryotes. ARN de la télomérase : (TERC «telomerase RNA component») sert de matrice pour l extension du télomère. Adapté de (10). Il existe plusieurs façons de classifier les ARNnc selon leurs caractéristiques et/ou fonctions. Nous avons considéré deux principales classes : une classe pour les ARNnc dont la fonction est reliée à la complémentarité avec une cible tandis que l autre classe regroupe les ARNnc avec une «activité biochimique». Les ARNnc de cette dernière classe ont la principale caractéristique commune d avoir des structures suffisamment complexes pour 3

17 effectuer des fonctions telles que la reconnaissance de molécules, la catalyse ou l échafaudage de RNP. Ce groupe inclut les ARN structuraux adaptateurs tels que les ARNt. Il est à noter que cette classification n est pas sans faille puisque certains ARN possèdent les deux critères de classification. Dans la réalisation de ce projet, ces ARN ont été classés dans le groupe qui représente la caractéristique dominante. Dans les deux sections qui suivent, nous explorons quelques exemples des principaux ARNnc les plus connus de chaque classe ARNnc dont la fonction est reliée à la complémentarité avec une cible Plusieurs ARNnc accomplissent leurs fonctions grâce à une complémentarité avec leurs cibles. La reconnaissance de la cible se fait généralement grâce à la formation de paires de bases entre des régions simples brins de l ARN et sa cible. Dans ce travail, nous référons à cette classe d ARN par sa propriété «antisens». Plusieurs études ont révélé l existence de nombreux petits ARN dans le noyau dont des petits ARN trouvés dans le nucléole, un pseudo compartiment du noyau (11). Ces petits ARN nucléolaires (ARNsno, «small nucleolar RNA») jouent un rôle dans la maturation d autres ARN, principalement l ARNr ainsi que l ARNt et les petits ARN nucléaires (parnn). Un ARNsno s associe à au moins quatre protéines pour guider la modification d une base précise de l ARNr. Il y a deux sous-familles principales : les ARNsno à boite C/D associés à la méthylation et les ARNsno à boite H/ACA associés à la pseudouridylation (des exceptions existent). Chacune des sous-familles est caractérisée par des motifs de séquences conservés et c est l élément antisens, complémentaire à la séquence cible contenant la base à modifier, qui permet à l ARNsno de jouer son rôle de guide (12). Une sous-catégorie de snoarn appelée scaarn sont un hybride des ARNsno à boîte C/D et ceux à boîte H/ACA capable de guider les deux modifications de méthylation et pseudouridylation (13). Les micro ARN (miarn), une famille d ARN impliquée dans la régulation de la traduction, ont été découverts en l'année 2000 (14,15). Des centaines de gènes de miarn ont été identifiés depuis et beaucoup de ces derniers contrôlent l'expression génique en étant des répresseurs post-transcriptionnels (16). Les miarn sont de petits ARNnc d environ 20 à 24 nucléotides exprimés dans les cellules eucaryotes animales et végétales (et dans certains 4

18 virus). Ils ont une fonction de répression génique en se liant à l ARNm cible grâce à leur séquence complémentaire. Ce sont des ARN très conservés, transcrits à partir de leurs propres gènes ou d introns pour former une structure en épingle de cheveux pour être ensuite exportés et clivés dans le cytoplasme. À cause de leurs implications dans des maladies telles que le cancer, les miarn font l objet de beaucoup d études qui se penchent sur la dérégulation de ces molécules importantes afin de les utiliser comme marqueurs de diagnostic et développer de nouvelles approches thérapeutiques (17). Il y d autres ARNnc qui inhibent l ARNm en étant complémentaire à une partie de la séquence tels que les ARN dénommés «antisens». Les ARN antisens sont de longs transcrits qui fonctionnent en se liant généralement à l extrémité 5 de l ARNm cible, contrairement aux miarn qui sont de courtes séquences dont la cible se trouve généralement à l extrémité 3 de l ARNm. On a découvert un grand nombre d ARN antisens transcrits naturellement dans les cellules mammifères. Les récentes études démontrent que ces ARN antisens ont des fonctions régulatrices dans la transcription et post-transcription jouant ainsi des rôles biologiques variés (18). Il existe aussi des petits ARN bactériens antisens «bacterial srna» qui sont capables de se lier par complémentarité à des régions d ARNm cibles et en réguler l expression. Les petits ARN sont des ARNnc très abondants dans les bactéries et ils sont impliqués dans plusieurs processus incluant le métabolisme du carbone, la réponse au stress et le «quorum sensing» pour nommer quelques exemples (19). Les ARN CRISPR («clustered regularly interspaced short palindromic repeats») sont un autre exemple d ARNnc antisens. On les retrouve dans environ 40% des bactéries séquencées et 90% des archéobactéries (20). Ils sont associés à des protéines pour former le système CRISPR/Cas qui est un système d immunité procaryote permettant de résister aux éléments génétiques exogènes (plasmides et phages) en les clivant (21). L ARN CRISPR a pour fonction de guider le complexe Cascade en se liant à l ADN auquel il est complémentaire. La taille de ces ARN varie entre 24 et 48 paires de bases et ils forment généralement des structures en forme d épingle à cheveux. Ces quelques exemples illustrent la diversité des ARNnc que nous avons mis dans la classe «antisens» pour mettre en évidence leur point commun. Ces descriptions ne sont pas 5

19 exhaustives, d autres types d ARNnc sont également inclus dans cette classe, et comme mentionné, certains ARN classés comme ayant une «activité biochimique» agissent parfois via une complémentarité de paires de bases avec leur cible ARNnc avec une «activité biochimique» La découverte des ARN ayant une activité enzymatique a changé l idée que seulement les protéines peuvent catalyser des réactions. On appelle ribozymes tous ces ARN ayant une activité catalytique et ils sont impliqués dans une variété de réactions et de fonctions telles que l épissage de l ARN, la maturation des ARNt et la réplication virale. Certains ribozymes sont autocatalytiques tels que les introns auto-épissables et les ribozymes hammerhead. Une grande variété de ribozymes ne portent pas nécessairement le nom «ribozyme» au sein de la base de données Rfam et contiennent de nombreuses familles d ARN (le ribosome, les RNAses P, le riboswitch glms, les introns auto-épissables, les petits ARN nucléaires) alors qu on retrouve aussi plusieurs familles telles que les ribozymes Hammerhead, ribozymes VS (Varkud satellite), ribozymes Hairpin, ribozymes Vg1, etc. Les ARN ribosomiques 5S avec ceux des petites et grandes sous-unités représentent 60% du ribosome, le reste étant des protéines. Le ribosome est un ribozyme puisque la grande sous-unité (50S chez les procaryotes, 60S chez les eucaryotes) catalyse la formation du lien peptidique dans la synthèse de protéines et qu il n y a aucun acide aminé, mais que des bases d ARN dans son site catalytique (22). Les petits ARN nucléaires, parnn sont toujours associés avec un ensemble de protéines formant des ribonucléoprotéines (RNP) appelés prnpn (snrnp) dont la fonction principale est l épissage des ARN messagers. Chaque particule RNP est composée de plusieurs protéines Sm, les parnn et les protéines prnpn-spécifiques. Les composantes de parnn ont une taille moyenne d environ 150 nucléotides et les plus connues sont U1, U2, U4, U5 et U6. Bien que U1 et U2 font partie des ARNnc qui se lient par complémentarité à une cible, U4 en complexe avec U6 ont une activité catalytique permettant de cliver l ARNm et tous ensemble ils forment le spliceosome (23,24). 6

20 Les riboswitch sont un autre type d'arn non-codant ayant une fonction régulatrice des gènes. Le riboswitch glms a une activité autolytique comme mécanisme de régulation de l ARNm, il est à la fois ribozyme et riboswitch (25), mais nous le classons comme riboswitch. De façon générale, les riboswitchs se trouvent dans la portion 5' des ARNm et consistent en une région d ARN appelée aptamère qui a un rôle de récepteur. En liant un métabolite spécifiquement, un riboswitch change de conformation ce qui induit une régulation transcriptionelle ou traductionnelle de l'expression (26). La figure 3 montre quelques exemples de riboswitch avec la séquence et structure secondaire consensus (27). On considère les riboswitch comme un exemple explicite de la relation structure-fonction des ARN. Figure 3. Séquences consensus et modèles de structures secondaires de riboswitch. Les lettres en rouge représentent les nucléotides conservés dans plus de 90% des séquences alignées. Tiré de (27). 7

21 IRES «Internal ribosome entry site» se trouve aussi dans cette classe d ARNnc. On retrouve ces ARN structurés dans la région non traduite d ARN viral ainsi que dans certains ARNm et ils jouent un rôle dans l initiation de la traduction. Des ARNnc qu on nomme «thermoregulator» tels que cspa ou prfa thermoregulator sont aussi des éléments de la région 5 non-traduite et agissent sur l expression des gènes en réponse à la chaleur. Ceux-ci ne sont que quelques exemples de plusieurs autres familles que nous classifions comme ayant une activité biochimique. 1.3 La structure de l'arn Relation Structure/fonction Le principe selon lequel «la fonction de l ARN est plus conservée que la structure et la structure est plus conservée que la séquence» (28) a été adopté depuis les années soixante et a été appuyé par l'analyse des nouveaux complexes d'arn de grande taille tels que le ribosome (29). La richesse des nouvelles structures a propulsé le développement de nouvelles méthodes informatiques pour la classification des ARN, la description de leurs motifs structuraux, la détermination de leurs fonctions ainsi que la comparaison et la prédiction de leurs structures (30-33). La conformation spatiale adoptée par l ARNnc est déterminante pour sa fonction. La molécule simple brin peut se replier sur elle-même en formant des appariements (paires de bases) entre ses bases. Les paires de bases contigües forment des tiges alors que les régions non appariées forment des boucles. La nature de ces appariements et les motifs structuraux formés (tige, boucle etc.) contribuent à la stabilité de l'arn. On utilise les principes de la thermodynamique et l énergie libre pour évaluer la stabilité de la structure de l ARN. La stabilité de la structure augmente quand son énergie libre est minimale Structure hiérarchique de l ARN La structure de l'arn est hiérarchique (34). La figure 4 montre un exemple de la hiérarchie des structures d un ARNt. La structure primaire est la séquence linéaire de nucléotides tandis que la structure secondaire est l ensemble des paires de bases appariées 8

22 formant des tiges (énergétiquement stabilisantes) et des régions simple-brin (déstabilisantes) telles que les boucles terminales, les renflements ou «bulges», les boucles internes et les jonctions (constituées par de multiples tiges-boucles). La structure tridimensionnelle est le repliement de l ARN qui résulte de l ensemble de tous les appariements de la structure secondaire en plus des interactions additionnelles entre les éléments de structure secondaire tels que les tiges-boucles. La structure tertiaire inclut les interactions à longue distance comme les pseudonœuds formés par l interaction d une boucle avec des bases situées à l extérieur de la tige ainsi que les interactions triples qui résultent d une interaction entre trois bases se trouvant dans le même plan et liées par des ponts hydrogènes. On y retrouve les sites d'interaction avec d'autres ARN, des protéines ou d'autres petites molécules On peut voir dans la figure 5 une représentation des structures tige-boucle ou en épingle à cheveux ainsi qu un pseudonœud. Bien que la structure tertiaire définisse la conformation spatiale, il faut mentionner que la structure spatiale de l ARN inclut les interactions avec des molécules séparées (par exemple les interactions entre les sous-unités du ribosome). Figure 4. La structure primaire, secondaire et tertiaire d'un ARNt. Adapté de (35). 9

23 Figure 5. Structures secondaires et tertiaires de l ARN. Adapté de (36) Motifs structuraux Certains éléments structuraux de l ARN sont récurrents et représentent des motifs distincts qui ont été étudiés et caractérisés. En plus d avoir des motifs d ARN dans les structures secondaires, on a des motifs qui forment des interactions tertiaires, ou des motifs 3D. Les motifs peuvent contribuer à la stabilité globale de la structure de l ARN et guider le repliement spécifique de la molécule en étant des sites de nucléation (37,38). Parmi les motifs les plus connus, on retrouve des éléments structuraux de type triboucles «triloops» et des tetra-boucles «tetraloop» qui sont des boucles terminales dans une structure de type tige-boucle ou en épingle à cheveux de tailles 3 et 4 respectivement. Les tetraboucles les plus communes sont principalement du type GNRA, UNCG et CUUG. Nous élaborons plus sur les motifs structuraux secondaires étudiés dans le contexte de ce travail au début du chapitre 3. Les motifs E, C et «kink-turn» sont des boucles internes qui forment en réalité des motifs avec plusieurs interactions tertiaires et des paires de bases non-canoniques. La boucle E du ribosome a été identifiée dans l ARNr 5S et considérée comme une boucle interne au début. Ce motif s avère un peu plus complexe, ayant une paire de base A-A parallèle, trois autres paires de bases non-canoniques et délimité par une ou deux paires G-A en tandem. Le motif Sarcin-Ricin, un renflement («bulge») d une base G, est un sous-motif de la boucle E qu on retrouve également dans d autres familles d ARN (jonctions de tiges-boucles). Le motif «kink-turn» est aussi une boucle interne qui a été identifiée à de multiples sites dans les ARNr 16S et 23S. On le trouve aussi dans le parnn U4, certains riboswitchs et certains 10

24 snoarn. Le motif tient son nom de la courbure causée par la boucle interne et qui est importante pour la fonction de l ARNnc impliquée (39,40). Le motif C est également une boucle interne asymétrique de taille variable (longueur des segments simple brin) et qui se retrouve dans l ARNr 23S. La boucle T est une boucle qu on retrouve dans une des tiges-boucles de l ARNt et aussi dans certaines tiges-boucles des ARNr. La boucle T contient cinq nucléotides et forme des liaisons tertiaires avec d autres éléments structuraux. Le motif «UA-handle» est un exemple de motif qui se forme au repliement de la structure tertiaire et il fait partie d autres motifs comme la «boucle T». On y retrouve un «bulge» qui peut avoir une taille d un nucléotide ou plus (41). Ces éléments structuraux sont souvent des motifs de reconnaissance pour des protéines spécifiques (42). Ils sont généralement conservés au sein d une famille d'arn et sont souvent trouvés dans plusieurs familles d'arn. Toutes ces caractéristiques les rendent utiles pour la prédiction de structure, l identification des sites fonctionnels et la recherche d ARNnc Modularité de la structure La modularité est une caractéristique importante dans l organisation biologique. Les ARN, tout comme les protéines, présentent des structures ayant des domaines. Les ARNt présents en copies multiples dans toutes les cellules vivantes présentent essentiellement les mêmes éléments structuraux (bras accepteur, bras anti-codon, bras T et D) et ne diffèrent que par quelques nucléotides dépendamment de l acide aminé spécifique à l ARNt (43). La modularité de la structure secondaire de l ARN a été démontrée par la capacité de défaire des sous-structures individuelles sans affecter les autres éléments (44). Le repliement hiérarchique de l ARN lui confère cette modularité. Les sous-structures secondaires et tertiaires se replient souvent de façon indépendante (34). Les motifs structuraux récurrents tels que les boucles GNRA et le motif sarcin-ricin sont considérés comme des unités modulaires (45). L étude de la modularité de l ARN est cruciale pour une bonne compréhension de la relation 11

25 structure/fonction, de même que pour la conception de nouvelles molécules d ARN synthétiques telles que la construction de nanoparticules (46). 1.4 Les outils bioinformatiques de prédiction de structure Dans cette section, on essaiera de faire un survol sur les principaux outils bioinformatiques qui permettent de faire de la prédiction de structure en s'intéressant de plus proche à la structure secondaire. La détermination de la structure de l'arn avec les méthodes expérimentales demeure une tâche difficile et souvent couteuse malgré les progrès remarquables de la cristallographie par rayon X, la spectroscopie par résonance magnétique nucléaire (RMN) et les modifications chimiques de l'arn. Les structures déterminées par ces techniques ne constituent qu une faible portion des ARNnc connus. Ces techniques impliquent souvent la modification du milieu dans lequel se trouve l ARN (différent du milieu cellulaire) et la fixation dans une seule conformation ce qui constitue une perte d information pour une molécule ayant une structure dynamique. La prédiction de structure par la bioinformatique est un outil important pour contourner ces inconvénients et générer des hypothèses sur la relation structure/fonction de l'arn. La prédiction de structure est utile pour l'interprétation et la conception des expériences de mutagénèse, l'identification de caractéristiques structurales conservées et la conception des stratégies de petits ARN interférents ( sirna ). L'ARN se replie de façon hiérarchique donc la structure secondaire détermine la structure tertiaire. Ceci implique que la précision de la prédiction de la structure secondaire est déterminante pour obtenir une prédiction tertiaire optimale. Nous disposons actuellement de plusieurs programmes informatiques pour la prédiction de structure secondaire d'arn (32). Les approches bioinformatiques développées trouvent une structure secondaire de l'arn soit à partir d'une séquence, soit à partir d'un alignement de séquences multiples et dans ce dernier cas il s agit d'une structure consensus. On distingue alors deux catégories de méthodes: d un côté nous avons les approches thermodynamiques fondées sur l importance de la stabilité de la structure et qui visent à trouver les structures les plus stables et d un autre coté il y a les approches comparatives qui se basent sur l importance de la conservation d une structure 12

26 commune pour un ensemble de séquences homologues. Il existe aussi des méthodes hybrides qui combinent les deux approches Les méthodes comparatives Ces méthodes consistent à générer un alignement de séquences multiples et à chercher des motifs de covariation entre deux nucléotides. L'analyse comparative nécessite un bon alignement de séquences homologues provenant de plusieurs espèces et qui ont suffisamment de variation pour établir un alignement de qualité. On retrouve deux types d approches dans ces méthodes : Il y a des méthodes qui cherchent des covariations sur des alignements préalables de séquences donc l alignement précède le repliement et il y a des approches qui n utilisent pas des alignements préalables où l alignement et le repliement se font simultanément. RNAalifold (47) est parmi les approches avec alignement préalable les plus utilisées. Cet algorithme trouve la structure commune par minimisation de l énergie thermodynamique et il a été beaucoup utilisé pour la prédiction d ARNnc notamment par le programme RNAz (48). RNAlishapes combine les idées de RNAalifold à celles de RNAshapes (une méthode thermodynamique) (49). Les approches du type «replier et aligner simultanément» sont basées sur l algorithme de Sankoff (50) et les exemples les plus connus sont Foldalign (51) et Dynalign (52). Le degré de conservation des séquences homologues influence le type d approches à choisir. Il reste que les deux types de méthodes se complémentent Les approches thermodynamiques Les approches thermodynamiques génèrent les structures secondaires possibles à partir d'une séquence donnée et s avèrent utiles lorsqu on ne peut pas appliquer les approches comparatives (peu de séquences disponibles, pas ou trop de variations). Les méthodes thermodynamiques suivent généralement deux règles qui sont: maximiser les paires de bases et minimiser l'énergie libre de la structure, en d'autres termes augmenter la stabilité thermodynamique. 13

27 Nussinov a élaboré la première approche utilisant la programmation dynamique à la fin des années 70. L algorithme de Nussinov et Jacobson a amélioré l algorithme original de maximisation des paires de bases en y ajoutant des critères énergétiques. La majorité des algorithmes de minimisation de l'énergie libre se base sur l algorithme de Nussinov et Jacobson dont l algorithme de Zuker (53,54) qui utilise les règles énergétiques de Freier- Turner et incorpore les interactions d empilements. L algorithme de Zuker est implémenté dans deux programmes très utilisés: Mfold (55) et RNAfold (56). RNAsubopt (57) est une variation de RNAfold qui trouve toutes les structures sous-optimales situées à un intervalle d énergie libre de la structure optimale. RNAshapes (58) perfectionne le calcul des structures sous-optimales en réduisant l espace de solutions avec une approche utilisant l abstraction des «formes» de structures. PKNOTS (59) est une extension de l'algorithme de Zuker qui permet la prédiction de structure secondaire avec pseudonœuds (motifs de structure tertiaire exclus des algorithmes cités ci-dessus) Autres approches Certaines approches utilisent des modèles d'énergies différents du modèle de Turner. CONTRAfold utilise un modèle d'énergie probabiliste obtenu par apprentissage des paramètres à partir d un ensemble de séquences ayant des structures confirmées (60). Dans une nouvelle approche bayésienne, Parisien et Major ont proposé un modèle qui utilise une base de motifs appelés NCM pour «Nucleotide Cyclic motifs» extraits des structures 3D d'arn disponibles dans les bases de données des structures cristallisées (31). Ces motifs contiennent des boucles ayant au plus 4 bases non-appariées ainsi que tous les types de paires de bases (canoniques et non-canoniques) ce qui améliore les prédictions. MC-Fold sert de base pour MC-Sym, un outil de prédiction de structure 3D. Le pipeline MC-Fold-MC-Sym a permis de prédire correctement plusieurs structures pour lesquelles le modèle de Turner ne donnait pas de bonnes prédictions. Tous ces algorithmes ont permis de développer de puissants programmes contenant une compilation d'outils «package» d'alignement de séquences/structures, de repliement et de recherche d homologie et de motifs d'arn. 14

28 1.5 Découverte de nouveaux ARN non-codants Comme mentionné dans les sections précédentes, les découvertes récentes d ARNnc se multiplient. En 2007, 22 candidats d'arn structurés dans les bactéries ont été identifiés par Weinberg et. al. à l aide un pipeline automatisé utilisant la recherche d homologie et CMfinder pour les alignements de séquences multiples (61). La figure 6 montre sept ARN parmi ces 22 ARN. Trois ans plus tard, la même équipe a utilisé un pipeline de génomique comparative intégrant les recherches d'homologie, l algorithme RNAmotif ainsi que CMfinder pour trouver plus d une centaine de candidats d'arn structurés dans des métagénomes de bactéries et archéobactéries (62). On retrouve de nombreux ARN cis-régulateurs parmi ces nouveaux ARN structurés et d intéressants candidats de riboswitch. Ces exemples d études montrent l importance des outils de recherche des nouveaux ARNnc et l amplitude de ce qui reste à découvrir et à élucider pour ces ARN, leurs structures et fonctions cellulaires. L hétérogénéité des ARNnc et le manque de conservation au niveau de leurs séquences primaires rendent la tâche de recherche de nouveaux ARN beaucoup plus difficile que celles de séquences codantes. Il est important de combiner séquences et motifs structuraux dans les méthodes de recherche de nouveaux ARNnc (63). On distingue deux catégories de méthodes de recherche d ARNnc: la recherche d homologie qui trouve des ARN dont la famille est connue et il y a les outils de recherche ab initio (de novo) d ARNnc. 15

29 Figure 6. Séquences et structures consensus de nouveaux ARN identifiés par Weinberg et al. GEMM («widespread Genes for the Environment, for Membranes and for Motility»), SAH, COG4708 et suca sont des candidats de riboswith. Quant à eux, purd et mini-ykkc sont des candidats d ARNnc cis-régulateurs. MAEB («metabolism-associated element in Burkholderia») est un candidat d ARN régulateur probablement reconnu par une protéine. Tiré de (61) Recherche d ARNnc par approche d homologie Les approches d homologie permettent la recherche de nouveaux ARNnc dont les familles sont déjà connues. Certains outils se basent uniquement sur la conservation de la séquence primaire tels que Blast (64) alors d autres programmes intègrent l information sur la structure secondaire de l ARNnc et nous en donnons quelques exemples dans ce qui suit. On peut trouver la majorité des ARNr et ARNt en utilisant BLAST mais c est inefficace pour les autres ARNnc parce que les séquences primaires d ARNnc sont moins conservées. trnascan- 16

30 SE (65) utilise des modèles de covariance pour la séquence ainsi que la structure secondaire consensus mais c est un outil qui est limité aux ARNt. Erpin (66) est un programme d identification de motif d ARN qui utilise un algorithme de programmation dynamique basé sur un profil de motifs. En partant d un alignement de séquences d ARN et l annotation de structure secondaire, Erpin identifie les séquences homologues. Des outils appelés descripteurs d ARN comme RNArobo (67) et RNAmotif (68) (qui sont des extensions de RNAmot (69)) ont été développés afin d améliorer la recherche d homologie en tenant compte de l information sur les motifs. Infernal (70) est un puissant outil de recherche d homologie et il est utilisé pour maintenir la base de données Rfam. Infernal contient une compilation d'outils d'alignement de structure et de recherche de motifs basés sur un modèle de covariance. Pour chaque famille de Rfam, un modèle de covariance est obtenu à partir d'un alignement multiple annoté par une structure consensus. Il y a une vérification manuelle des alignements avant la construction du modèle ce qui assure la qualité de l alignement. Infernal est un outil gourmand en ressources (temps de calcul et mémoire) et ceci est dû à l usage du modèle de covariance. Ces méthodes de recherche par homologie sont plus performantes pour trouver des nouveaux membres d ARNnc dont la famille est connue que pour découvrir de nouvelles familles d ARNnc Recherche ab initio d ARNnc La recherche ab initio d ARNnc permet d identifier de nouveaux ARNnc appartenant ou pas à des familles connues. Ces outils sont basés sur des approches comparatives, thermodynamiques ou sur les biais de composition en nucléotides (cette dernière approche a été très peu développée). On dispose de plusieurs outils de recherche de novo d ARNnc incluant RNAz (48) et QRNA (71) qui sont les plus populaires. EvoFold (72), ddbrna (73) et MSARI (74) sont d autres exemples. Les méthodes citées sont basées sur l approche de génomique comparative et utilisent l information de plusieurs séquences similaires pour trouver le plus d information sur la conservation de la structure secondaire. Certains programmes comme RNAz utilisent à la fois des outils de prédiction de structure basés sur l approche de stabilité thermodynamique (RNAfold) ainsi que la conservation de structure consensus dans l alignement multiple (RNAalifold). 17

31 CMfinder (75) a été utilisé dans le cadre de ce travail pour détecter des ARN structurés dans des séquences homologues (voir chapitre 4). C est un outil de prédiction de motifs d'arn basé sur un modèle de covariance, mais avec l'avantage d'avoir des heuristiques soigneusement élaborées ce qui augmente son efficacité. La prédiction de structure combine l'énergie de repliement et la covariation de séquences. Ce programme crée en résultat un nouveau modèle de covariance qui peut être directement intégré à la recherche d'homologie à l'échelle du génome. Il peut être utilisé, par exemple avec Infernal, pour le raffinement automatique et l'expansion des familles d'arn. Certains outils ont été conçus pour la découverte de gènes à ARN dans une séquence génomique donnée (sans utilisation d approches comparatives). smyrna (76) est un outil qui se base sur les motifs dans la structure primaire et a démontré une capacité à trouver de nombreux nouveaux ARNnc. NCRNASCAN (59), utilise plutôt des paramètres de la structure secondaire, mais n a pas prouvé son efficacité à trouver des ARNnc excepté pour les miarn. ncrnascout (77) est une méthode plus récente de découverte ab initio qui combine les deux approches de smyrna et NCRNASCAN pour une meilleure performance que ses deux prédécesseurs. 1.6 Rfam une base de données de familles d ARNnc L'application d'outils bioinformatiques puissants tels que CMfinder ou Infernal à la collection de données de séquences d'adn en expansion continuelle facilite l identification de nouveaux ARNnc et révèle aussi de nouveaux membres de familles déjà connues. Plusieurs bases de données ont été développées dans les récentes années pour les ARNnc. On retrouve certaines bases qui sont générales telles que Rfam qui contient toutes les familles d ARNnc alors que NONCODE exclut les ARNt et ARNr. D autres bases de données sont plus spécialisées comme mirbase pour les miarn, lncrnadb pour les longs ARNnc ou snopy pour les ARNsno. Rfam est une base de données qui répertorie les ARNnc grâce à des alignements de séquences et des modèles de covariance. Infernal est l outil utilisé pour maintenir Rfam (voir section 1.5.1). Rfam maintient les alignements, les consensus de structures secondaires, les 18

32 modèles de covariances et les annotations correspondantes aux familles d'arn. Chaque famille représente un ensemble de séquences qui ont une fonction comme ARNnc et ont un ancêtre commun. On y trouve les familles des ARNt, miarn, riboswitch etc. Rfam est souvent utilisée comme une source d'alignements de haute qualité pour tester des programmes d'analyse de séquence ou de repliement et pour l'entrainement machine. Rfam 10.0 a été mis en ligne au début de 2010 contenant une importante mise à jour suite à l'usage de la nouvelle version de l'algorithme d'infernal v1.0. Les améliorations apportées par cette mise à jour ont permis une augmentation de 178% du nombre des régions de séquences couvertes par Rfam ainsi que l'augmentation de la taille de certains alignements (78). C est cette version de Rfam que nous avons utilisée pour ce travail. La version 12.0 a récemment été publiée et contient actuellement 2450 familles d ARNnc (9). 1.7 Mise en contexte et objectifs du projet de maîtrise Alors que l on dispose de plus en plus de séquences d ADN et d ARN provenant de la génomique et de la transcriptomique, la signification de la plupart de ces séquences reste encore à élucider. Plusieurs gènes à ARN restent à découvrir ainsi que leurs structures et fonctions. Jusqu'à présent aucune étude n'a essayé de répertorier tous les motifs structuraux (boucles «hairpin», boucles internes, combinaisons de paires de bases, etc.) par leurs abondances dans la base de données Rfam. Il y a eu beaucoup d'études sur des motifs spécifiques et généralement dans un contexte restreint (excluant toujours une partie des données). Pour ne nommer que quelques exemples, on trouve dans la littérature de nombreuses études sur les boucles à trois bases non-appariées appelé triloop (79-81), les boucles «tetraloop» de type GNRA, UNCG ou CUUG qui sont très abondantes et impliquées dans la fonction de nombreux ARNnc (82-86) et les structures d épingle à cheveux (87,88). Cependant ce projet est innovateur dans le sens où il inclut toutes les caractéristiques structurées dans toutes les familles de Rfam, ce qui représente l'ensemble de toutes les séquences d'arnnc à notre disposition. Notre analyse ne se limite pas aux motifs structuraux communs et expose les motifs rares restés jusqu à présent dans l ombre des structures abondantes. L analyse de toutes les structures de toutes les séquences se trouvant dans Rfam pourrait potentiellement aider à ressortir des motifs qui sont sur- ou sous-représentés pour 19

33 n importe quels facteurs qui affecteraient leur sélection au cours de l évolution. Ainsi, au-delà de la stabilité thermodynamique d une structure donnée, des facteurs tels que la susceptibilité à être dégradé par des ribonucléases, à lier des protéines, à former des dimères, à être transcrit plus efficacement sont autant d exemples de facteurs pouvant influer le cours de l évolution, mais dont les programmes de prédictions ne tiennent généralement pas compte. Notre hypothèse est qu en tenant compte de l abondance des motifs dans Rfam de façon exhaustive, nous serons capables de mieux évaluer un nouvel ARNnc et de discriminer entre les vrais et faux candidats prédits par les méthodes actuelles de recherche d ARNnc. Notre premier objectif dans ce travail est d analyser tous les motifs de structure secondaire disponibles dans Rfam et de trouver les caractéristiques communes et rares. Les résultats de cette analyse sont présentés dans le chapitre 3. Notre deuxième objectif est d exploiter la richesse des structures secondaires contenues dans les alignements de Rfam pour développer un système de score pour évaluer les ARN structurés et par la suite étudier la possibilité de faire des filtres pour les nouveaux candidats d ARNnc basés sur ces informations. Le chapitre 4 présente le système de score développé et nous discutons de son applicabilité au chapitre 5. 20

34 Chapitre 2 Compilation des données de Rfam et la conception de la base de données RNAstem Avant-propos Ce chapitre présente un article en préparation pour une soumission à la revue Database and ontologies. Cette base de donnée fait partie des méthodes utilisées dans ce travail et a permis de compiler les données de Rfam afin d en faciliter l utilisation. J ai participé à la conception de la base de données et de son site web. J ai aussi testé le fonctionnement de la base de données. Je n ai pas participé à la rédaction de cet article.

35 Database and ontologies RNAstem: a relational database of stem-loop features in RNA Pierre-Étienne Cholley 1, Amell El Korbi 1, Jon Antony 2, Michelle Meyer 2* and Jonathan Perreault 1 1 INRS - Institut Armand-Frappier, Laval (Québec), H7V 1B7, Canada. 2 Biology Department, Boston College, 140 Commonwealth Avenue, Chestnut Hill, MA 02467, USA. 2.1 Abstract Motivation: Our understanding of RNA tertiary structures benefited a great deal from experimentally determined atomic resolution structures. Still, the 1102 structures currently available represent a very small fraction of known RNAs; the Rfam database lists nearly 2000 RNA families and over two million sequences. Many recurring small RNA motifs have been identified from mining RNA structural data, but a different organization of data is needed to fully take advantage of wealth of information provided by Rfam and growing amounts of data from sequencing projects. Results: We introduce RNAstem, a web server to study RNA secondary structure. RNAstem is a MySQL database with an incomparable query flexibility that allows simple or global analysis of loops, bulges, internal loops, base paired regions, multistem junctions to look for conservation, covariation of motifs and discovery of novel motifs. Availability: 22

36 2.2 Introduction Following many major discoveries of the past two decades RNA is now recognized as a complex multifunctional molecule. The wealth of available sequence data has been exploited by computational tools to find hundreds of non-coding RNAs. Many recurring small RNA motifs have been identified from mining RNA structural data; such as the notoriously stable GNRA and UNCG tetraloops, the most common RNA loops found in ribosomes (89,90). Such motifs have been useful for deepening our understanding of RNA structure and in the development of computational tools for RNA structure prediction. For instance, when folding a query sequence, the predictive tool Mfold takes into consideration the improvement in freeenergy provided by a GNRA tetraloop in addition to that derived from base-pairing (91) and many computational tools that find novel RNA structures through comparative genomics rely in part on free-energy calculations (48,75,92-94). More sophisticated prediction tools, like MC-fold, attempt to consider most of the potential tertiary interactions (95). All of these approaches rely on data accumulated from the determination of three dimensional structures. However, the number of RNA sequences characterized in these studies represents a very small subset of available functional RNA sequences. There are currently 1102 RNA structures in the Protein Structure Databank (common repository for all biomolecule crystal structures (96)) derived from less than 100 families of RNA. In contrast, the Rfam database of RNA families (97) consisted of 1973 RNA families in 2009, with secondary structure alignments comprising over two million sequences. To aid in the search of such constraints, we have built a database of all the stem-loops present in the Rfam database, which totals approximately 10,000,000 stem-loops. All the features of these hairpins have been extracted and listed in different tables with various information allowing complex queries. 2.3 Description Stem-loop browsing and searches: A user-friendly interface allows casual visitors to look at any known RNA stem-loop, its sequence, structure, coordinates in corresponding 23

37 sequence and species, as well as additional information like the overall conservation of that stem (see Figure 7). Figure 7. Screenshot of interface. Search by features and multiple conditions: Users interested in all the stems with a given feature set can easily access that information. For example, all the stems harbouring a GNRA tetraloop can be accessed by using the pattern G[ACGU][AG]A in conjunction with the terminal loops option. Other examples of information that can be fetched include the presence, size or sequence of any secondary structure element: terminal loops, internal loops, bulges or the stem itself. Queries can combine many different criteria simultaneously, for example, looking for all stems that have two bulges, one internal loop and a terminal loop of five bases that comprises GGA. Other examples include presence of a D-loop and a T-loop in the same RNA. Complex queries: A schematic of the database tables is provided for users familiar with SQL to allow them to write their own queries. We therefore provide the full capabilities of SQL language, without the need for numerous options that would only add confusion to a user interface. 24

38 2.4 Implementation The MySQL database has a web interface implemented in php. The server runs on UNIX. Simple queries are processed and displayed in real time. However, because of the size of the database and the complexity of some potential queries, compressed result files will be sent by address of registered users. 2.5 Results To highlight the potential of the database, we performed a query to identify all stems with at least one putative non-canonical bp (within Rfam aligned sequences). In this search, we find that the closing stem of most riboswitches is more likely to include a non-canonical bp than simple stem-loops, in contrast with other well known RNA families not known to be structural-switches (see table 1). This can be explained by a need for more flexible structures that allow switching where the aptamer and expression platform portions of riboswitches overlap, typically the closing stem of the aptamer (98). Riboswitch cl. NC st. NC cl.-st. RNA (other) cl. NC st. NC cl.-st. Mg sensor RNaseP bact-b SAM-IV CPEB Lysine RNaseP nuc Purine CoTC ribozyme TPP RNaseP bact a Cobalamin Hammerhead AdoCbl(2) RNase P MOCO RNaseP arch SAM-I-IV RNase MRP AdoCbl(3) Hammerhead SAM IRES HCV THF U Glycine U drz-agam U1 yeast FMN trna Avg * Avg * Table 1. Stems with non-canonical bp. cl. NC, ratio of closing stem sequences with non-canonical bp over total number of sequences; st. NC, same ratio for the other stems; cl.-st, closing stem ratio from which the ratio of the other stems is subtracted; Avg, average. *P<

39 A simpler example of a query is a search for all instances of internal loops consisting of one U on each strand, opened by a CG bp and closed by a GC bp. This motif is found in type 1 myotonic dystrophy where a CUG repeat is overabundant, leading to the formation of a very long stem with numerous U,U internal loops. Recent work suggests that molecule interacting specifically with this motif is potentially a treatment of the disease (99). We found 2879 instances of this motif in Rfam, most of which are in 5S rrna sequences, but not in the human 5S rrna. Overall, this is not a common motif, suggesting that the molecule will have few off-target effects. 2.6 Conclusion RNAstem represents a powerful tool for those interested in studying RNA secondary structure on a global scale. By providing the basic element of RNA structure, hairpins, it partially circumvents the problem of comparing different RNA families, thus allowing the user to look for general features applicable to any RNA. Acknowledgements The authors wish to thank colleagues at the INRS for helpful comments. Funding: Start up funds from the INRS and Boston College. JP is the recipient of a Junior 1 research scholar career award. 26

40 Chapitre 3 Identification des motifs communs et rares des ARN structurés dans la base de données Rfam Avant-propos Ce chapitre présente un article en préparation pour la revue Nucleic Acids Research et représente une première partie du projet avec les méthodes, résultats et discussion de cette partie. Ma contribution à cet article est d avoir effectué l analyse des données compilées à partir de Rfam, le développement du score d abondance sous la supervision de Jonathan Perreault et François Major. Ma contribution dans la rédaction est d environ 80%.

41 Identification of Common and Rare Features of Structured RNAs in the Rfam Database Amell El Korbi 1,2, François Major 2 and Jonathan Perreault 1 1 INRS - Institut Armand-Frappier, Laval, Québec, H7V 1B7, Canada. 2 Institute for Research in Immunology and Cancer (IRIC), Université de Montréal, Montréal, Québec, PO Box 6128, H3C 3J7, Canada. 3.1 Abstract Technological advances have made available abundant sequence information accessible in databases such as Rfam, which provides alignments and structural information of many noncoding RNA (ncrna) families. We retrieved all the terminal loops, internal loops and bulges from Rfam. We compiled the corresponding data and calculated an abundance score. We found significant differences between the most abundant and rare RNA structural features. Pentaloops were unexpectedly more common than tetraloops in some RNA categories. Well-known loops such as GNRA and UNCG were found to be among the most common, but also others that have not been noticed before, such as the UUUU tetraloop. Moreover, we discovered that "A" and "U" dominate single stranded RNA regions, whether they are bulges or loops. 3.2 Introduction The advances of high-throughput technologies such as next generation sequencing or tiled arrays allowed the discovery of many transcripts with functions unrelated to protein coding, so called noncoding RNAs (ncrna). These RNAs are an important fraction of the transcriptome (100) and new families of ncrnas are being revealed at a surprising pace (62), (78). NcRNA are well known for being structural elements as in ribosomal RNA but they also play a wide range of functions including regulation of gene expression, metabolic regulation, and microbial pathogenicity. The function of ncrnas such as ribozymes and riboswitches, just to name a few, is tightly linked to their structure (27). Thus, understanding and predicting 28

42 RNA structure can bring considerable insight into these molecules (61, ). Secondary structures such as stem-loop hairpins are versatile building blocks that allow various complex structures to be formed. We only partially understand what the implications of such structures are and how they exert their biological function. Nevertheless, there is a growing body of data on various small RNA structure motifs that help us apprehend the relation between structure and function. Terminal loops are among the simplest RNA structures and are important functional elements of RNA, making them very interesting to study. For example, the triloop motif is known to play a major role in a variety of organisms and pathways as in the promotion of some virus replication (88), (81), viral synthesis (104), and iron response (105), while tetraloop hairpins are very abundant and represent about 50% of all hairpins (83,106,107). Among the very well-studied tetraloops we find the stable GNRA tetraloops that make up to 50% of hairpins in rrna (82), UNCG (85) and CUUG (84,108) that are also common in ribosomes. Many structured functional RNAs have bulges and internal loops that are important structurally and catalytically. GA/GA tandem mismatch, a symmetric 2X2 internal loop, modulates RNA metal binding in hammerhead ribozymes (109,110). The kink-turn (abbreviated to K-turn) is a common structural motif that has an asymmetrical-internal-loop structure and is known to bind proteins (111). Bulges are unpaired nucleotides on one side of a stem of base pairs and they confer a variety of RNA architectures and recognition sites for intra and intermolecular interactions (112). Iron-Response-Elements (IRE) are known to have a conserved C-bulge in the 5 strand of the stem that is tightly linked to their function (31,113). In order to improve our understanding on aspects of RNA structure that have not been as thoroughly studied as determination of thermodynamic stability, we used a different approach than most RNA structure studies. Rather than focusing on RNA structures for which 3D structures are available, we tried to get insights in structural and biological features of RNA by extracting all the simplest secondary structure elements from the millions of sequences in the RNA families database (Rfam) (114). As common secondary motifs that were extensively studied are generally very stable structures, we also aim to explore loops and bulges for which other parameters (aside from thermodynamic stability) could explain the 29

43 observed abundance. We focused on small motifs such as terminal loops, internal loops and bulges having small sizes (5 bases or less) (see Figure 8A). Undeniably, less research was inclined to explore rare motifs and, to our knowledge, no publication explored these aspects of the distribution of RNA structural motifs where a few motifs are very abundant, many others are less common and some are exceedingly rare. In an attempt to explore all of the above features and questions about ncrna, this work is aimed to determine common and rare features of all RNA available in Rfam alignments. We retrieved the information from the Rfam database about the sequences of secondary structures such as terminal loops, internal loops and bulges in all existing RNAs. We compiled and analyzed the available data to find the most common and rare structural features. Figure 8. (A) Secondary structure of an RNA stem. This structure was predicted by MC-fold and shows examples of the three basic secondary motifs that were studied: a terminal loop (triloop UUU), an internal loop (5 CU-3 UU) and a bulge (A). (B) Flowchart of data extraction and analysis. Different scripts and tools were used (on the left) to provide the output (on the right) required for the next step. 30

44 3.3 Materials And Methods Data extraction and analysis Full alignments of all noncoding RNA families available on Rfam (version 10) were retrieved from the database. A series of Perl scripts were used to extract information about all existing secondary motifs in these alignments such as stem-loops, bulges, internal loops and base pairs. We used a MySQL database, RNAstem, to facilitate data extraction ( Data was compiled to identify all common and rare secondary structures in Rfam alignments. These loops and bulges consisting of so-called single-stranded regions are based solely on the Rfam annotation, even if many of them are well known to interact in various ways, such as the G and A of GNRA tetraloops. In fact, one of the goals of our analysis is to discover motifs that are likely to have such tertiary interactions. The steps for data extraction and analysis are summarized in Figure 8B Frequency score A scoring system was elaborated to discriminate between rare and abundant structures. We calculated a score for each loop or bulge sequence of size N (for triloops, there are 64 possible triloop combinations: AAA, AAC, AAG..., UUU). We first compiled Rfam RNA families into 23 categories (see Table 2) based both on Rfam Types as well as statistical significance. Since there are often two levels of Types for a given RNA family, whenever too few sequences were available for one, the highest level was chosen. Conversely, for families such as small subunit rrna, there are more than enough sequences for every sequence combination of the motifs to be found many times, they were therefore each chosen as a single category. Using these categories, the following formula was used to calculate a score: log((l i +0.5)/Ʃ L i ) where L i is the number of instances of a specific loop of index i in a category and Ʃ L i is the sum of all loops of size N in the same category and 0.5 prevents log(0). 31

45 The log of the above ratio is calculated for the 23 RNA categories compiled from Rfam database (see Table 2) and then the average of logs for each sequence of loop or bulge is calculated between these categories. The average log represents the score we use as an indicator for the abundance of a specific motif. The more negative the score, the rarest the loop. If we were to calculate merely the average of the ratio of the relative occurrence to the total number of motifs, the discrimination for rare motifs is lost (zeroed). Calculating an average of logs allows us to give more weight to the rare motifs. We use a Java program to do these calculations. An example of how scores are calculated is depicted in Figure 12 in the supplementary data. BIOCHEMICAL ANTISENSE Translation Intron Cis-Reg Gene* Antisense snorna 5S Ribozyme IRES Gene* mirna H/ACA-box 5.8S Splicing Leader CRISPR scarna SSU_rRNA_archea snrna Riboswitch Antisense C/D-box SSU_rRNA_bacteria Intron T-box SSU_rRNA_eukarya Thermoregulator trna Cis-Reg Table 2. RNA categories and supercategories. *Gene is a classification of Rfam that encompasses numerous different families of RNA that are transcribed as single genes (typical example would be bacterial small RNAs such as RyhB) which makes it a supercategory in our classification. It is considered as ANTISENSE because most of the corresponding families are small RNAs that act through complementarity with their target. However, it also includes several genes for which this classification would be more controversial, such as the SRP RNA Superscores Many RNA families in Rfam are not as large as the trna or the ribosomal categories, which form categories by themselves herein. Even when we merged families into 23 categories, many of these categories did not have enough motifs, which led to an underrepresentation of some loops or bulges. To deal with this issue and for a greater discrimination 32

46 for rare loops, we grouped the 23 categories in 6 larger groups we conveniently named supergroups. Table 2 shows how the compiled categories were grouped. While some categories needed to be merged in super categories for statistical significance, we later came to the conclusion that many intrinsic properties of different types of RNAs were too different to be compared. Therefore, the log scores were calculated independently for two different super-divisions. While Gene, Inhibitory and Nuclear were grouped in Antisense for having predominantly a function requiring base complementarity with a target, we grouped the three supercategories Translation, Cleaving and Cis in Biochemical for the biochemical function provided by their complex structures: catalysis and ligand binding. In principle, these divisions are not mutually exclusive, for example some RNA families can hybridize to a target to exert cleavage, but all RNA families were assigned to only one category, super category and division for our analysis. 3.4 Results Abundance of motifs based on size We first looked at the abundance of motifs based solely on their sizes. In Figure 9, we show the statistics for the terminal loops, bulges and internal loops. For each type of motif, we calculated the total occurrences (e.g. total number of all terminal loops of all sizes) then the occurrence for each motif size found in Rfam (Figure 9 A-C). Tetraloops are the most abundant overall (Figure 9A), representing 37% of all terminal loops, which confirms what is already known about tetraloops (83). While they are the most common loops in Biochemical and are also very common for Antisense (2 nd ) (Figure 9D, Tables S1 and S21), pentaloops are the most abundant type of loop for the latter. Triloops are not as abundant at about 3% of all loops, although they are only slightly less abundant than tetraloops in Antisense. Interestingly, loops of size seven (heptaloops) are quite abundant (21%). This may be explained by the presence of two heptaloops in trnas, which are among the most abundant sequences in Rfam. This exemplifies the reasons underlying the scoring scheme based on logs averaged over many categories. 33

47 The most abundant bulges are the one-base bulges (see Figures 9B and 9E. Tables S2 and S22), representing over half of all existing bulges in ncrna. Bulges of two and three bases are also relatively common. In general, bulges of small sizes (7 bases and less) are the most common making up over 99% of all bulges. Figure 9. Motifs abundance by size in all of Rfam ncrna. Histograms on the top show percentages of terminal loop, bulges and internal loops by sizes that have the highest occurrences for each type of motifs (example tetraloops are the most abundant terminal loops representing 37% of all loops found in Rfam). These percentages do not reflect the relative abundance in the RNA categories. Graphs on the bottom show the abundance of motifs by size based on the abundance score in the 2 major classes of categories Biochemical (in blue) and Antisense (in red). The histograms are only grouped based on the size of the motifs and are not meant to be compared to each other as the abundance score is an indicator proper to each class of RNA. Tetraloops remain the highest in Biochemical while loops of size 5 are the most abundant terminal loops in Antisense class. 34

48 Internal loops also show the same tendency of small motifs being more common (Figures 9C and 9F, Tables S3 and S23). We note that the size range of internal loops is generally less than five nucleotides on each side: the 10 most common internal loops all have less than 5 nucleotides on each side and together they account for 60% of all internal loops. Size-symmetric internal loops are slightly more common, with 3 x 3 loops (three nucleotides on the 5 side and three nucleotides on the 3 side) being most common (10% of all internal loops). As with heptaloops, the score-based sorting contrasts sharply with overall data, likely because of numerous 3X3 internal loops in ribosomal RNAs. Indeed, scores indicate that in both categories 1X1 loops are the most common, followed by the 2X2, 1X2 and 2X1 loops. The symmetrical loop of size 4X4 although not shown in Figure 9F is more abundant than loops of sizes 3x3, 3x1 and 3x2 only in Antisense whereas in Biochemical it is further down the list of abundant tetraloops. The abundance of small-sized loops and bulges may be explained by the fact that thermodynamic stability of loops depends on size (115). Other factors could be the biological functions played by these motifs as well as pressure to have small genomes and RNAs, which is especially strong in bacteria and viruses Common and rare terminal loops, bulges and internal loops We further used our score system to determine the abundance of all sequence combinations for the three types of secondary structure motifs (terminal loops, bulges and internal loops). Statistics on all possible sequence combinations for loops of sizes up to five bases, bulges up to four bases and internal loops of up to four bases were calculated separately. Larger structural elements (sizes greater than five) were not studied further because the numbers available of sequences did not provide significance for the growing number of sequence combinations as the size increases (six bases imply 4096 possible combinations, too many of which appear to be rare, often with no instances at all). While the analysis was done for all possible sequences of terminal loops of size 2 to 5 and bulges from size of 1 to 4 and a selection of internal loops, we only show the results for a few terminal loops in table 3 (complete score tables are available in the supplementary data Tables S4-S20 for Biochemical and Tables S24-S40 for Antisense). For each motif size, we sorted the loops from highest to lowest score. The most abundant and rarest loops are shown in table 3. 35

49 In biloops, triloops and tetraloops, most common loops in Biochemical are also abundant in Antisense, although the exact ranking of abundance differs. This pattern is also found in rare loops of size two to four while pentaloops have fewer similarities between the common loops of each group. UU, AA and UA are the most common biloops in both Biochemical and Antisense while CC, GU, GC and CG are the less abundant loops. The triloops UAU and UUU are common in both groups. The most abundant triloop is CAU in Biochemical and UAA in Antisense. Examining the rare triloops shows overlap between Biochemical and Antisense with GCG and CGG triloops. Our findings correlate with previous studies that identify three groups of terminal loops as the most common tetraloops: GNRA, UNCG and CUUG (where N represents any nucleotide and R is a purine) (83,116). Among the ten most abundant tetraloops in the Biochemical, we find six (out of the eight) GNRA tetraloops, two UNCG tetraloops and the CUUG tetraloop. We find more less-known tetraloops among the common tetraloops of the Antisense group, where three GNRAs and one UNCG also appear in the top ten most common loops. The GAAA tetraloop is the most common in Biochemical and the second most abundant in Antisense. GNRA is undeniably the most common tetraloop validated by the scores calculated for all of our compiled categories (before splitting into Biochemical and Antisense). A significant new finding is the abundance of the UUUU tetraloop, the most common loop in Antisense and the ninth in Biochemical. Little is known about this tetraloop found in the yeast SRP RNA (87,117). Distribution of pentaloops in Biochemical and Antisense show less overlap than smaller terminal loops suggesting that these two groups differ in structural features. Pentaloops with consensus sequence GNNRA are quite common in Biochemical (GUCAA, GUUAA, GAUAA and GAAAA, rank 1 st, 2 nd, 3 rd and 8 th respectively). GNNRA may be a variation of the common GNRA tetraloop. UUUUU, UUUAU pentaloops are abundant in Biochemical (4 th and 6 th ) as well as CUUGA and CUUGU (7 th and 9 th ) and these pentaloops may be related to the abundant UUUU and CUUG tetraloops. It is interesting to note that UUUAU and CUUGU are also abundant in Antisense (7 th and 9 th ). 36

50 Biloops Triloops Tetraloops Pentaloops ABUNDANT RARE Biochemical Antisense Biochemical Antisense Loops Score Loops Score Loops Score Loops Score UU -0.5 UA -0.9 CG -2.0 CG -2.1 AA -1.0 UU -1.0 GC -1.8 GC -2.1 AU -1.1 AA -1.1 GU -1.7 CC -1.6 UA -1.1 CA -1.2 CC -1.7 GU -1.5 CAU -1.4 UAA -1.7 CGG -3.5 CGG -3.5 UUA -1.4 UAU -1.7 GGC -3.4 CCG -3.5 UAU -1.5 UUU -1.8 GCG -3.2 GCG -3.5 UUU -1.5 ACC -1.8 GGU -3.0 GGG -3.4 GAAA* -0.9 UUUU -1.5 AGGG -4.8 CGCG -4.4 GAGA* -1.2 GAAA* -1.6 ACGC -4.7 CGCC -4.3 GCAA* -1.2 AAAG -1.7 CCGG -4.6 CGUC -4.1 UUCG* -1.5 UUCG * -1.8 CGUC -4.5 GCCG -4.0 GUGA* -1.6 GGAA* -1.9 GUGC -4.3 CGCA -4.0 GUAA* -1.7 GUAA* -1.9 CGGA -4.3 CGUA -3.9 CUUG -1.7 GCAA* -2.0 CGGC -4.3 GCGG -3.9 GCGA* -1.8 AAAA -2.0 CGAU -4.2 AGCG -3.8 UUUU -1.8 GGAG -2.1 GGGC -4.2 AUCG -3.8 UACG* -2.0 GAGU -2.1 GACC -4.2 CGGG -3.8 GUCAA -2.2 UGCAU -2.4 AUGCG -5.0 GCGCU -4.8 GUUAA -2.2 UCCAG -2.5 CCGGG -5.0 GCGGA -4.8 GAUAA -2.2 UGGGC -2.5 GGGGC -5.0 GCGGC -4.8 UUUUU -2.2 UGGGU -2.5 GGGGU -5.0 GCGUC -4.8 AAAUA -2.3 UGUGU -2.7 GGGCC -5.0 GCUAC -4.8 UUUAU -2.3 UUGCC -2.7 CGACU -5.0 GGGCC -4.8 CUUGA -2.3 UUUAU -2.7 GAGCU -5.0 GGGCG -4.8 GAAAA -2.4 UUUUG -2.8 AGGUG -5.0 GUCCG -4.8 CUUGU -2.4 CUUGU -2.8 CCGGU -4.9 GUCGG -4.8 UAAUU -2.4 AGAAA -2.8 CGGGG -4.9 UCGCG -4.8 Table 3. Common and rare terminal loops. Shown here are the most abundant and rare terminal loops in the two divisions Biochemical and Antisense. On the left, the top common loops are shown for loop sizes ranging from 2 to 5. A star next to a tetraloop indicates a frequent GNRA or UNCG tetraloops. The rarest loops are shown on the right. Note: for pentaloops, we are showing only part of the loops with the lowest scores (the complete list is available in supplementary data Table S4 and S24). Shaded motifs are found in the top most common or rare loops for both Biochemical and Antisense, note however that in most cases the loops not shaded are found in the counterpart group not too far from the top sequences. 37

51 We discovered certain consensus in the abundant pentaloops in Biochemical, such as GUNAA, GNYAA, UUUNN, CYUGU, YYYYG etc. Many of the common pentaloops in Antisense are either UNCAN, UGGGY or UUUNN types. Three of the abundant pentaloops in Biochemical: GAUAA, CUCAA and CUUGA (3 rd, 7 th and 13 th respectively) are conserved pentaloops of the 16S RNA (118,119). GCU(A/C)A was reported as a conserved pentaloop that shows structural resemblance to UNCG tetraloop (120) but our analysis shows that this loop is not among the most abundant pentaloops in Rfam. The log-based score that we used was largely intended to adequately represent the exceptional rarity of some motifs. This approach yielded many GC rich motifs, including some that are among the rarest for both Antisense and Biochemical categories, like CGUC. In our analysis of the rare loops in comparison to the abundant loops of different sizes, we noticed that common loops are more likely to be rich in A and U nucleotides while the rare ones have more C and G. We observed the same pattern in bulges and we verified this by statistical tests Base contents of motifs The observation that abundant terminal loops and bulges were often rich in A and U while the rare ones had sequences with mostly C and G nucleotides led us to examine base content of motifs more closely. To verify these observations, we calculated the content of motifs in nucleotides using the RNAstem database. In table 4, the total percentages (taking all loops or bulges, regardless of the category) indicates that on average loops of size two to five contain 34% of A, 30% of U while C and G represent each 18% of the nucleotides found in terminal loops. We also calculated an average content to give equal weight to each category and thus eliminating the strong bias of the much more abundant ribosomal RNA (right side of the table). In this case, the average percentage in all loops is slightly different (A 31% and U 33%). However, if we examine tetraloops where G was relatively abundant in the total percentages with a 30%, there was a considerable difference when the ribosomal effect was corrected and G represents only 23% of nucleotides found in terminal tetraloops. Tetraloops may have a higher content in guanine due to the abundance of GNRA loops. This analysis indicates that about 2/3 of nucleotides in terminal loops are either A or U. We ran the same 38

52 analysis on bulges of size one to five and it shows similar results where the average content of bulges is about 64% A or U and the nucleotides C and G represent 17 and 19% respectively of the nucleotides found in bulges. These results suggest that through evolution, selection generally favors the bases A and U in terminal loops and bulges. A student T-test on terminal loop and bulge distribution to compare the scores of A/Urich motifs to those of C/G-rich motifs confirms that terminal loops and bulges containing more A and U have a higher score that those that are C/G-rich. The score difference is statistically significant for all terminal loops of size two to five in both Biochemical and Antisense. Bulges of size one to five in Biochemical and Antisense showed the same results except for bulges of size one in Antisense where the scores of A and U bulges were not significantly higher than the scores of C and G bulges, but the small sample size makes it more difficult to prove a significant difference since there are only four bulges of size one. Loop Total % Categories Average % size A C G U A C G U 2 27% 17% 12% 44% 28% 16% 16% 40% 3 31% 23% 11% 35% 32% 20% 14% 34% 4 37% 16% 30% 17% 33% 16% 23% 28% 5 38% 21% 15% 27% 28% 20% 19% 33% 6 36% 11% 23% 29% 33% 18% 20% 29% Avr 34% 18% 18% 30% 31% 18% 18% 33% Bulge size 1 51% 9% 18% 21% 40% 16% 15% 29% 2 49% 11% 22% 19% 36% 18% 19% 27% 3 36% 15% 32% 17% 36% 21% 19% 24% 4 19% 12% 26% 43% 34% 15% 20% 31% 5 59% 1% 15% 25% 39% 15% 21% 25% Avr 43% 10% 23% 25% 37% 17% 19% 27% Table 4. Base content in terminal loops and bulges. In this table, we calculated the base content of terminal loops and bulges. In the left side of the table, total percentages are calculated in all motifs found in Rfam alignments while on the right, the average percentages in the 23 compiled categories are shown. Calculating the average percentages reduces the effect of ribosomal RNA overrepresentation. 39

53 Discussion & Conclusion While a lot of similitude can be found Biochemical and Antisense categories, differences between the typically highly structured Biochemical versus less structured Antisense abundant motifs support that these two groups show structural preferences for specific motifs, thus validating the elaboration of the two separate scores. In fact, they could potentially be used to help determine the function of newly discovered RNAs. When trying to use the scores that we computed to analyze newly discovered RNAs, it helped us to sort the new RNA in the Antisense or Biochemical groups (data not shown). However, in spite of statistical significance, the level of uncertainty associated with this category assignment makes it hard to use as a filter. For discoveries of novel RNA, we can think of using this scoring system to develop a filter that will improve current prediction tool, but future improvements including taxonomic data would likely be required for this to work. The two major groups Biochemical and Antisense could potentially be used to help determine the function of newly discovered RNAs. Indeed, following the partition of RNA categories into these groups, we found many differences between these two ensembles. When trying to use the scores that we determined for small RNA motifs to analyze newly discovered RNAs, it helped us to sort the new RNA in the Antisense or Biochemical groups (data not shown). In spite of statistical significance, the level of uncertainty associated with this category assignment makes it hard to use as a filter. Further study is required to have filters tailored to different types of RNAs and expand the two-score system. However, the global analysis of Rfam data did led to interesting findings. We discovered that "A" and "U" nucleotides dominate single stranded RNA regions, whether they are bulges or loops. Since, to our knowledge, this fact was not reported in literature, we can only hypothesize about the reasons behind the abundance of A and U. Dominance of A and U may have evolved to avoid strong inter- or intra-molecular undesirable C-G base pairs in the folding process of RNA stems. The data we report also suggests that some abundant internal loops especially in the 1X1 loops in Biochemical are probably stacking. Indeed, 5 C 3 G and 5 U 3 A 40

54 internal loops are the most abundant in Biochemical supercategories. These are likely found at positions where non-canonical base pairs are observed in other sequences of the stockholm alignment. The occurrence of canonical base pairs at positions annotated as 1X1 internal loops is a good indication that bases are likely stacking to form a continuous stem. To some extent, this could be seen as an artifact of the Rfam alignment. We found very large gaps between the most abundant and rare RNA structural features and it demonstrates that ncrna has a preference to some structural motifs over other motifs that are rare. Different explanations are possible for this existing discrimination between motifs: thermodynamic stability as well as biological and evolutionary requirements. Past studies have rightfully highlighted the most frequent motifs (such as GNRA tetraloops) and many of these have been found to contribute to the stability of RNA structures. Highly stable motifs are also easier to crystallize or analyze through NMR, thus potentially causing an overrepresentation of these in available atomic resolution structures of RNAs. On the other hand, many motifs have not been noticed even though they are very abundant in RNA. Such is the case of the UUUU tetraloop which is found only 20 times in the PDB database, as per the September 2013 FRABASE update (121), as compared to the other top ten motifs which are found by hundreds and even thousands. The AAAA motif is also among the most abundant in both Biochemical and Antisense categories and is even less represented in PDBs (five times). Still, the overrepresentation of these two motifs in Rfam is indicative of some general usefulness for RNA function, whether it is for dynamics of the structure, interaction with A or U binding proteins like Hfq or functional base pairing with poly-a or poly-u RNAs, as the stabilizing effect of poly-us for polyadenylated RNAs may suggest (122), even a higher instability permitting optimal turnover of the RNA may be selected for (113,123). Elucidation of the biological role(s) of these motifs will require further investigation, but will be important to unravel the functions of different types of basic RNA motifs. In addition, when exploring correlation between abundance and stability, as predicted we found that abundant tetraloops tend to be more stable than rare ones. However, the correlation is not as clear as expected. Like we just mentioned, this is probably due to other factors influencing the observed frequency of RNA secondary structures. The correlation is 41

55 more pronounced in Biochemical RNA categories, such as ribosomal RNA, where the abundant tetraloops are clearly more stable than the rarest. Whereas in other categories, especially in categories where primary sequence has a lot of importance, like mirnas or snornas, the relationship between the stability and abundance is weaker. A probable explanation could be that the function of these RNAs requires secondary structures with more flexibility and that the stability of the loop has less impact on the overall structure or rather than the other sequence requirements (complementarity to its target mrna) are more important. Contrary to abundant motifs, to our knowledge the rarest sequence combinations have not been the focus of any study. The higher GC% of rare motifs that we found is conceivably to prevent strong undesired base pairing. We also noticed that compared to the average loops, palindromic loops are rarer (i.e. loops that could potentially fold with themselves at the intermolecular level). This could potentially be explained by the fact that during transcription, nascent RNAs can be found in close proximity and can potentially interact with each other before they fold in their native hairpins. In the case of a palindromic loop, this could imply that two nascent RNAs could form a long duplex with perfect base complementarity from the 5 to the 3 end of the stems, including what was supposed to be the terminal loop if it had folded intramolecularly (see Figure 13). In other words, the stem formed by the intermolecular base pairs would be much stronger than the intramolecular stem. The fact that the abundance of palindromic sequences correlates in inverse fashion with the number of H-bonds of the potential intermolecular base pairs between the loops supports this trend. However, it is not easy to separate this correlation from the high GC% that we observed in rare loops. Evidently, evolution increases representation of any generally favorable sequence combinations and would disfavor loops and bulges that are detrimental to RNA function. However, it can also lead to overrepresentation of some sequences for other reasons. There are a large number of pentaloops that closely resemble the GNRA consensus. In a specific case of a pentaloop of the GNR(N)A family, the common GAAAA loop was shown to adopt a GNRA-tetraloop fold, a feature that is central to the function of the RNA containing the stemloop ( ). While some of these loops, like GAUAA conserved in rrna, may reflect a 42

56 real function, it is likely that most of these are merely derivatives of the most common tetraloops, where the ancestral sequence had a one base insertion without any significant effect on fitness. This is somewhat verified by overrepresentation of pentaloops similar to other frequent tetraloops, namely UNCG and UUUU. Protein binding sites are among the factors we can think of when considering selective pressure for (or against) some sequence combinations. This pressure could go both ways. For instance, an abundant protein specific for one RNA could select against the presence of its binding site in other RNAs because it would be titer the protein away from its functional binding site. Conversely, some proteins could also favor the presence of their binding sites when they provide more generic functions like stabilization, temporal control or localization. This could in part explain overrepresentation of AU bases in frequent loops and bulges since there are numerous AU-rich binding proteins, such as Hfq (127), AUF1(128), HuR (129), ELAV (130), etc. Then again, perhaps the fact single stranded regions tend to be more AU rich is the reason why many proteins bind these sites today. In some cases, evolution likely co-opted existing sequences for additional roles over time. Such might be the case of many UUUU tetraloops in bacteria for Hfq binding. It has recently been shown that the poly-u tail of Rho-independent terminators is important for Hfq binding (131). Since these stretches of Us are so common in bacteria, one can imagine that every now and then, mutations could convert the poly-u tail to a UUUU loop, a second terminator would provide this RNA with two poly-u binding sites for more efficient binding of Hfq. Many of the proposed putative explanations of the observed frequencies rely on biological aspects that vary widely from species to the next. A more precise analysis is required to decipher links with function such as taking in account taxa. While there are clearly many criteria other than thermodynamic stability that govern the function and evolution of RNA structures, unraveling them will be a daunting task. This is complicated by the fact that there may very well be more than one explanation in many cases. New motifs and phenomenon were revealed that will require experimental approaches for a better understanding. 43

57 ACKNOWLEDGEMENTS We thank members of the Perreault lab and of the Major lab for helpful discussions. FUNDING This research was funded by the Natural Sciences and Engineering Research Council of Canada (NSERC) discovery grant [RGPIN ]. JP is the recipient of a Junior 1 research scholar career award. 44

58 Chapitre 4 Système de score pour l évaluation de nouveaux candidats d ARN non-codant Mise en contexte L objectif principal de ce travail est l élaboration d un système de score basé sur l abondance des motifs pour l évaluation de nouveaux candidats d ARN non-codant. À partir des tables de scores calculés pour les boucles terminales, les «bulges» et les boucles internes, nous avons conçu un programme, RNAscore, qui permet d attribuer des scores globaux pour un alignement quelconque d ARN. Nous avons calculé les scores pour un échantillon d alignements de Rfam de la version 10.1 (juin 2011) qui font partie de l ensemble des données utilisées pour l élaboration des scores. Ces ARN ont des fonctions confirmées et servent d exemples de validation de RNAscore. Par la suite, nous avons testé l applicabilité de RNAscore sur différents contrôles. Comme contrôles positifs, nous avons choisis les nouvelles familles d'arnnc ajoutées dans la version 11.0 de Rfam (Aout 2012) vu que ces ARN ne font pas partie des données de départ pour le calcul des scores d abondance. Nous avons testé plusieurs types de contrôles négatifs pour valider RNAscore comme filtre potentiel: - des candidats d ARN «fictifs» générés par CMfinder à partir de séquences codantes de protéines, intactes et/ou brouillées. - des alignements de Rfam d ARN connus dont la séquence est brouillée. Tout en provenant d ARNnc, nous nous sommes assuré que la structure originale n existe plus même si les séquences restent alignées. - des motifs d ARNnc qui ont été mutés provenant de nombreuses études expérimentales publiées.

59 - des ensembles aléatoires de séquences simulant des ARN hypothétiques RNAscore : Système de score Les approches bioinformatiques utilisées pour la découverte de nouveaux ARN noncodants génèrent des milliers de candidats (61). Malgré l avancement des logiciels et pipelines disponibles, il faut une étape de vérification manuelle de tous ces candidats afin d identifier les plus intéressants. Cette sélection dépend de l expertise de la personne qui analyse ces quantités importantes de données et nécessite beaucoup de temps. Un filtre capable de discriminer entre un ARN qui contient des motifs qu on observe fréquemment dans Rfam et un ARN qui a plutôt des motifs rares pourrait accélérer cette étape de vérification. Les données sur l abondance des motifs de structures secondaires peuvent être utiles pour développer un filtre afin d accélérer l étape de sélection des ARN qui méritent d être étudiés davantage. Notre système de score est une tentative de développer un tel filtre afin d évaluer des nouveaux candidats d'arnnc en leur attribuant un score global basé sur leurs structures secondaires. Il est à préciser que l objectif du travail n est pas une évaluation de la qualité des alignements de Rfam ni des prédictions de structure secondaire. Dans ce travail, un nouveau candidat est un alignement de séquences multiples d'arn ayant une structure consensus et généré par un outil de recherche tel que CMfinder. Nous avons choisi CMfinder pour créer certains des contrôles utilisés pour tester notre système de score puisque c est un outil de prédiction de motifs d ARN qui a permis au cours des dernières années la découverte de nombreux ARNnc. Ce programme publié en 2005 prend au départ un ensemble de séquences qu on suppose homologues et génère plusieurs possibilités d'alignements en détectant des motifs structuraux conservés. C est un algorithme espérancemaximisation («expectation maximization» EM) qui utilise un modèle de covariance (CM) pour décrire les motifs d ARN, un modèle mixte fini pour décrire la distribution des motifs dans les séquences et un cadre EM pour faire la recherche dans l espace motif. CMfinder présente une solution au problème de découverte de motifs lorsque les séquences sont peu ou très conservées, un problème qui affecte l efficacité des méthodes de prédiction de structure 46

60 basées sur l analyse comparative de séquences. Les détails de l algorithme sont disponibles dans (75) Modification des scores : Les tables de scores (voir annexe) pour les motifs individuels ont été utilisées afin d attribuer un score global à un ARN donné constitué d un alignement de séquences multiples. On évalue cet ARN en se basant sur l ensemble de ses motifs structuraux (boucles terminales, boucles internes et «bulges»). Les scores ont été convertis pour en faciliter l interprétation. La valeur maximale (positive) est attribuée au motif le plus abondant et la valeur minimale (négative) est attribuée au motif le moins fréquent. Ces modifications donnent un intervalle de scores symétrique pour chaque motif. On peut voir un exemple dans la table 5. bulge Score original Score converti A U C G Table 5. Superscores des «bulges» de taille 1 du groupe «Antisens». L étendue (max - min)= 0.559; Le score converti = score - (max - étendue/2) Q-score et Z-score Pour une famille d ARN ou un nouveau candidat d ARN, tel qu expliqué précédemment, l alignement est compilé comme un ensemble de boucles terminales, de boucles internes et de «bulges». Dans la perspective d évaluer un ARN, nous lui attribuons un score global basé sur ses motifs de structures secondaires selon leurs scores d abondance individuels. Pour chaque ARN ayant n motifs, on calcule deux scores : - Q-score est le score global basé sur les séquences des motifs. Q-score = n i!1 score de séquence du motif i n i!1 score max motif + 1 /2 i où i représente l index du motif et le score max est relatif au motif le plus abondant de même type et taille que le motif i. Par exemple, si le i ème motif est une boucle terminale «AAA» 47

61 alors on additionne le score de séquence de cette boucle (0.74) à la somme n i!1 score de séquence du motif i. Le score max correspondant à cette boucle est celui de la boucle ayant le score le plus élevé de toutes les boucles de taille 3 (dans ce cas il sagit du score la boucle «CAU» = 0.96). Le Q-score est exprimé en ratio de la somme des scores des motifs individuels par rapport à la somme des scores maximaux. Ce score s exprime sur une échelle de 0 à 1 (en additionnant 1 et divisant par 2). Par conséquent, un ARN contenant seulement des motifs parmi les plus abondants aura tendance à avoir un score proche de 1 alors que le score d un ARN qui n aurait que des motifs rares tendra vers 0. On calcule la somme des scores uniquement pour les motifs que l on nomme motifs scorés (voir l encadré qui suit pour la liste des motifs scorés). Le nombre de motifs scorés est inférieur ou égal au nombre total de motifs. Les motifs scorés : - Les boucles terminales de taille 2 à 5 - les boucles internes de taille 1x1, 1x2, 1x3, 2x1, 2x2, et 3x1 - et les «bulges» de taille 1 à 4 nt. - Z-score est le score basé uniquement sur les tailles des motifs. Z-score = n i!1 score de taille du motif i n i!1 score max motif + 1 /2 i où i représente l index du motif et le score max est relatif au motif le plus abondant de même type que le motif i. La séquence du motif n est pas importante pour le calcul du Z-score. En reprenant l exemple précédent de la boucle «AAA», le score de taille correspondant aux boucles de taille 3 (1.79) est additionné à la somme n i!1 score de taille du motif i tandis que le score max est celui des boucles de taille 4 (2.28) étant le type de boucles le plus abondant en terme de taille. Tous les motifs ont un score basé sur la taille dont on calcule la somme. 48

62 Le Z-score est un ratio de la somme totale des scores par rapport à la somme des scores max. Tout comme le Q-score, le Z-score se situe aussi sur une échelle de 0 à 1. Le calcul de RNAscore (Q-score et Z-score) passe par les étapes suivantes : On commence par un fichier d'alignement (une famille de Rfam ou un résultat de CMfinder) qui est traité par trois scripts PERL: Rfam parser4.pl : script qui débloque l alignement de Rfam pour que chaque séquence soit sur une ligne continue serial_sec_struc.pl : script qui décode la structure Stem-extractor-simple7.pl : script qui décortique l alignement pour en extraire toutes les tiges-boucles et les motifs structuraux (boucles et «bulges»). Le fichier «output» de Stem-extractor contient toutes les informations sur les motifs présents dans les tiges-boucles de l alignement. J ai développé un programme JAVA qui lit ce fichier, en extrait les informations sur toutes les structures secondaires et calcule les scores. Fichier «output» de Stem-extractor sert de fichier «input» pour le programme JAVA RNAscore qui effectue les tâches suivantes: extraire les boucles terminales, les «bulges» et les boucles internes calculer le nombre de séquences, le nombre de motifs. calculer Q-score, Z-score Cette première version de RNAscore basée sur les scores des six supercatégories a été raffinée par la suite pour calculer les scores Q-score et Z-score spécifiques aux deux groupes «activité biochimique» et «Antisens» (voir la section matériels et méthodes du chapitre 3) RNAscore spécifique aux groupes «activité biochimique» et «Antisens» Nous avons utilisé les scores de motifs spécifiques aux groupes «activité biochimique» et «Antisens» afin de développer une version RNAscore pour chaque groupe. 49

63 Nous avons donc trois types de scores: RNAscore global (23 catégories), RNAscore «activité biochimique» (biochemical) et RNAscore «antisens» (antisense). Nous avons calculé les Q- scores et Z-scores avec les trois versions de RNAscore pour tous les contrôles afin d explorer s il existe un avantage à utiliser les scores spécifiques aux groupes dans la détection d ARN appartenant à un groupe donné. On montre ci-dessous un exemple d un alignement de Rfam du riboswitch SAM/SAH, un ARN utilisé dans la validation des scores (section 4.2). On peut voir la structure et la séquence consensus à la fin de l alignement. Alignement complet du riboswitch SAM/SAH # STOCKHOLM 1.0 #=GF AC RF01727 #=GF ID SAM-SAH #=GF DE SAM/SAH riboswitch #=GF AU Yang J, Weinberg Z// (quelques lignes ont été coupées ici) #=GF SQ 88 ABXF / AATR / ACCW / ABXE / AAXZ / ACNW / CP / CP / CP / CP / AAMS / AAMT / ABID / AAOT / AFPM / ABSH / ABSK / AEPN / CP / CP / AATQ / AFCF / ABIF / ABIE / AFER / CP / FN / ACYY / CP / CP / CP / CP / UACCUGCCACAACGGCUUCCUGGCGUGGCGGG.CUGAACCUC...AAUGGAGCA UAAGGCUUACAACGGCUACCUGAAGUAAG.UU.GACAUAAA...AACGGAGCA CGCCUGUCACAACGGCUUCCUGACGUGAC.AG.GGAAAUCUU...AAUGGAGCA AGACUGCCACAACGGCUUCCUGACGUGGU.GG.AAAAAUCUU...ACUGGAGCA UGUCCCCCUCAACGGCUUCCUGACGAGGC.GG.GCUUAACAA...AACGGAGCA UUACCGUCACAACGGCUUCCUGGCGUGAU.GG.CUCGGUAUU...AAUGGAGCG CCGACGCUGCAACGGCUUCCUGGCGCAGCGGU.CGCUAUUC...AAUGGAGCA ACUCCUCCACAACGGCUUCCUGACGUGGG.GG.AUUAUUUG...AAUGGAGCA CAUCCCCCACAACGGCUUCCUGACGUGGC.GG.GUAAGAUUG..AAAUGGAGCA CAUCCCCCACAACGGCUUCCUGACGUGGC.GG.GUAAGAUUG..AAAUGGAGCA GUUCUGUCACAACGGCUUCCUGGCGUGAC.AG.GUUUUUCAU...AUCGGAGCA CAACCGCCACAACGGCUUCCUGACGUGGC.GG.GGAUAUCAU...AACGGAGCA AGAGCAUCACAACGGCUUCCUGACGUGGU.GC.GUAAUUUUU...AUUGGAGCA UCGCUGUCACAACGGCUUCCUGGCGUGGC.GG.UAAGAUCCC...AAUGGAGCG UCGCCGCCCCAACGGCUUCCUGACGGGGCAGG.UCUGAAAAU...ACCGGAGCA ACUCGUCCGCAACGGCUUCCUGACGCGGAUCG.ACAUUUAA...ACUGGAGCA UUUUAUCCACAACGGCUUCCUGAAGUGGA.UC.GACAUUUAA...ACUGGAGCA UGACCGUCACAACGGCUUCCUGGCGUGAC.GG.CGUCAUUUU...AACGGAGCA UGACCGCCACAACGGCUUCCUGGCGUGGC.GG.CGUCAUUUC...AACGGAGCA UGACCGUCACAACGGCUUCCUGGCGUGGC.GG.CGUCAUUC...AACGGAGCA UCCCCGUCACAACGGCUUCCUGGCGUGAC.GG.CUGGUACCC...AAUGGAGCA UACCUGUCACAACGGCUUCCUGGCGUGGCAAG.GCUAAACC...AAUGGAGCA UUACUGCCACAACGGCUUCCUGGCGUGGC.AG.GCUAAACCC...AACGGAGCA UUACUGCCACAACGGCUUCCUGGCGUGGC.AG.GCUAAACCC...AACGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGAC.GG.GGUUAACCC..CAACGGAGCA UCACCACUCCAACGGCUUCCUGGCGGGGU.GG.GAACACAUC...AAUGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGAC.GG.GGUUAACCC..CAACGGAGCA CGACCGUCACAACGGCUUCCUGGCGUGGC.GG.AAUUUCCC...AACGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGAC.GG.GGUUAACCC..CAACGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGAC.GG.GGUUAACCC..CAACGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGGC.GG.GGAUAACCC..CAACGGAGCA CAACCGUCACAACGGCUUCCUGGCGUGAC.GG.GGUUAACCC..CAACGGAGCA 50

64 51 AAYB / AUUCUGUCACAACGGCUUCCUGACGUGGC.AG.AGAUUUUU...AAUGGAGCA ABXS / AAUCUGCCACAACGGCUUCCUGACGUGGC.UA.UUUAAUCU...AUUGGAGCA AAYC / UACCUGUCACAACGGCUUCCUGGCGUGACGAG.GUGACCUC...AGUGGAGCA AANB / GUCCUCUCACAACGGCUUCCUGACGUGACGAG.GUUAACCC...AAUGGAGCA CP / AGCGAACCACAACGGCUUCCUGACGUGGU.UC.UUCAUUGGC..GAUUGGAGCG ABCR / AACCCGUCACAACGGCUUCCUGGCGUGAC.GG.CUGACAUAC...AAUGGAGCA CP / AGCGAACCACAACGGCUUCCUGACGUGGU.UC.UUCAUUGGC..GAUUGGAGCG AAMV / AAUCCCCCACAACGGCUUCCUGGCGUGGC.GG.UGACAUUC...AAUGGAGCA ABCL / AAUCCCCCACAACGGCUUCCUGGCGUGGC.GG.UGACAUCA...AAUGGAGCA AALY / UCCCCGUCACAACGGCUUCCUGGCGUGGC.GG.AUGACCCU...AAUGGAGCG ACNZ / AUGCUGCCACAACGGCUUCCUGGCGUGGC.GG.AUAUUCAUU..CAAUGGAGCA ABXM / UUACUGCCACAACGGCUUCCUGGCGUGGCAGG.CUGAACCCC..CAACGGAGCA CP / AUGCCGCCACAACGGCUUCCUGGCGUGGC.GG.AUCUCAUCC...AAUGGAGCA CP / GACCUGCCACAACGGCUUCCUGGCGUGGCGAG.GGAAACCUU..CAAUGGAGCA ACNX / UGCCCGUCACAACGGCUUCCUGGCGUGAC.GG.GGAAAAUCU..UAAUGGAGCG AEYW / UGCCCUUCACAACGGCUUCCUGACGUGAU.GG.GAAAAUCUU...AAUGGAGCA AAYA / ACCCCGUCACAACGGCUUCCUGGCGUGAC.GG.AGAAACCCG...AAUGGAGCA AALV / AAUCGGCCACAACGGCUUCCUGACGUGGC.UA.AGAAAUCU...AUUGGAGCA AALZ / AAUCGGCCACAACGGCUUCCUGACGUGGC.UA.AGAAAUCU...AUUGGAGCA ACOA / UAAUUGCCACAACGGCUUCCUGACGUGGCAGAGCAGUAGAA...UAUUGGAGCA AAFY / GAAUUGCUACAACGGCUUCCUGACGUGGC.GA.UCUAUAUGA...ACUGGAGCA AAFZ / AUGCCGCCCCAACGGCUUCCUGACGGGGC.GG.AUUCACUUU..AAAUGGAGCA AACY / GCGACCCCACAACGGCUUCCUGGCGUGGG.GA.CACACACAU...AAUGGAGCA AACY / GUGCUGUCACAACGGCUUCCUGGCGUGGC.GG.CGAAAACCU...AAUGGAGCA AACY / ACAUGUACGCAACGGCUUCCUGGCGCGUG.AA.CCGUAAUU...AUUGGAGCA ABMI / CCGUCACAACGGCUUCCUGGCGUGGC.GG.CAGACAUUU...AA... ADIF / AAUGACCCACAACGGCUUCCUGACGUGGC.GC.ACAUAAGAA..AAUUGGAGCA AACY / GCGCUGCCACAACGGCUUCCUGGCGUGGC.GG.UCUGACAGU..CAAUGGAGCA AACY / UAUUGCACGCAACGGCUUCCUGACGCGUG.AG.UUUUAAUU...AUCGGAGCA AACY / UCCUAGCUGCAACGGCUUCCUGGCGCAGCUUA.CAUUUU...AUUGGAGCA AACY / UAUUGCACGCAACGGCUUCCUGACGCGUG.AG.UUUUAAUU...AUCGGAGCA AACY / CCGCUGUCACAACGGCUUCCUGGCGUGGC.GG.CUAAACCAUUUUAUCGGAGCA ABMI /24-74 CCAUGCCCACAACGGCUUCCUGGCGUGGGUCA.CCUGUAUUC..CAAUGGAGCG AACY / UAUUGCACGCAACGGCUUCCUGACGCGUG.AG.UUGUAAUU...AUCGGAGCA AACY / UGAUGCACGCAACGGCUUCCUGACGCGUG.AG.AUUAAAUU...AUUGGAGCA ABMI /54-6 AUCCCGUCACAACGGCUUCCUGGCGUGGC.GG.CAGACAUUU...AAUGGAGCA AACY / ACGUCGUCACAACGGCUUCCUGGCGUGAC.GA.UACACAUCU...AAUGGAGCA ACQI / AUCCUGCCACAACGGCUUCCUGGCGUGGU.GG.GAAUAACCC..CAAUGGAGCG AACY / UCCUAGCUGCAACGGCUUCCUGGCGCAGCUUA.CAUUUU...AUUGGAGCA AACY / AGAGACACGCAACGGCUUCCUGACGCGUG.AA.AUUAAAUU...AUUGGAGCA AACY / UAUAGCACGCAACGGCUUCCUGACGCGUG.AG.CUUUAAUU...AUCGGAGCA ABLU /20-69 CGACCGUCACAACGGCUUCCUGGCGUGGC.GG.AAUUUUUUU..CAAUGGAGCA AACY / UCCUACACGCAACGGCUUCCUGACGCGUG.AG.GUGUAAUC...AUUGGAGCA ABPS / GGUCCGCCACAACGGCUUCCUGGCGUGGC.GG.CGUAACC...AAUGGAGCA ABPS / CGACCGCCACAACGGCUUCCUGGCGUGGC.GG.CGUAAAUC...AAUGGAGCG AACY / CCGUAGCUGCAACGGCUUCCUGGCGCAGCUUA.CAUUUU...AUUGGAGCA ABMI /54-6 AUCCCGUCACAACGGCUUCCUGGCGUGGC.GG.CAGACAUUU...AAUGGAGCA AACY / AAUGUUCUACAACGGCUUCCUGACGUAGG.GC.AAUUCUUU...UUUGGAGCA AACY / UGUGGCACGCAACGGCUUCCUGACGCGUG.AG.AUAAAAUU...AUUGGAGCA AACY / AAUUGCACGCAACGGCUUCCUGACGCGUG.AG.UUUUAAUU...AUCGGAGCA AACY / AUCUCGCCACAACGGCUUCCUGACGUGGC.GG.CAGAACCCU...AAUGGAGCA AACY / GCGCUGCCACAACGGCUUCCUGGCGUGGC.GG.UCUGACAGU..CAAUGGAGCA AACY / UGUGGCACGCAACGGCUUCCUGACGCGUG.AG.AUUGAAUU...AUUGGAGCA AACY / CUCCUGUCACAACGGCUUCCUGGCGUGGC.GG.GCAACAUCC...AAUGGAGCA AACY / UGAAACUUAUAACGGCUACCUGAAGUAAG.UU.UUUUUAUA...AACGGAGCA AACY / UAUUGCACGCAACGGCUUCCUGACGCGUG.AG.UUUUAAUU...AUCGGAGCA #=GC SS_cons...<<<<<<<..<<<...>>>..>>>>>.>>... #=GC RF aaaccgccacaacggcuuccugacguggc.gg.auuaaauau...aauggagca

65 Tous les motifs de cet alignement sont extraits afin de calculer les scores. Les données de sorties de RNAscore pour SAM/SAH sont présentés dans ce qui suit. Dans cet exemple tous les motifs sont scorés avec Q-score. Résultats RNAscore pou riboswitch SAM/SAH : Total number of sequences: 88 Loops: 88 Bulges: 14 Internal loops: 88 Number of scored motifs = 190 Total Number of motifs = 190 RNAscore Sum Q- Score = 9.39 Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = RNAscore biochemical Sum Q- Score = Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = RNAscore antisense Sum Q- Score = Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = Loops: 88 [CUUC, CUAC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUUC, CUAC, CUUC] Bulges: 14 [G, G, A, U, A, G, G, A, G, A, U, U, U, U] Internal loops: 88 [AA- GC, AA- AA, AA- AC, AA- AC, AA- AC, AA- GC, AA- GC, AA- AC, AA- AC, AA- AC, AA- GC, AA- AC, AA- AC, AA- GC, AA- AC, AA- AC, AA- AA, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- AC, AA- AC, AA- GC, AA- AC, AA- AC, AA- GC, AA- AC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- GC, AA- AC, AA- GC, AA- AC, AA- AC, AA- AC, AA- AC, AA- AC, AA- GC, AA- GC, AA- GC, AA- GC, AA- AC, AA- GC, AA- AC, AA- GC, AA- AC, AA- GC, AA- GC, AA- AC, AA- AC, AA- GC, AA- GC, AA- GC, AA- GC, AA- AC, AA- AC, AA- GC, AA- AC, AA- GC, AA- GC, AA- GC, AA- GC, AA- AC, AA- AC, AA- AC, AA- AC, AA- GC, AA- AC, AA- GC, AA- AA, AA- AC] Exemple de calcul du Q- score pour la version RNAscore global : SAM/SAH contient : 86 boucles «CUUC» 2 boucles «CUAC», 5 bulges «G», 4 bulges «A», 5 bulges «U», 50 boucles internes «AA- GC», 3 boucles internes AA- AA et 35 boucles internes AA- AC. 52

66 Sum Q- score = 86 x Q- score (boucle CUUC) + 2 x Q- score (boucle CUAC) + 5 x Q- score (bulge G) + 4 x Q- score (bulge A) + 5 x Q- score (bulge U) + 50 x Q- score (boucle interne AA- GC) + 3 x Q- score (boucle interne AA- AA) + 35 x Q- score (boucle interne AA- AC) = 86 x (- 0.31) + 2 x (- 0.83) +5 x (- 0.26) + 4 x (0.26) + 5 x (0.08) + 50 x (0.32) + 3 x (0.89) + 35 x (0.54) = 9.39 Sum Q- score_max = 88 x Q- score_max (boucle de taille 4) + 14 x Q- score_max (bulge de taille 1) + 88 x Q- score_max (boucle interne de taille 2X2) =88 x (1.5) +14 x (0.26) + 88 x (1.26) = Q- score = (Sum Q- score/sum Q- score_max +1)/2 =(9.39/ )/2 = Validation des scores Nous avons commencé par tester RNAscore sur quelques alignements de Rfam 10.0, c est-à-dire un échantillon de l ensemble de données utilisé pour l élaboration du système de scores. Les scores sont calculés selon les trois versions de RNAscore comme expliqué dans la section précédente. En d autres mots nous avons un Q-score et un Z-score pour RNAscore global, RNAscore «Activité biochimique» et RNAscore «Antisens». Nous calculons aussi la différence de score dq et dz. dq est la différence [Q-score «Activité biochimique» moins Q- score «Antisens»] alors que dz est la différence [Z-score «Activité biochimique» moins Z- score «Antisens» ]. Nous avons calculé dq et dz pour examiner si ces différences sont significatives et si les versions RNAscore spécifiques à chaque groupe permettaient potentiellement de repérer une appartenance (ressemblance) à un groupe plus qu à un autre. La table 6 montre les résultats d un échantillon d ARN qui sont connus. Les moyennes des Q-scores de cet échantillon pour les trois versions de RNAscore ne montrent pas une très grande différence (0.54, 0.56 et 0.51) de même pour les moyennes des Z-scores (0.85, 0.85 et 0.86). La moyenne de dq est de 0.05 et celle de dz est Considérant les écarts-types, on ne peut confirmer qu il y a une réelle différence entre les versions de RNAscore. Rappelons que ces résultats ont été obtenus dans une perspective d exploration plutôt qu une validation puisque l échantillon n est pas très grand et provient des données de départ des scores. 53

67 Rfam ID Clan Rfam Nom de l ARN RnaScore Biochemical RnaScore Antisense RnaScore Nb de séq. Nb. motifs Q Z Q Z Q Z dq dz Scorés Total RF00001 Gene; rrna 5S RF00037 Cis-reg IRE_I RF00057 Gene;sRNA RyhB RF00118 Gene; srna rydb RF00167 Cis-reg; riboswitch Purine riboswitch RF00168 Cis-reg; riboswitch Lysine riboswitch RF01517 Cis-reg iscrs RF01688 Cis-reg Actino-pnp RF01727 Cis-reg; riboswitch SAM/SAH RF01734 Cis-reg crcb RF01739 Cis-reg glna RF01745 Cis-reg mana RNA RF01804 Cis-reg; thermoregulator Lambda phage CIII thermoregulator element RF01830 GENE StyR RF01940 Gene; mirna hvt-mir-h RF02028 Gene; mirna mir Moyenne Écart-type Table 6. Application de RNAscore sur des ARNnc de Rfam RNAscore est le score global avant la répartition en deux groupes «Activité biochimique» et «Antisens». La colonne Q désigne le score relatif à la séquence des motifs scorés alors que la colonne Z représente le score basé uniquement sur la taille de tous les motifs de l ARN en question. dq et dz sont la différence du score «Activité biochimique» moins le score «Antisens» pour les scores Q et Z respectivement. Les Q-scores en bleu sont pour les ARN qui ont un Q-score plus élevé pour RNAscore activité biochimique alors que le rouge désigne le Q-score Antisens qui est plus élevé. 54

68 4.2.1 Application de RNAscore sur les nouvelles familles de Rfam 11.0 Lors de la création de la base de données RNAstem et du système de scores, nous avons compilé toutes les données de Rfam 10.0 qui était la version disponible au moment. Plus tard, Rfam a publié une mise à jour: la version 11.0 avec des nouvelles familles d ARNnc ajoutées. Nous avons testé RNAscore sur ces nouveaux alignements qui servent de contrôles positifs puisque ce sont de vrais ARNnc et qu ils ne faisaient pas partis de l ensemble de données de départ. Nous avons sélectionné 103 ARN parmi les nouvelles familles de la version 11.0 de Rfam en plus de l ARN Czc (communication personnelle par Zasha Weinberg et Ronald R. Breaker) qui est un nouvel ARN non-soumis à Rfam lors de l analyse effectuée. Les résultats de RNAscore sont présentés dans la table 7 qui suit. Deux de ces contrôles positifs, OrzO-P et FTX-1, n avaient pas de motifs scorés ce qui ne permet pas de calculer le Q-score (ils ont un Z-score dû à la présence de motifs dont la taille dépasse celle des motifs scorés). Pour les 104 nouveaux ARNnc, les Q-scores moyens calculés selon les trois versions de RNAscore ne différent pas beaucoup de celui des contrôles de validation (0.53, 0.51 et 0.55 pour RNAscore global, RNAscore «Activité biochimique» et RNAscore «Antisens» respectivement), mais on note un écart-type plus grand. L écart entre les moyennes de Z-scores est encore plus petit (0.83, 0.82, 0.84). Ces résultats, ainsi que les résultats de l échantillon de validation de la section précédente, situent la moyenne du Q-score pour des les ARN de Rfam environ au milieu de l intervalle des valeurs de scores possibles (0 à 1) soit 0.5. Considérant l écart-type, il est nécessaire de comparer les scores des contrôles positifs avec ceux des contrôles négatifs afin de déterminer si les scores discriminent entre un vrai et un faux ARN. Nous présentons les résultats de RNAscore sur deux types de contrôles négatifs dans les sections qui suivent. 55

69 Biochemical Antisense RnaScore Rfam ID Clan Rfam Nom de l ARN RnaScore RnaScore Nb de Nb. motifs séq. Q Z Q Z Q Z dq dz Scorés Total - (ARNnc non-soumis à Rfam) Czc RF02032 Gene GOLLD RF02033 Gene HEARO RF02034 Gene IMES RF02035 Gene IMES RF02036 Gene IMES RF02037 Gene IMES RF02040 Gene; lncrna HOTTIP_ RF02041 Gene; lncrna HOTTIP_ RF02042 Gene; lncrna HOTTIP_ RF02043 Gene; lncrna HOTTIP_ RF02044 Gene; lncrna CDKN2B-AS_ RF02045 Gene; lncrna CDKN2B-AS_ RF02046 Gene; lncrna Sphinx_ RF02047 Gene; lncrna Sphinx_ RF02048 Gene STnc RF02049 Gene; srna STnc RF02053 Gene; srna STnc RF02057 Gene; srna STnc RF02058 Gene STnc RF02061 Gene; mirna mir RF02073 Gene; srna STnc RF02077 Gene; srna STnc RF02078 Gene; srna STnc RF02079 Gene; srna STnc RF02081 Gene; srna STnc RF02082 Gene; srna STnc RF02083 Gene; antitoxin OrzO-P RF02084 Gene STnc RF02088 Gene; srna STnc RF02089 Gene; lncrna CLRN1-AS RF02090 Gene; lncrna DAOA-AS1_ RF02091 Gene; lncrna DAOA-AS1_ RF02095 Gene; mirna mir RF02096 Gene; mirna mir RF02097 Gene; mirna mir

70 RF02099 Gene; srna rivx RF02100 Gene; srna tfor RF02111 Gene IS RF02119 Gene; lncrna FTX_ RF02120 Gene; lncrna FTX_ RF02121 Gene; lncrna FTX_ RF02122 Gene; lncrna FTX_ RF02123 Gene; lncrna FTX_ RF02126 Gene; lncrna GHRLOS RF02144 Gene rsmx RF02156 Gene; lncrna NPPA-AS1_ RF02157 Gene; lncrna NPPA-AS1_ RF02158 Gene; lncrna NPPA-AS1_ RF02163 Gene; snrna; snorna; CD-box sr-tmet RF02179 Gene; lncrna ST7-AS1_ RF02180 Gene; lncrna ST7-AS1_ RF02194 Gene; antisense HPnc RF02197 Gene; lncrna TP73-AS RF02201 Gene; lncrna TTC28-AS1_ RF02211 Gene; lncrna ZFAT-AS1_ RF02212 Gene; lncrna ZFAT-AS1_ RF02213 Gene; lncrna ZFAT-AS1_ RF02214 Gene; mirna mir RF02221 Gene; srna srna-xcc RF02222 Gene; srna sx RF02223 Gene; srna sx RF02224 Gene; srna sx RF02225 Gene; srna sx RF02226 Gene; srna sx RF02227 Gene; srna sx RF02228 Gene; srna sx RF02230 Gene; srna sx RF02231 Gene; srna sx RF02232 Gene; srna sx RF02233 Gene; srna sx RF02234 Gene; srna sx RF02235 Gene; srna asx RF02236 Gene; srna asx RF02237 Gene; srna asx RF02238 Gene; srna asx

71 RF02239 Gene; srna asx RF02240 Gene; srna Xoo RF02241 Gene; srna Xoo RF02242 Gene; srna Xoo RF02243 Gene; srna Xoo RF02244 Gene; mirna mir RF02245 Gene; mirna mir RF02246 Gene; lncrna Six3os1_ RF02253 Cis-reg IRE_II RF02254 Gene; mirna mir RF02259 Gene; lncrna Vax2os1_ RF02260 Cis-reg MAT2A_A RF02261 Cis-reg MAT2A_B RF02262 Cis-reg MAT2A_C RF02263 Cis-reg MAT2A_D RF02264 Cis-reg MAT2A_E RF02265 Cis-reg MAT2A_F RF02266 Gene XIST_intron RF02268 Gene; srna MtlS RF02269 Gene; srna HPnc RF02270 Gene nse_srna RF02272 Gene; lncrna Vax2os1_ RF02273 Gene FsrA RF02274 Gene AniS RF02275 Gene Hammerhead_HH RF02276 Gene; ribozyme Hammerhead_II RF02277 Gene; ribozyme Hammerhead_HH RF02278 Gene Betaproteobacteria_toxic_sRNA Moyenne Écart type Table 7. Application de RNAscore sur les nouvelles familles d ARNnc de Rfam RNAscore est le score global avant la répartition en deux groupes «Activité biochimique» et «Antisens». La colonne Q désigne le score relatif à la séquence des motifs scorés alors que la colonne Z représente le score basé uniquement sur la taille de tous les motifs de l ARN en question. dq et dz sont la différence du score «Activité biochimique» moins le score «Antisens» pour les scores Q et Z respectivement. Les Q-scores en bleu sont pour les ARN qui ont un Q-score plus élevé pour RNAscore activité biochimique alors que le rouge désigne le Q-score Antisens qui est plus élevé. 58

72 Application de RNAscore sur des contrôles négatifs Une des étapes laborieuses de ce projet était l élaboration des contrôles négatifs appropriés. Nous avions identifié certains motifs d ARNnc qui ont été mutés expérimentalement et que nous avons utilisé dans la section suivante, mais il s agissait de petits motifs qui ont été étudiés séparément et non d un alignement d ARN que nous pourrions comparer avec les nouvelles familles de Rfam. Nous avons donc créé des faux ARN structurés pour tester notre système de score. Des séquences d ARN brouillées ont été soumises à CMfinder pour obtenir de faux ARN structurés ainsi que des séquences codantes des protéines aconitase et aminopeptidase dont certaines ont été aussi brouillées de la même façon que les séquences d ARN. La figure 10 montre un exemple simplifié de la façon dont des séquences alignées ont été brouillées. Les trois séquences de dix bases chacune proviennent de l alignement du riboswitch SAM/SAH (elles sont alignées). Avec un programme récursif, les bases ayant la même position dans toutes les séquences sont permutées avec les bases d une position aléatoire. Le résultat est semblable à remanier les séquences en déplaçant des blocs verticalement. Ceci est dans l objectif de garder l alignement de séquences mais défaire la structure originale de l ARN source. Séquences alignées dans ARN source Séquences brouillées Position Position Séquence1 U A C C U G C C A C Séquence1 C C C U C A G A U C Séquence2 U A A G G C U U A C Séquence2 U A C U G A C A G U Séquence3 C G C C U G U C A C Séquence3 U C C C C A G G U C Figure 10. Conception des faux ARN. Les positions dans les séquences brouillées sont celles des séquences originales. 59

73 Comme exemple d un faux ARN, on montre ici un des faux ARN obtenus à partir des séquences brouillées du riboswitch SAM/SAH dont on a déjà présenté l alignement complet de Rfam ainsi que les scores obtenus pour le vrai ARN. Nous avons soumis les 88 séquences brouillées à la version web du logiciel et en utilisant les paramètres par défaut. CMfinder a détecté une structure conservée en forme de tige-boucle dans 59 séquences des 88 de départ et les motifs sont différents de l ARN original. Résultats CMfinder SAMSAH-S3 (S3 pour «scrambled» et le numéro de candidat) # STOCKHOLM 1.0 #=GF AC ssamsah3 #=GF AU CMfinder 0.1 AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AACY / AAFY / AAFZ / AALV / AALY / AALZ / AAMV / AANB / AAYA / AAYB / AAYC / ABCL / GAUAGUU.A.CUU..GA.ACGA.CA...UUCCGGC.U..CGGU.U.CA.UGUC GAUAGAU.AUA.U..GGU.CGA.UG.A.A..UCGG.GC.AC.GUGC.CA.UGUC GAUAGAU.GUA.U..GGU.CGG.UG.A.A..ACGG.GC..UCGUGC.CA.UGUC GACAGAU.GUU.U..GGU.CGG.UA.A.A..UCGG.GC..UCGU.UCCA.UGUC GAUAGAU.AUG.U..GGU.CGG.C.CA.A..GCGG.GC.UC.GU.UCCA.UGUC GACAGAU.GUU.U..GGU.CGG.UA.A.A..UCGG.GC.A.CGU.UCCA.UGUC GACAGAU.GUU.U..GGU.CGG.UA.A.A..UCGG.GC..UCGU.UCCA.UGUC GAUAGGU.U.AUU.A.GC.CGG.G.CA..CUCC.G.GC.GCGGC.CUCAA.GUC GAUAGGU.C.CCU.A.G.ACGG.C.UA..CGCC.GG.C.ACGGU.CUCAA.GUC GACAGGU.U.CCU.A.GU.CGG.A.CACA..CCUG.GCCUCGGC.CUCA.UGUC GAUAGGU.UUG.U.A.G.CCGGCUA.A.A..CCGGC.C..CGGC.CCCAA.GUC GAUAGGU.C.CCU.A.G.ACGA.A.CA.A..CCGGG.C.GCGGA.CUCAA.GUC GAUAGGU.CUU.U.A.G.ACGA.C.CA.A..CCCGG.C.ACGAU.CUCAA.GUC GACAGAU.GUU.U..GGU.CGG.UA.A.A..UCGG.GC..UCGU.UCCA.UGUC GAUAGUU.A.CUU..GA.ACGA.CA...UUCCGGC.C..CGGU.U.CA.UGUC GAUAGAU.GUA.U..GGU.CGG.UG.A.A..UCGG.GC..UCGUGC.CA.UGUC GAUAGAU.GUA.U..GGU.CGG.UG.A.A..UCGG.GC..UCGU.UCCA.UGUC GAUAGGU.U.CCU.A.G.GCGGCUA.A.A..CC.GG.C.GCGGC.CUCAA.GUC GAUAGAU.GUC.U..GGC.CGA.U.CA.A..GCGG.GC.A.CGU.UCCA.UGUC GAUAGUU.A.CUU..GA.ACGA.CA...UUCCGGC.U..CGGU.U.CA.UGUC GAUAGGU.UUA.U.A.A.ACGC.UA...UUUCGGG.C.ACGGG.U.CA.UGUC GACAGUU.AUU.U.A.AU.CGU.AG.A.A..UCGG.GA.UCGAA.U.UAA.GAC GACAGAU.GUU.U..GGU.CGG.UA.A.A..GCGG.GC..UCGU.UCCA.UGUC GAUAGGU.U.AUU.A.GC.CGG.G.CA..CUCC.G.GC.GCGGC.CUCAA.GUC GACAGAU.GUC.U..GGU.CGG.UA.A.A..UCGG.GC..UCGUAC.CA.UGUC GAUAGGU.UUU.U.A.GC.CGA.GA.A.A.UCC.G.GC.GCGGU.UACA.CGUC GAUAGGU.CUA.U..CGU.CGG.U.UA..CUCC.G.GC.ACGGC.CUCAA.GUC GAUAGUUGC.A.U.A.G.GCGA.UA.AUA..CC.GG.C.ACGGC.C.CA.UGUC GGUAGGU.C.CAU.A.GU.CGG.U.CA..CGCC.G.GC.UCGGC.C.CAA.GUC GAUAGUUGC.A.U.A.G.GCGA.UA.AUA..CC.GG.C.ACGGC.C.CA.UGUC GAUAGGU.CUU.U.A.G.GCGG.CA.AUA..CC.GG.C.ACGGC.C.CAA.GUC GAUAGAU.U.CGUGA.GU.CGG.C.UA..CUCC.G.GC.GCGAC.C.CAA.GUC GAUAGGU.C.CAU.A.G.GCGG.C.CACA..CC.GG.C.ACGAC.CGCAA.GUC GAUAGAU.UUA.U.A.G.GCGG.U.UAUA..CC.GG.C.ACGGC.C.CAA.GUC GAUAGAU.UUG.UGA.GU.CGG.CA.A..CGCC.G.GC.UCGAC.C.CA.GGUC GAUAGGU.C.CUU.A.G.GCGG.AA.AUA..CC.GG.C.ACGGC.C.CAA.GUC 60

74 ABCR / GAUAGGU.CUC.U.A.GU.CGG.AA.A.A.GCC.G.GC.ACGAC.CCCAA.GUC ABLU /20.69 GAUAGGU.CUA.U.A.G.ACGG.UG.A..UUCCGGC.C..CGGC.CUCAA.GUC ABMI /54.6 GAUAGGU.CUC.U.A.G.ACGG.U.UA.A.GCC.GG.C.ACGGC.CUCAA.GUC ABMI /54.6 GAUAGGU.CUC.U.A.G.ACGG.U.UA.A.GCC.GG.C.ACGGC.CUCAA.GUC ABMI /24.74 GGUAGCU.GUCUU.A.GC.CGA.U.CA.A..UCGG.GC..CCGGUCCCAA.GUC ABPS / GAUAGGU.C.CCU.A.G.GCGG.GA...CUCC.GG.C.GCGGC.C.CAA.GUC ABPS / GGUAGGU.CUC.U.A.GG.CGG.CG.A.A.UCCGG.CC..CGGC.C.CAA.GUC ABXM / GACAGGU.U.CCUAA.GU.CGG.C.UA..CGCC.G.GC.UCGGC.CCCAA.GUC ABXS / GAUAGUU.U.CUU.A.GU.CGA.UA.A..UUCC.G.GC.ACGGC.C.CA.UGUC ACNX / GGUAGGU.CUG.U.A.G.GCGG.CG.AAA..CC.GG.C.UCGAC.CUCAA.GUC ACNZ / GAUAGGU.U.AAU.A.GU.CGG.U.UACA..CC.G.GC.ACGGC.CUCAA.GUC ACOA / GAUAGGU.U.ACUAA.G.ACGAAAG.A..GGCC.GG.C.UCGGU.C.CA.UGUC ACQI / GGUAGGU.U.CGU.A.G.ACGGCUA.A.A..CU.GG.C.ACGGC.CCCAA.GUC ADIF / GAUAGGU.A.GAU.A.GC.CGC.AA.AAA..CC.G.GC.ACGGG.CACA.UGUC AEYW / GAUAGGU.C.CGU.A.G.ACGG.UG.AUA..CU.GG.C.UCGAC.CUCAA.GUC CP / GAUAGAU.U.CGUGA.G.GCGG.UA.ACA..CC.GG.C.GCGGC.CUCAA.GUC CP / GACAGGU.C.CGU.A.GG.CGG.CA.A.A.UCCGG.CC..CGAC.CCCAA.GUC CP / GGUAGUU.A.GUU.A.GU.CGC.GG.A...UCCUG.GC.ACGGG.CCCA.UGUC CP / GAUAGGU.CUA.U.A.GU.CGG.C.UA.A..CCCG.GC.ACGGC.CCCAA.GUC CP / GACAGGU.C.CGU.A.GG.CGG.CA.A.A.UCCGG.CC..CGAC.CCCAA.GUC CP / GACAGGU.C.CGU.A.GG.CGG.CA.AAA..CCGG.CC..CGGC.CCCAA.GUC CP / GACAGGU.C.CGU.A.GG.CGG.CA.A.A.UCCGG.CC..CGAC.CCCAA.GUC CP / GGUAGUU.A.GUU.A.GU.CGC.GG.A...UCCUG.GC.ACGGG.CCCA.UGUC #=GC SS.CONS...<<<.<...<<.<<<...>>.>.>>...>>>.>... #=GC RF GAUAGGU.CUCUU.A.GU.CGG.UA.A.A.UCCGG.GC.ACGGC.CCCAAUGUC L évaluation de ce résultat de CMfinder par RNAscore a donné les scores suivants : Résultats RNAscore de SAMSAH-S3 : Total number of sequences: 59 Loops: 59 Bulges: 38 Internal loops: 59 Number of scored motifs = 96 Total number of motifs = 156 RNAscore Sum Q- Score = Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = RNAscore biochemical Sum Q- Score = Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = RNAscore antisense Sum Q- Score = Sum Q- Score_max = Q- Score = Sum Z- Score = Sum Z- Score_max = Z- Score = Loops: 59 [CAUU, UGAA, UGAA, UAAA, CCAA, UAAA, UAAA, GCACU, CUACG, ACACA, CUAAA, ACAA, CCAA, UAAA, CAUU, UGAA, UGAA, CUAAA, UCAA, CAUU, UAUU, AGAA, UAAA, GCACU, UAAA, GAAAU, UUACU, UAAUA, UCACG, UAAUA, CAAUA, CUACU, CCACA, UUAUA, CAACG, AAAUA, AAAAG, UGAUU, UUAAG, UUAAG, 61

75 UCAA, GACU, CGAAU, CUACG, UAAUU, CGAAA, UUACA, AAGAGG, CUAAA, AAAAA, UGAUA, UAACA, CAAAU, GGAU, CUAA, CAAAU, CAAAA, CAAAU, GGAU] Bulges: 38 [G, G, G, G, G, G, G, G, G, U, G, G, C, G, G, G, G, G, G, G, G, G, G, G, A, G, G, G, G, U, G, G, U, C, G, G, G, U] Internal loops: 59 [CUUG- C, UAUG- AC, UAUG- U, UUUG- U, UGUG- UC, UUUG- A, UUUG- U, AUUA- GC, CCUA- AC, CCUA- CUC, UGUA- C, CCUA- GC, UUUA- AC, UUUG- U, CUUG- C, UAUG- U, UAUG- U, CCUA- GC, UCUG- A, CUUG- C, UAUA- AC, UUUA- UC, UUUG- U, AUUA- GC, UCUG- U, UUUA- GC, UAUC- AC, AUA- AC, CAUA- UC, AUA- AC, UUUA- AC, CGUGA- GC, CAUA- AC, UAUA- AC, UGUGA- UC, CUUA- AC, UCUA- AC, UAUA- C, UCUA- AC, UCUA- AC, UCUUA- C, CCUA- GC, UCUA- C, CCUAA- UC, CUUA- AC, UGUA- UC, AAUA- AC, ACUAA- UC, CGUA- AC, GAUA- AC, CGUA- UC, CGUGA- GC, CGUA- C, GUUA- AC, UAUA- AC, CGUA- C, CGUA- C, CGUA- C, GUUA- AC] Malgré que nous avons créé et soumis de nombreuses séquences de faux ARN et que les séquences ont été brouillées par colonne de l alignement, pour conserver un meilleur potentiel global de former des paires de bases (avec de la covariation), seulement un faible pourcentage a donné des résultats sur CMfinder. Ceci s explique par le fait que les séquences choisies l ont été parce que l on présume qu elles n ont pas de structures d ARN conservées donc il n est pas surprenant que CMfinder n ait pas prédit de structures secondaires dans la majorité de nos tentatives. Nous avons donc appliqué RNAscore pour les 34 candidats obtenus et les résultats sont présentés dans la table 8. Parmi les 34 faux ARN, trois n ont pas de motifs scorés et par conséquent ils n ont pas de Q-score. Les Q-scores moyens sont presque semblables dans les trois versions de RNAscore (0.51, 0.52 et 0.52 pour RNAscore global, RNAscore «Activité biochimique» et RNAscore «Antisens» respectivement); de même pour les Z-scores moyens (0.83, 0.82 et 0.83 pour RNAscore global, RNAscore «Activité biochimique» et RNAscore «Antisens» respectivement). Les écarts-types des Q-scores (0.18, 0.19 et 0.16) et ceux des Z-scores (0.12, 0.12 et 0.13) indiquent que les valeurs de scores des contrôles négatifs sont assez dispersées autour de la moyenne. Ces résultats n appuient pas notre hypothèse selon laquelle les faux ARN auraient une moyenne de score inférieure à celle de vrais ARN. En comparant avec les résultats des nouvelles familles d ARN et tenant compte de l écart-type, on ne remarque pas une différence significative entre les moyennes de scores. 62

76 ARN/protéine source GOLLD SAM-SAH 5S Nom alignement CMfinder Biochemical Antisense RnaScore RnaScore RnaScore Nb de Nb. motifs dq dz séq. Q Z Q Z Q Z Scorés Total GOLLD-S GOLLD-S GOLLD-S GOLLD-S SAMSAH-S SAMSAH-S SAMSAH-S S-S S-S S-S S-S glna GlnA-S Hammerhead HH9 crcb HH9-S HH9-S HH9-S HH9-S crcb-s crcb-s ryhb ryhb-s IRE-I Lysin riboswitch aconitase IRE_I-S IRE_I-S Lysine-S Lysine-S Lysine-S Lysine-S Lysine-S Lysine-S aconitase-1* aconitase-2* aconitase-3* aconitase-4* aconitase-s aconitase-s aminopeptidase aminopeptidase-s Moyenne Écart-type Table 8. Application de RNAscore sur des contrôles négatifs. Les ARN testés sont des séquences d ARN brouillées ainsi que des séquences codantes de protéines (aconitase et aminopeptidase) dont certaines ont aussi été brouillées avant d être soumises à CMfinder. Les scores des faux ARN structurés obtenus sont présentés. * indique les séquences du gène codant pour l aconitase provenant de différentes espèces de bactéries et qui n ont pas été brouillées. 63

77 Application de RNAscore sur des motifs d études mutationnelles Nous avons testé RNAscore sur des motifs qui ont été modifiés par mutation ponctuelle et dont la fonction a été étudiée expérimentalement. Une recherche de littérature approfondie nous a permis de trouver plusieurs motifs (boucles terminales et internes ainsi que des «bulges») qui ont été mutés et nous les avons divisés en deux groupes : les mutations qui ont engendré une perte de fonction et les mutations qui n ont pas eu d effet inhibiteur, incluant certaines mutations qui ont causé une augmentation de l activité de l ARN. Chaque motif provient d une étude expérimentale distincte. Afin de tester RNAscore sur ces motifs, nous les avons regroupés et avons appliqué le score pour chaque ensemble de motifs de façon semblable à un ARN avec une collection de motifs. Pour cette analyse, nous avons appliqué uniquement RNAscore global puisque ce test vise à comparer le score des motifs wild-type au score des motifs mutés. Mutants avec perte de fonction Mutants avec fonction active Wild-Type Mutants Nb. de motifs mutés Nb. motifs boucles boucles Q-Score Z-score Q-Score Z-score bulges Scorés Total terminales internes Table 9. Application de RNAscore sur des motifs mutés. Les Q-scores et Z-scores des motifs avant et après mutation calculés avec la version RNAscore global. Nous notons que pour les mutations avec perte de fonction, le score global des motifs mutés est inférieur à celui du type sauvage (0.54 < 0.63). On observe l effet contraire pour les mutations qui ont maintenu l activité de l ARN ou l ont augmenté. Dans ce cas, le score 64

78 global des motifs mutés augmente par rapport au type sauvage (0.41 > 0.35). Malgré que la tendance des résultats concorde avec notre hypothèse, l écart entre les scores des motifs mutés et ceux des motifs de type sauvage demeure faible RNAscore d un ensemble aléatoire de motifs scorés Les contrôles négatifs générés par des séquences brouillées ont donné des scores assez divergents. Certains de ces faux ARN avaient peu ou pas de motifs scorés. Nous avons testé une approche différente qui consiste à former aléatoirement des ensembles de motifs scorés et considéré chaque ensemble comme un ARN hypothétique afin d y attribuer un Q-score. Chaque contrôle consiste en une sélection aléatoire par un programme informatique de 1400 motifs scorés dont : 400 boucles terminales : 100 boucles au hasard de chacune des tailles 2, 3, 4 et 5, 400 «bulges»: 100 «bulges» au hasard de chacune des tailles 1 à 4 nucléotides et 600 boucles internes : 100 boucles au hasard pour chacune des tailles 1x1, 1x2, 1x3, 2x1, 2x2 et 3x1. Les résultats des contrôles aléatoires pour les Q-scores calculés selon les 3 versions de RNAscore sont présentés dans la table X. Pour les trois versions de RNAscore (global, «activité biochimique» et «antisens»), nous avons calculé les Q-scores de 10 contrôles aléatoires. Les écarts-types sont très faibles ce qui démontre que les scores sont très serrés par rapport aux moyennes. Nous avons effectué des simulations d ensembles aléatoires jusqu à 1000 fois et nous avons trouvé que les moyennes (résultats non-présentés ici) ne diffèrent pas de celles des 10 échantillons de la table X. Les moyennes des Q-scores global et des Q-scores pour Antisens ont presque la même valeur de 0.48 alors que la moyenne pour les Q-scores «Activité biochimique» est un peu plus basse soit Nous avons calculés les valeurs de scores situés à plus ou moins trois écarts-types ce qui représenterait 99% des valeurs de scores aléatoires selon une distribution normale. Ces intervalles seront utilisés ultérieurement dans la comparaison des contrôles positifs et négatifs. 65

79 RNAscore Q-score Biochemical Q-Score Antisense Q-Score contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire contrôle aléatoire Moyenne Écart-Type (É-T) Moyenne+3 É-T Moyenne-3 É-T Table 10. Q-scores des contrôles aléatoires. É-T : Écart-Type Détermination de fonction par les scores «activité biochimique» vs «antisens» Tel qu avancé au début de ce chapitre, nous avons développé les versions de RNAscore spécifiques aux deux groupes d ARNnc «activité biochimique» et «antisens» afin de vérifier s il y a un avantage à utiliser cette approche. Il existe une grande variété d ARNnc ayant des fonctions et caractéristiques très différentes. Au niveau structural, on s attend à ce que certaines différences existent entre les deux groupes et celles ci se manifesteraient par des différences de scores (dq>0) selon la nature de l ARN. Notre hypothèse suppose que le Q-score calculé selon la version RNAscore spécifique au groupe auquel appartient un ARN donné serait plus élevé que le Q-score calculé selon la version du groupe auquel il n appartient pas. Si cette hypothèse est vraie, RNAscore pourrait être utilisé pour la prédiction de la fonction d un nouvel ARN en se basant sur ses scores «activité biochimique» et «antisens». De plus, cela permettrait, en principe, d avoir des scores avec un meilleur pouvoir discriminant puisqu ils sont «adaptés» à l ARNnc correspondant. 66

80 4.3.1 Capacité de discerner le type d'arn : échantillon Rfam Dans les résultats présentés à la section 4.2.1, la différence de scores «activité biochimique» versus «antisens» a été calculé pour les 104 nouvelles familles d ARN (la colonne dq et dz). Dans cette analyse, nous accordons plus d importance à la différence dq que dz étant donné que la différence des scores basés sur la taille des motifs est généralement faible en plus d avoir un petit écart-type de La moyenne générale dans cette perspective n est pas très informative. Nous avons donc sélectionné deux échantillons à partir des nouvelles familles de Rfam selon la classification de Rfam et dont la fonction est confirmée (sachant d avance à quel groupe ils appartiennent). Dans l échantillon 1, dq aurait une valeur positive puisque nous supposons que le score «activité biochimique» est plus élevé que le score «antisens». Les valeurs de dq de l échantillon 2 devraient plutôt être négatives. Les moyennes de dq des deux échantillons ne contredisent pas notre hypothèse puisque le dq moyen pour l échantillon 1 est 0.06 et celui de l échantillon 2 est Cependant il y a un chevauchement à cause des écarts-types. Afin de vérifier que les dq de l échantillon 1 sont différents de ceux de l échantillon 2, nous avons procédé à un test statistique. Le test de Student effectué compare les dq de l échantillon 1 (ARN ayant une activité biochimique) aux dq de l échantillon 2 (ARN ayant une activité antisens). Le résultat du test de Student rejette l hypothèse nulle avec une probabilité de ce qui confirme que la différence entre les valeurs dq de ces deux échantillons est statistiquement significative. 67

81 Échantillon 1 Rfam ID Rfam clan RNA Activité biochimique Q-Score Antisens Q-Score RF02032 Gene GOLLD RF02033 Gene HEARO RF02034 Gene IMES RF02035 Gene IMES RF02144 Gene rsmx RF02253 Cis-reg IRE_II RF02266 Gene XIST_intron RF02275 Gene Hammerhead_HH RF02276 Gene; ribozyme Hammerhead_II RF02277 Gene; ribozyme Hammerhead_HH czc dq Échantillon 2 RF02044 Gene; lncrna CDKN2B-AS_ RF02045 Gene; lncrna CDKN2B-AS_ RF02061 Gene; mirna mir RF02089 Gene; lncrna CLRN1-AS RF02090 Gene; lncrna DAOA-AS1_ RF02091 Gene; lncrna DAOA-AS1_ RF02095 Gene; mirna mir RF02096 Gene; mirna mir RF02097 Gene; mirna mir RF02156 Gene; lncrna NPPA-AS1_ RF02157 Gene; lncrna NPPA-AS1_ RF02158 Gene; lncrna NPPA-AS1_ RF02163 Gene; snrna; snorna; CDbox sr-tmet RF02179 Gene; lncrna ST7-AS1_ RF02180 Gene; lncrna ST7-AS1_ RF02194 Gene; antisense HPnc RF02197 Gene; lncrna TP73-AS RF02201 Gene; lncrna TTC28-AS1_ RF02214 Gene; mirna mir RF02244 Gene; mirna mir RF02245 Gene; mirna mir RF02254 Gene; mirna mir N Moyenne dq Échantillon 1: Activité biochimique Échantillon 2: Antisens É-T Table 11. Échantillons pour Test de Student de dq-score «Activité biochimique» vs «Antisens». 68

82 4.3.2 Applicabilité de RNAscore comme filtre À première vue les résultats de RNAscore pour les contrôles positifs et négatifs ne montrent pas de différence significative. Afin de mieux comparer les scores de contrôles positifs et négatifs, nous avons utilisé comme référence les intervalles de scores aléatoires présentés à la section On suppose que ces intervalles représentent les valeurs de scores qu un ARN donné peut avoir si les motifs présents étaient sélectionnés aléatoirement. Nous avons analysé la répartition des contrôles testés selon leurs Q-scores en calculant le pourcentage des ARN ayant un score inclus dans l intervalle de scores aléatoires, supérieur ou inférieur aux bornes de l intervalle. Ceci nous permet d avoir une vue globale des deux types de contrôles étudiés. La figure 11 montre la distribution des scores pour les trois versions utilisées de RNAscore. Dans toutes les versions de RNAscore, les contrôles négatifs ont un pourcentage plus élevé que les contrôles positifs d ARN ayant des scores inférieurs à l intervalle aléatoire. En d autres termes, les faux ARN auraient une plus grande proportion de faibles scores. D un autre coté, plus que la moitié des contrôles positifs ont des scores élevés dépassant l intervalle aléatoire soit 53%, 64% et 66%. Ces pourcentages sont plus élevés que leurs équivalents du côté des contrôles négatifs dans les trois versions de RNAscore. Ceci indique que les vrais ARNnc analysés ont plus tendance à avoir un Q-score supérieur à tout score aléatoire. La répartition des résultats des contrôles négatifs ne permet pas d avoir une conclusion parallèle puisque dans le cas de RNAscore global, la majorité des candidats avaient de faibles scores (51%) alors pour les 2 autres versions, 54% des candidats ont eu des scores supérieurs aux scores aléatoires. 69

83 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 53% 11% 37% 44% 5% 51% 64% 9% 27% 54% 2% 44% 66% 4% 30% 54% 2% 44% Scores > [scores aléatoires] Scores [scores aléatoires] Scores < [scores aléatoires] Figure 11. Répartition des scores des contrôles positifs et négatifs par rapport à l intervalle des scores aléatoires. 70

84 Chapitre 5 Discussion et Conclusion 5.1 Indication de tendances Les résultats de l analyse de scores de motifs présentés au chapitre 3 nous ont permis d identifier les structures les plus abondantes et rares dans tous les ARN de Rfam. Nous avons utilisé ces données pour élaborer un système de score en vue de développer un filtre visant à accélérer la découverte de nouveaux ARNnc. Nous avons testé ce nouveau système de scores RNAscore sur différents types de contrôles afin d évaluer son applicabilité. RNAscore a été raffiné en deux versions spécifiques aux groupes «activité biochimique» et «antisens». Cette partition a été motivée par les préférences spécifiques de ces groupes pour certains motifs, une différence qui a été démontrée statistiquement. Le groupe «activité biochimique» contient les familles d ARNnc dont la structure a l équivalent d un site catalytique ou d une pochette de liaison de ligand (analogue à ce que l on trouverait chez une protéine) alors que le second groupe, comme son nom l indique, regroupe les familles d ARNnc ayant en commun une activité antisens. Au chapitre précédent, nous avons présentés les scores obtenus pour les contrôles avec nos trois versions de RNAscore. Ces résultats nous ont permis de déceler une tendance où les moyennes des scores des vrais ARN (contrôles positifs) sont légèrement plus élevées que celles des contrôles négatifs. Les nouvelles familles de Rfam 11.0 ainsi que les faux ARN ont des scores moyens supérieurs à la moyenne de scores obtenus à partir de collections aléatoires de motifs. Ceci confirme que l occurrence des motifs dans les ARNnc n est pas aléatoire et que tous les motifs n ont pas la même probabilité de se retrouver dans un ARN structuré. Cette même tendance a été observée pour les motifs qui ont été mutés dans des études expérimentales. Le score global des motifs de type sauvage est plus élevé que le score de ces mêmes motifs lorsqu ils subissent une mutation avec perte de fonction; ce qui indiquerait que les motifs de type sauvage (vrais ARN) ont un score plus élevé que les faux ARN. Par contre la tendance est inversée lorsque la mutation n affecte pas la fonction ou si la mutation en augmente l activité, le score est légèrement supérieur ou ne change pas. Une corrélation

85 probable entre le score d abondance et l activité (affinité au substrat) de l ARN serait un aspect intéressant à étudier pour les ARN tels que les ribozymes et riboswitchs. D un autre côté, nous avons trouvé que la différence des Q-scores calculés selon les deux versions de RNAscore, «activité biochimique» et «antisens», est statistiquement significative ce qui indique la pertinence des versions de RNAscore spécifiques aux groupes. La comparaison des Q-scores calculés d un ARN pourrait aider à déterminer son appartenance au groupe de la version de RNAscore qui donne le Q-score le plus élevé. Cela serait particulièrement utile pour les ARNnc putatifs pour lesquels nous avons peu d indice sur la fonction, par exemple lorsque le contexte génomique est peu connu (comme dans plusieurs études métagénomiques). 5.2 Faible pouvoir discriminant comme filtre En testant RNAscore sur les différents contrôles, nous avons tenté d établir les intervalles de valeurs que des ARNnc peuvent avoir comme scores. Notre hypothèse est que les scores des vrais ARN seraient supérieurs aux scores des faux ARN avec des intervalles bien distincts ou un minimum de chevauchement. Les résultats de scores n ont pas été discriminants entre les contrôles positifs et négatifs malgré les tendances observées. Pour être discriminant et utile dans le contexte d un filtre permettant de classer des ARNnc prédits en fonction de leur vraisemblance, il eut fallu un accord beaucoup plus marqué entre les contrôles positifs et négatifs. Présentement, l application de ces scores comme filtre risquerait soit de causer le rejet de nombreuses prédictions valides, soit de mener à l étude d un grand nombre de faux-positifs. La table 12 résume toutes les moyennes de scores calculées et tenant compte des écarts-types, les intervalles de valeurs de scores des différents types de contrôles se chevauchent. 72

86 RnaScore Biochemical RnaScore Antisense RnaScore Contrôles Q É-T Z É-T Q É-T Z É-T Q É-T Z É-T validation contrôles positifs contrôles négatifs Table 12. Comparaison des résultats de RNAscore sur les différents contrôles. La colonne Q désigne le score relatif à la séquence des motifs scorés alors que la colonne Z représente le score basé uniquement sur la taille de tous les motifs de l ARN en question. É-T : Écart-Type. La taille des échantillons des contrôles négatifs est l une des difficultés rencontrées dans ce projet. La conception des faux ARN à partir de séquences codantes et/ou brouillées n était pas très efficace, ne générant souvent pas de résultats. Nous notons aussi que dans le cas où CMfinder trouve des candidats de faux ARN, le programme tente de donner les meilleures solutions ce qui favorise des structures très stables tout en réduisant les séquences de départ en nombre et en longueur. Ceci pourrait expliquer les scores élevés obtenus pour certains contrôles négatifs. Le Q-score est aussi limité par les motifs scorés ce qui pourrait affecter la qualité des scores basés sur la séquence. Cela pourrait ne refléter qu une faible portion du contenu en motifs et ne serait pas assez représentatif (bien que la plupart des 104 nouvelles familles analysées de Rfam aient au moins un motif scoré, seulement huit d entre elles ont tous leurs motifs qui sont scorés). Pour contourner ces limitations, nous avons comparé les scores obtenus pour les nouvelles familles aux scores des faux ARN en prenant comme référence l intervalle de valeurs des scores aléatoires. Les résultats à la fin du chapitre précédent montrent que l échantillon de contrôles positifs contient plus d ARN ayant un score dépassant la borne supérieure de l intervalle aléatoire. Même si ces résultats indiqueraient que les vrais ARN ont un biais vers des scores plus élevés que des scores aléatoires, les contrôles négatifs n ont pas donné de résultats concluants qui appuieraient cette hypothèse. 73

87 Certains des résultats décevant quant aux différences marginales entre les contrôles positifs et négatifs pourraient être expliqués par le fait que CMfinder utilise déjà certains motifs bien connus (tel que le GNRA) pour faire ses prédictions. Puisque les motifs avec le plus grand pouvoir discriminant sont ceux situés aux extrêmes des listes de scores, les motifs particulièrement abondant seront surreprésentés dans les vrais ARN, alors que les motifs très rares (dont ni CMfinder, ni la plupart des outils de prédiction ne tiennent compte) ne seront pas plus, ni moins, représentés que n importe quel autre motif dans un faux-positifs, ce qui donnent en définitive assez peu de poids aux motifs à cet extrême de la liste de score. La majorité des motifs qui seraient trouvés dans de fausses prédictions d ARNnc seraient soit bien scorés (car il y a un biais en ce sens dû aux outils de prédictions) soit neutres (car la plupart des motifs ont un faible écart de fréquence entre eux) et seuls quelques prédictions auraient «par chance» suffisamment des motifs rares permettant potentiellement de les désigner comme de faux-positifs. 5.3 Approches envisagées pour approfondir et améliorer Subdiviser par clan Notre approche consistait à compiler les familles de Rfam en 23 catégories afin de calculer un score d abondance qui est une moyenne de log de ratios d occurrence d un motif précis. Pour améliorer la représentativité des motifs rares, nous avons réduit les 23 catégories en 6 supercatégories. Nous pensons qu il serait pertinent de tester une approche différente dans la compilation des catégories pour améliorer le système de score telle que subdiviser les familles de Rfam par clan et recalculer les scores d abondance. Ceci diminuerait les occurrences totales des motifs vu qu un clan risque d être beaucoup plus petit qu une catégorie ou supercatégorie. Cependant cette approche augmenterait vraisemblablement la spécificité et permettrait d obtenir une meilleure discrimination au niveau de RNAscore. Un désavantage de cette approche serait de réduire le pouvoir discriminant de la plupart des motifs très rares, mais comme noté plus haut, ces derniers s avèrent peu utiles. Il s agirait donc d un sacrifice acceptable. Ce qui est plus problématique est que même certains motifs 74

88 «intermédiaires» sont peu ou pas représentés dans certains clans. Le deuxième désavantage serait de rendre beaucoup plus complexe la compilation et l utilisation des scores si les clans sont ensuite compilés dans des systèmes de scores qui auraient plus de deux versions Tenir compte des espèces et de la composition en GC La composition en nucléotides a été utilisée dans la recherche de nouveaux ARNnc (132,133). En effet, comme la structure des ARNnc est plus importante que pour les région codante ou les promoteurs, il y a un nombre minimal de paires de bases GC qui est requis pour avoir des structures stables(134). Ainsi, une région avec un %GC plus élevé peut être indicatrice de la présence d un ARNnc. Chez des organismes à faible %GC cela peut représenter un pouvoir discriminant intéressant. Les ARNnc ont des biais de séquence qui existent chez certains organismes plus que d autres. Il serait donc intéressant d intégrer le %GC des régions de l ARN qui forme des paires de base pour réaliser un filtre tenant compte de ces contraintes de façon plus précise que les études précédentes. Un autre point majeur qui n a pas été abordé dans notre étude concerne les variations entre espèces. En effet, la proportion des bases qui entre dans la composition des génomes varie grandement selon le groupe taxonomique concerné. Ainsi, Streptomyces coelicolor a un %GC de 72%, alors que pour Saccharomyces cerevisiae il est de 38% (135). Au-delà des paires de bases, cela a évidemment un impact sur les probabilités de trouver simplement par hasard des boucles GAAA ou GCGC par exemple. Cette information pourrait servir à mieux classifier la rareté ou l abondance de motifs donnés en pondérant ceux-ci selon le %GC du motif et le %GC du génome de l organisme d où origine la séquence. Ainsi, nous avons simplifié l analyse en considérant comme uniforme les probabilités d occurrence aléatoire pour chaque motif (une chance sur 256). En réalité, pour la boucle GCGC les probabilités basées sur le %GC de S. coelicolor et de S. cerevisiae donneraient ~1/60 ((1/(72/2)) 4 ) et ~1/767 ((1/(38/2)) 4 ), respectivement, et seraient de ~1/1012 ((1/(72/2))*(1/(28/2)) 3 ) et ~1/177 ((1/(38/2))*(1/(62/2)) 3 ) pour la boucle GAAA pour les deux mêmes espèces. En d autres mots, si GCGC est très rare chez S. coelicolor ou GAAA très abondant, cela renforcerait encore plus 75

89 leurs caractères extrêmes. Cependant, une telle pondération implique de connaître le %GC du génome de l organisme, ce qui n est pas toujours le cas pour les séquences d ARN trouvées dans Rfam. Cela sous-entend aussi que la distribution de ce %GC est uniforme dans le génome, ce que nous savons n est pas le cas. Il n est donc pas clair de quelle façon une pondération devrait être implémentée. De plus, en tenant compte des différences entre espèces, nous pourrions potentiellement mieux expliquer certaines des fréquences observées. Par exemple, une séquence donnée étant liée par une protéine ribosomale pourrait se trouver à être particulièrement rare dans l ensemble des ARN d un organisme parce qu autrement elle se trouverait liée par la très abondante protéine ribosomale. À l opposé, la surreprésentation de certaines séquences dans certains groupes taxonomiques pourrait aussi correspondre un avantage notable de pouvoir lier une protéine donnée, telle que la protéine Hfq qui lie les petits ARN bactériens via leur séquence AU riche Évaluer d autres éléments structuraux Hormis les boucles et «bulges», d autres parties de la structure des ARN seraient intéressantes à évaluer, notamment les paires de bases des tiges. Celles-ci sont primordiales à la formation de la structure secondaire et tertiaire. Néanmoins, bien que cet aspect soit plutôt bien étudié du point de vue des prédictions de structure et thermodynamique, il ne l est pas autant pour ce qui est de biais potentiels, et de leurs implications, du point de vue biologique. Certains exemples sont connus et étudiés, comme la possibilité de glissement de l ARN polymérase lors de la synthèse de régions homopolymères. Par contre, la diversité de composition, le nombre de paires de bases Wobble, la présence de répétitions ou la présence de motifs particuliers sont autant d avenues qui pourraient être explorées d une façon analogue à ce qui a été fait pour les régions dites «simple brin» dans ce mémoire. 76

90 5.4 Conclusion Dans ce travail, nous avons identifié des caractéristiques communes et rares de tous les ARN non-codant disponibles dans la base de données Rfam. Nous avons exploré l abondance des structures secondaires de l ARN d une façon différente de ce qui a été fait précédemment. Une base de données locale RNAstem a été créée pour faciliter l extraction et la compilation des données sur la structure secondaire des alignements de Rfam. Nous avons exploité ces données pour calculer un score d abondance qui nous a permis d étudier la fréquence des boucles terminales, des «bulges» et des boucles internes. Ce score corrige le biais de la surreprésentation de certaines classes d ARN telle que l ARN ribosomal et permet d avoir une précision qu on n a pas en se basant uniquement sur les occurrences des motifs. Nos résultats confirment ce qui est déjà connu pour des boucles communes et qui ont été très étudiées comme les boucles de type GNRA ou UNCG. Notre travail a aussi permis d identifier des motifs abondants qui n ont pas été étudié auparavant tel que la boucle terminale UUUU. De plus, nous avons relevé une rareté surprenante pour certains motifs, ce qui n avait pas été soulevé précédemment. Nous avons exploré la possibilité d utiliser ces scores pour la conception d un filtre pour les candidats de nouveaux ARN non-codants. Dans cette perspective, nous avons développé un système de scores, RNAscore, qui permet d évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents contrôles. Malgré que notre approche se soit avérée inefficace pour la discrimination entre des vrais ARN et de faux ARN, il y a un potentiel de perfectionnement de la méthode et nos résultats d analyses ouvrent des pistes intéressantes pour de futures recherches. 77

91 Bibliographie 1. Machado-Lima, A., del Portillo, H.A. and Durham, A.M. (2008) Computational methods in noncoding RNA research. Journal of mathematical biology, 56, Eddy, S.R. (2001) Non-coding RNA genes and the modern RNA world. Nature reviews. Genetics, 2, Wang, C., Wei, L., Guo, M. and Zou, Q. (2013) Computational approaches in detecting noncoding RNA. Current genomics, 14, Esteller, M. (2011) Non-coding RNAs in human disease. Nature reviews. Genetics, 12, Crick, F.H. (1958) On protein synthesis. Symposia of the Society for Experimental Biology, 12, Crick, F. (1970) Central dogma of molecular biology. Nature, 227, Guerrier-Takada, C., Gardiner, K., Marsh, T., Pace, N. and Altman, S. (1983) The RNA moiety of ribonuclease P is the catalytic subunit of the enzyme. Cell, 35, Kruger, K., Grabowski, P.J., Zaug, A.J., Sands, J., Gottschling, D.E. and Cech, T.R. (1982) Self-splicing RNA: autoexcision and autocyclization of the ribosomal RNA intervening sequence of Tetrahymena. Cell, 31, Nawrocki, E.P., Burge, S.W., Bateman, A., Daub, J., Eberhardt, R.Y., Eddy, S.R., Floden, E.W., Gardner, P.P., Jones, T.A., Tate, J. et al. (2015) Rfam 12.0: updates to the RNA families database. Nucleic acids research, 43, D David Edwards, J.S., David Hansen (ed.) (2009) Bioinformatics Tools and Applications. 1 ed. Springer-Verlag New York. 78

92 11. Maden, B.E. and Hughes, J.M. (1997) Eukaryotic ribosomal RNA: the recent excitement in the nucleotide modification problem. Chromosoma, 105, Bachellerie, J.P., Cavaille, J. and Huttenhofer, A. (2002) The expanding snorna world. Biochimie, 84, Darzacq, X., Jady, B.E., Verheggen, C., Kiss, A.M., Bertrand, E. and Kiss, T. (2002) Cajal body-specific small nuclear RNAs: a novel class of 2'-O-methylation and pseudouridylation guide RNAs. The EMBO journal, 21, Reinhart, B.J., Slack, F.J., Basson, M., Pasquinelli, A.E., Bettinger, J.C., Rougvie, A.E., Horvitz, H.R. and Ruvkun, G. (2000) The 21-nucleotide let-7 RNA regulates developmental timing in Caenorhabditis elegans. Nature, 403, Lagos-Quintana, M., Rauhut, R., Lendeckel, W. and Tuschl, T. (2001) Identification of novel genes coding for small expressed RNAs. Science, 294, He, L. and Hannon, G.J. (2004) MicroRNAs: small RNAs with a big role in gene regulation. Nature reviews. Genetics, 5, Jansson, M.D. and Lund, A.H. (2012) MicroRNA and cancer. Molecular oncology, 6, Faghihi, M.A. and Wahlestedt, C. (2009) Regulatory roles of natural antisense transcripts. Nature reviews. Molecular cell biology, 10, Vogel, J. and Wagner, E.G. (2007) Target identification of small noncoding RNAs in bacteria. Current opinion in microbiology, 10, Grissa, I., Vergnaud, G. and Pourcel, C. (2007) The CRISPRdb database and tools to display CRISPRs and to generate dictionaries of spacers and repeats. BMC bioinformatics, 8,

93 21. Barrangou, R., Fremaux, C., Deveau, H., Richards, M., Boyaval, P., Moineau, S., Romero, D.A. and Horvath, P. (2007) CRISPR provides acquired resistance against viruses in prokaryotes. Science, 315, Wilson, D.N. and Doudna Cate, J.H. (2012) The structure and function of the eukaryotic ribosome. Cold Spring Harbor perspectives in biology, Stark, H., Dube, P., Luhrmann, R. and Kastner, B. (2001) Arrangement of RNA and proteins in the spliceosomal U1 small nuclear ribonucleoprotein particle. Nature, 409, Matera, A.G., Terns, R.M. and Terns, M.P. (2007) Non-coding RNAs: lessons from the small nuclear and small nucleolar RNAs. Nature reviews. Molecular cell biology, 8, Winkler, W.C., Nahvi, A., Roth, A., Collins, J.A. and Breaker, R.R. (2004) Control of gene expression by a natural metabolite-responsive ribozyme. Nature, 428, Buck, J., Furtig, B., Noeske, J., Wohnert, J. and Schwalbe, H. (2007) Time-resolved NMR methods resolving ligand-induced RNA folding at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America, 104, Winkler, W.C. and Breaker, R.R. (2005) Regulation of bacterial gene expression by riboswitches. Annual review of microbiology, 59, Levitt, M. (1969) Detailed molecular model for transfer ribonucleic acid. Nature, 224, Caetano-Anolles, G. (2002) Tracing the evolution of RNA structure in ribosomes. Nucleic acids research, 30,

94 30. Abraham, M., Dror, O., Nussinov, R. and Wolfson, H.J. (2008) Analysis and classification of RNA tertiary structures. RNA, 14, Parisien, M. and Major, F. (2008) The MC-Fold and MC-Sym pipeline infers RNA structure from sequence data. Nature, 452, Schroeder, S.J. (2009) Advances in RNA structure prediction from sequence: new tools for generating hypotheses about viral RNA structure-function relationships. Journal of virology, 83, Capriotti, E. and Marti-Renom, M.A. (2010) Quantifying the relationship between sequence and three-dimensional structure conservation in RNA. BMC bioinformatics, 11, Tinoco, I., Jr. and Bustamante, C. (1999) How RNA folds. J Mol Biol, 293, Gardner, P.P. (2013) Visualising RNA Krieger M, S.M., Matsudaira PT, Lodish HF, Darnell JE, Lawrence Z, Kaiser C, Berk A (2004), Molecular Cell Biology. New York: W.H. Freeman and CO. 37. Butcher, S.E. and Pyle, A.M. (2011) The Molecular Interactions That Stabilize RNA Tertiary Structure: RNA Motifs, Patterns, and Networks. Accounts Chem Res, 44, Leontis, N.B. and Westhof, E. (2003) Analysis of RNA motifs. Current opinion in structural biology, 13, Turner, B. and Lilley, D.M. (2008) The importance of G.A hydrogen bonding in the metal ion- and protein-induced folding of a kink turn RNA. J Mol Biol, 381, Heppell, B. and Lafontaine, D.A. (2008) Folding of the SAM aptamer is determined by the formation of a K-turn-dependent pseudoknot. Biochemistry, 47,

95 41. Jaeger, L., Verzemnieks, E.J. and Geary, C. (2009) The UA_handle: a versatile submotif in stable RNA architectures. Nucleic acids research, 37, Draper, D.E. (1999) Themes in RNA-protein recognition. J Mol Biol, 293, Beuning, P.J. and Musier-Forsyth, K. (1999) Transfer RNA recognition by aminoacyltrna synthetases. Biopolymers, 52, Fontana, W. (2002) Modelling 'evo-devo' with RNA. BioEssays : news and reviews in molecular, cellular and developmental biology, 24, Pasquali, S., Gan, H.H. and Schlick, T. (2005) Modular RNA architecture revealed by computational analysis of existing pseudoknots and ribosomal RNAs. Nucleic acids research, 33, Grabow, W. and Jaeger, L. (2013) RNA modularity for synthetic biology. F1000prime reports, 5, Bernhart, S.H., Hofacker, I.L., Will, S., Gruber, A.R. and Stadler, P.F. (2008) RNAalifold: improved consensus structure prediction for RNA alignments. BMC bioinformatics, 9, Washietl, S., Hofacker, I.L. and Stadler, P.F. (2005) Fast and reliable prediction of noncoding RNAs. Proceedings of the National Academy of Sciences of the United States of America, 102, Janssen, S. and Giegerich, R. (2015) The RNA shapes studio. Bioinformatics, 31, Sankoff, D. (1985) Simultaneous Solution of the Rna Folding, Alignment and Protosequence Problems. Siam J Appl Math, 45,

96 51. Havgaard, J.H., Lyngso, R.B. and Gorodkin, J. (2005) The FOLDALIGN web server for pairwise structural RNA alignment and mutual motif search. Nucleic acids research, 33, W650-W Mathews, D.H. and Turner, D.H. (2002) Dynalign: An algorithm for finding the secondary structure common to two RNA sequences. Journal of Molecular Biology, 317, Zuker, M. and Stiegler, P. (1981) Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic acids research, 9, Jaeger, J.A., Turner, D.H. and Zuker, M. (1989) Improved predictions of secondary structures for RNA. Proceedings of the National Academy of Sciences of the United States of America, 86, Zuker, M. (1989) On finding all suboptimal foldings of an RNA molecule. Science, 244, Lorenz, R., Bernhart, S.H., Honer Zu Siederdissen, C., Tafer, H., Flamm, C., Stadler, P.F. and Hofacker, I.L. (2011) ViennaRNA Package 2.0. Algorithms for molecular biology : AMB, 6, Wuchty, S., Fontana, W., Hofacker, I.L. and Schuster, P. (1999) Complete suboptimal folding of RNA and the stability of secondary structures. Biopolymers, 49, Steffen, P., Voss, B., Rehmsmeier, M., Reeder, J. and Giegerich, R. (2006) RNAshapes: an integrated RNA analysis package based on abstract shapes. Bioinformatics, 22, Rivas, E. and Eddy, S.R. (2000) Secondary structure alone is generally not statistically significant for the detection of noncoding RNAs. Bioinformatics, 16,

97 60. Do, C.B., Woods, D.A. and Batzoglou, S. (2006) CONTRAfold: RNA secondary structure prediction without physics-based models. Bioinformatics, 22, e Weinberg, Z., Barrick, J.E., Yao, Z., Roth, A., Kim, J.N., Gore, J., Wang, J.X., Lee, E.R., Block, K.F., Sudarsan, N. et al. (2007) Identification of 22 candidate structured RNAs in bacteria using the CMfinder comparative genomics pipeline. Nucleic acids research, 35, Weinberg, Z., Wang, J.X., Bogue, J., Yang, J., Corbino, K., Moy, R.H. and Breaker, R.R. (2010) Comparative genomics reveals 104 candidate structured RNAs from bacteria, archaea, and their metagenomes. Genome biology, 11, R Meyer, I.M. (2007) A practical guide to the art of RNA gene prediction. Brief Bioinform, 8, Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic acids research, 25, Lowe, T.M. and Eddy, S.R. (1997) trnascan-se: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic acids research, 25, Gautheret, D. and Lambert, A. (2001) Direct RNA motif definition and identification from multiple sequence alignments using secondary structure profiles. J Mol Biol, 313, Jimenez, R.M., Rampasek, L., Brejova, B., Vinar, T. and Luptak, A. (2012) Discovery of RNA motifs using a computational pipeline that allows insertions in paired regions and filtering of candidate sequences. Methods Mol Biol, 848, Macke, T.J., Ecker, D.J., Gutell, R.R., Gautheret, D., Case, D.A. and Sampath, R. (2001) RNAMotif, an RNA secondary structure definition and search algorithm. Nucleic acids research, 29,

98 69. Gautheret, D., Major, F. and Cedergren, R. (1990) Pattern searching/alignment with RNA primary and secondary structures: an effective descriptor for trna. Computer applications in the biosciences : CABIOS, 6, Nawrocki, E.P. and Eddy, S.R. (2013) Infernal 1.1: 100-fold faster RNA homology searches. Bioinformatics, 29, Rivas, E. and Eddy, S.R. (2001) Noncoding RNA gene detection using comparative sequence analysis. BMC bioinformatics, 2, Pedersen, J.S., Bejerano, G., Siepel, A., Rosenbloom, K., Lindblad-Toh, K., Lander, E.S., Kent, J., Miller, W. and Haussler, D. (2006) Identification and classification of conserved RNA secondary structures in the human genome. PLoS computational biology, 2, e di Bernardo, D., Down, T. and Hubbard, T. (2003) ddbrna: detection of conserved secondary structures in multiple alignments. Bioinformatics, 19, Coventry, A., Kleitman, D.J. and Berger, B. (2004) MSARI: multiple sequence alignments for statistical detection of RNA secondary structure. Proceedings of the National Academy of Sciences of the United States of America, 101, Yao, Z., Weinberg, Z. and Ruzzo, W.L. (2006) CMfinder--a covariance model based RNA motif finding algorithm. Bioinformatics, 22, Salari, R., Aksay, C., Karakoc, E., Unrau, P.J., Hajirasouliha, I. and Sahinalp, S.C. (2009) smyrna: a novel Ab initio ncrna gene finder. PloS one, 4, e Bao, M., Cervantes Cervantes, M., Zhong, L. and Wang, J.T. (2012) Searching for non-coding RNAs in genomic sequences using ncrnascout. Genomics, proteomics & bioinformatics, 10,

99 78. Gardner, P.P., Daub, J., Tate, J., Moore, B.L., Osuch, I.H., Griffiths-Jones, S., Finn, R.D., Nawrocki, E.P., Kolbe, D.L., Eddy, S.R. et al. (2011) Rfam: Wikipedia, clans and the "decimal" release. Nucleic acids research, 39, D Lee, J.C., Cannone, J.J. and Gutell, R.R. (2003) The Lonepair Triloop: A New Motif in RNA Structure. Journal of Molecular Biology, 325, Lisi, V. and Major, F. (2007) A comparative analysis of the triloops in all highresolution RNA structures reveals sequence structure relationships. RNA, 13, Olsthoorn, R.C. and Bol, J.F. (2002) Role of an essential triloop hairpin and flanking structures in the 3' untranslated region of Alfalfa mosaic virus RNA in in vitro transcription. Journal of virology, 76, Correll, C.C. (2003) Common and distinctive features of GNRA tetraloops based on a GUAA tetraloop structure at 1.4 A resolution. RNA, 9, Sheehy, J.P., Davis, A.R. and Znosko, B.M. (2010) Thermodynamic characterization of naturally occurring RNA tetraloops. RNA, 16, Baumruk, V., Gouyette, C., Huynh-Dinh, T., Sun, J.S. and Ghomi, M. (2001) Comparison between CUUG and UUCG tetraloops: thermodynamic stability and structural features analyzed by UV absorption and vibrational spectroscopy. Nucleic acids research, 29, Molinaro, M. and Tinoco, I., Jr. (1995) Use of ultra stable UNCG tetraloop hairpins to fold RNA structures: thermodynamic and spectroscopic applications. Nucleic acids research, 23, Williams, D.J. and Hall, K.B. (2000) Experimental and computational studies of the G[UUCG]C RNA tetraloop. J Mol Biol, 297,

100 87. Deng, N.J. and Cieplak, P. (2010) Free energy profile of RNA hairpins: a molecular dynamics simulation study. Biophysical journal, 98, Huang, H., Alexandrov, A., Chen, X., Barnes, T.W., 3rd, Zhang, H., Dutta, K. and Pascal, S.M. (2001) Structure of an RNA hairpin from HRV-14. Biochemistry, 40, Hendrix, D.K., Brenner, S.E. and Holbrook, S.R. (2005) RNA structural motifs: building blocks of a modular biomolecule. Q Rev Biophys, 38, Leulliot, N., Baumruk, V., Abdelkafi, M., Turpin, P.Y., Namane, A., Gouyette, C., Huynh-Dinh, T. and Ghomi, M. (1999) Unusual nucleotide conformations in GNRA and UNCG type tetraloop hairpins: evidence from Raman markers assignments. Nucleic Acids Res, 27, Zuker, M. (2003) Mfold web server for nucleic acid folding and hybridization prediction. Nucleic Acids Res, 31, Gorodkin, J., Hofacker, I.L., Torarinsson, E., Yao, Z., Havgaard, J.H. and Ruzzo, W.L. (2010) De novo prediction of structured RNAs from genomic sequences. Trends Biotechnol, 28, Gruber, A.R., Neubock, R., Hofacker, I.L. and Washietl, S. (2007) The RNAz web server: prediction of thermodynamically stable and evolutionarily conserved RNA structures. Nucleic Acids Res, 35, W Uzilov, A.V., Keegan, J.M. and Mathews, D.H. (2006) Detection of non-coding RNAs on the basis of predicted secondary structure formation free energy change. BMC Bioinformatics, 7, Major, F. and Parisien, M. (2008) The MC-Fold and MC-Sym pipeline infers RNA structure from sequence data. Nature, 452,

101 96. Rose, P.W., Beran, B., Bi, C., Bluhm, W.F., Dimitropoulos, D., Goodsell, D.S., Prlic, A., Quesada, M., Quinn, G.B., Westbrook, J.D. et al. (2011) The RCSB Protein Data Bank: redesigned web site and web services. Nucleic Acids Res, 39, D Gardner, P.P., Daub, J., Tate, J.G., Nawrocki, E.P., Kolbe, D.L., Lindgreen, S., Wilkinson, A.C., Finn, R.D., Griffiths-Jones, S., Eddy, S.R. et al. (2009) Rfam: updates to the RNA families database. Nucleic Acids Res, 37, D Barrick, J.E. and Breaker, R.R. (2007) The distributions, mechanisms, and structures of metabolite-binding riboswitches. Genome Biol, 8, R Parkesh, R., Childs-Disney, J.L., Nakamori, M., Kumar, A., Wang, E., Wang, T., Hoskins, J., Tran, T., Housman, D., Thornton, C.A. et al. (2012) Design of a Bioactive Small Molecule That Targets the Myotonic Dystrophy Type 1 RNA via an RNA Motif-Ligand Database and Chemical Similarity Searching. J Am Chem Soc Birney, E., Stamatoyannopoulos, J.A., Dutta, A., Guigo, R., Gingeras, T.R., Margulies, E.H., Weng, Z., Snyder, M., Dermitzakis, E.T., Thurman, R.E. et al. (2007) Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature, 447, Smirnov, A.V., Entelis, N.S., Krasheninnikov, I.A., Martin, R. and Tarassov, I.A. (2009) Specific features of 5S rrna structure Its interactions with macromolecules and possible functions. Biochemistry (Moscow), 73, Barrick, J.E., Corbino, K.A., Winkler, W.C., Nahvi, A., Mandal, M., Collins, J., Lee, M., Roth, A., Sudarsan, N., Jona, I. et al. (2004) New RNA motifs suggest an expanded scope for riboswitches in bacterial genetic control. Proceedings of the National Academy of Sciences of the United States of America, 101,

102 103. Perreault, J., Weinberg, Z., Roth, A., Popescu, O., Chartrand, P., Ferbeyre, G. and Breaker, R.R. (2011) Identification of hammerhead ribozymes in all domains of life reveals novel structural variations. PLoS computational biology, 7, e Haasnoot, P.C., Bol, J.F. and Olsthoorn, R.C. (2003) A plant virus replication system to assay the formation of RNA pseudotriloop motifs in RNA-protein interactions. Proceedings of the National Academy of Sciences of the United States of America, 100, McCallum, S.A. and Pardi, A. (2003) Refined solution structure of the iron-responsive element RNA using residual dipolar couplings. J Mol Biol, 326, Antao, V.P. and Tinoco, I., Jr. (1992) Thermodynamic parameters for loop formation in RNA and DNA hairpin tetraloops. Nucleic acids research, 20, Wolters, J. (1992) The nature of preferred hairpin structures in 16S-like rrna variable regions. Nucleic acids research, 20, Jucker, F.M. and Pardi, A. (1995) Solution structure of the CUUG hairpin loop: a novel RNA tetraloop motif. Biochemistry, 34, Tanaka, Y., Morita, E.H., Hayashi, H., Kasai, Y., Tanaka, T. and Taira, K. (2000) Well-conserved tandem G-A pairs and the flanking C center dot G pair in hammerhead ribozymes are sufficient for capture of structurally and catalytically important metal ions. J Am Chem Soc, 122, Hammond, N.B., Tolbert, B.S., Kierzek, R., Turner, D.H. and Kennedy, S.D. (2010) RNA internal loops with tandem AG pairs: the structure of the 5'GAGU/3'UGAG loop can be dramatically different from others, including 5'AAGU/3'UGAA. Biochemistry, 49, Schroeder, K.T., McPhee, S.A., Ouellet, J. and Lilley, D.M. (2010) A structural database for k-turn motifs in RNA. RNA, 16,

103 112. Hermann, T. and Patel, D.J. (2000) RNA bulges as architectural and recognition motifs. Structure, 8, R Leipuviene, R. and Theil, E.C. (2007) The family of iron responsive RNA structures regulated by changes in cellular iron and oxygen. Cellular and molecular life sciences : CMLS, 64, Burge, S.W., Daub, J., Eberhardt, R., Tate, J., Barquist, L., Nawrocki, E.P., Eddy, S.R., Gardner, P.P. and Bateman, A. (2013) Rfam 11.0: 10 years of RNA families. Nucleic acids research, 41, D Dale, T., Smith, R. and Serra, M.J. (2000) A test of the model to predict unusually stable RNA hairpin loop stability. RNA, 6, Jucker, F.M., Heus, H.A., Yip, P.F., Moors, E.H. and Pardi, A. (1996) A network of heterogeneous hydrogen bonds in GNRA tetraloops. J Mol Biol, 264, Althoff, S., Selinger, D. and Wise, J.A. (1994) Molecular evolution of SRP cycle components: functional implications. Nucleic acids research, 22, Nagaswamy, U., Gao, X., Martinis, S.A. and Fox, G.E. (2001) NMR structure of a ribosomal RNA hairpin containing a conserved CUCAA pentaloop. Nucleic acids research, 29, Gutell, R.R. (1993) Collection of small subunit (16S- and 16S-like) ribosomal RNA structures. Nucleic acids research, 21, Stefl, R. and Allain, F.H. (2005) A novel RNA pentaloop fold involved in targeting ADAR2. RNA, 11, Popenda, M., Blazewicz, M., Szachniuk, M. and Adamiak, R.W. (2008) RNA FRABASE version 1.0: an engine with a database to search for the three-dimensional fragments within RNA structures. Nucleic acids research, 36, D

104 122. Geisberg, J.V., Moqtaderi, Z., Fan, X., Ozsolak, F. and Struhl, K. (2014) Global analysis of mrna isoform half-lives reveals stabilizing and destabilizing elements in yeast. Cell, 156, Masse, E., Salvail, H., Desnoyers, G. and Arguin, M. (2007) Small RNAs controlling iron metabolism. Current opinion in microbiology, 10, Legault, P., Li, J., Mogridge, J., Kay, L.E. and Greenblatt, J. (1998) NMR structure of the bacteriophage lambda N peptide/boxb RNA complex: recognition of a GNRA fold by an arginine-rich motif. Cell, 93, Scharpf, M., Sticht, H., Schweimer, K., Boehm, M., Hoffmann, S. and Rosch, P. (2000) Antitermination in bacteriophage lambda. The structure of the N36 peptideboxb RNA complex. European journal of biochemistry / FEBS, 267, Huppler, A., Nikstad, L.J., Allmann, A.M., Brow, D.A. and Butcher, S.E. (2002) Metal binding and base ionization in the U6 RNA intramolecular stem-loop structure. Nature structural biology, 9, Geissmann, T.A. and Touati, D. (2004) Hfq, a new chaperoning role: binding to messenger RNA determines access for small RNA regulator. The EMBO journal, 23, Zucconi, B.E. and Wilson, G.M. (2013) Assembly of functional ribonucleoprotein complexes by AU-rich element RNA-binding protein 1 (AUF1) requires basedependent and -independent RNA contacts. The Journal of biological chemistry, 288, Fialcowitz-White, E.J., Brewer, B.Y., Ballin, J.D., Willis, C.D., Toth, E.A. and Wilson, G.M. (2007) Specific protein domains mediate cooperative assembly of HuR oligomers on AU-rich mrna-destabilizing sequences. The Journal of biological chemistry, 282,

105 130. Soller, M. and White, K. (2005) ELAV multimerizes on conserved AU4-6 motifs important for ewg splicing regulation. Molecular and cellular biology, 25, Otaka, H., Ishikawa, H., Morita, T. and Aiba, H. (2011) PolyU tail of rho-independent terminator of bacterial small RNAs is essential for Hfq action. Proceedings of the National Academy of Sciences of the United States of America, 108, Klein, R.J., Misulovin, Z. and Eddy, S.R. (2002) Noncoding RNA genes identified in AT-rich hyperthermophiles. Proceedings of the National Academy of Sciences of the United States of America, 99, Schattner, P. (2002) Searching for RNA genes using base-composition statistics. Nucleic acids research, 30, Higgs, P.G. (2000) RNA secondary structure: physical and computational aspects. Quarterly reviews of biophysics, 33, Bikandi, J. and Mira, A., Vol

106 Annexe A B 64 triloop sequences 23 Categories AAA AAC AAG AAU UUA UUC UUG UUU 5S _8S antisense CD-box Cis-Reg CRISPR Gene HACA-box Intron IRES leader mirna riboswitch ribozyme scarna snrna splicing SSU_rRNA_archaea SSU_rRNA_bacteria SSU_rRNA_eukarya T-box Thermoregulator trna Average logs of ratio RRNA-small subunit rrna- 5S riboswitch mirna Ribozyme snorna trna CACG CCUC 455 AAAA 68 CUGU 527 AAUA 418 CCAG 120 AGCA 197 CUUG AUGA 565 AUAA 70 CCAU 559 UUCG 444 AGCA 121 AUAU 209 UAAG UUAA 599 AACU 73 GCUA 642 UUUG 454 UAGU 140 UGCA 210 UUUU GCGA 647 GAUU 90 AAGG 665 GUUG 532 UUAU 145 UUAU 225 AUCC GUUU 718 UCCC 100 UAUA 945 UAUA 1170 AAAG 148 AAUU 290 CAGG UUGA 799 UAUU 112 CUGC 1067 UAAA 1633 UUCG 153 AAAA 424 CUAG GAGG 1270 GCCC 144 CCAC 1134 GCGA 1903 UCAU 160 AGUA 425 CUCG UACU 1353 GCGA 183 CAUC 1151 CAAA 2002 CAAU 162 AUUU 477 UAUG GAAA 1574 GUAA 248 GUCA 1330 AAAA 2613 GAGU 178 AAGA 515 UAGG UCAC 1690 UUUU 282 AAAA 1676 GCAA 2802 CCAU 179 UGUU 613 UUAG GUCU 1762 ACCC 299 GAUG 1844 GAGA 2891 UUCU 193 AACA 763 CAAG AAGA 1879 GCAA 330 UCCA 2001 GUUA 3537 UUUG 224 ACAA 1146 UUCG GGGA 3277 GUGA 353 CUUU 2249 GUGA 3539 GUCA 339 AAUA 1385 GAAA GUUA 4759 GAGA 445 ACCA 3173 GUAA 4119 UUGU 399 AUUA 1466 GAGA GUGA CCCC 1528 GCCA GUCA UUUU 408 AGUG 5764 UACG GAGA GAAA 1981 AAAG GAAA UCUU 421 AUAA Figure 12. Partial score calculation matrix for triloops (top) and common tetraloops (bottom). 93

107 The matrix is used to calculate the abundance score. For each triloop sequence, we have the occurrences in each of the 23 categories (example: triloop AAA there are 20 in 5S, 195 in 5.8S etc.). The log of the ratios occurrence/total number of loops are calculated for each cell of the matrix, then the average (seen at the bottom line) is used as an abundance score. Common motifs in one category are often among the most abundant in other categories as some tetraloops highlighted by different colors (bottom). Fro example, there are GAGA tetraloop in small subunit rrna, GAGA in 5S, 445 in riboswitch category etc. Occurrences were compiled from an earlier version of Rfam (version 9). Bottom line shows the total number of tetraloops in each category ( tetraloops in rrna-small subunit). Figure 13. Possible intermolecular interactions. (A) Small stem-loop model where the tetraloop changes. (B)-(C) Potential intermolecular base-pairs. Palindromic loops permit formation of uninterrupted helices. 94

108 Tables de scores S1 à S40 (supplementary data)

109 Biochemical scores Table S1. Terminal loops-size Range Median * Median = max score - range/2 * Centered score = score - range Loop size Score SD Centered Score Loop size Total loop count Category Total loop count S _8S Cis-reg Intron IRES leader riboswitch ribozyme snrna splicing SSU_rRNA_archaea SSU_rRNA_bacteria SSU_rRNA_eukarya T-box thermoregulator trna Page 1 Supplementary Tables S1-S20.xlsx

110 Biochemical scores Table S1. Terminal loops-size Page 2 Supplementary Tables S1-S20.xlsx

116 Biochemical scores Table S2. Bulges-size Range Median * Median = max score - range/2 * Centered score = score - range Bulge size Score SD Centered score Bulge size Total bulge count Category Total bulge count S _8S Cis-reg Intron IRES leader riboswitch ribozyme snrna splicing SSU_rRNA_archaea SSU_rRNA_bacteria SSU_rRNA_eukarya T-box thermoregulator trna Page 8 Supplementary Tables S1-S20.xlsx

117 Biochemical scores Table S2. Bulges-size Page 9 Supplementary Tables S1-S20.xlsx

118 Biochemical scores Table S3. Internal loops-size Range Median * Median = max score - range/2 * Centered score = score - range 5' size 3 'size Score SD Centered Score 5' size 3 'size Total i-loop count Category Total i-loop count S _8S Cis-reg Intron IRES leader riboswitch ribozyme snrna splicing SSU_rRNA_archaea SSU_rRNA_bacteria SSU_rRNA_eukarya T-box thermoregulator trna Page 10 Supplementary Tables S1-S20.xlsx

119 Biochemical scores Table S3. Internal loops-size Page 11 Supplementary Tables S1-S20.xlsx

141 Biochemical scores Table S4. Terminal loops Biloops Triloops Tetraloops Pentaloops Range Range Range Range Median Median Median Median Loop Score Centered score Loop Score Centered score Loop Score Centered score Loop Score Centered score UU CAU GAAA GUCAA AA UUA GAGA GUUAA AU UAU GCAA GAUAA UA UUU UUCG UUUUU UC AUU GUGA AAAUA AC UAA GUAA UUUAU CA AAA CUUG CUUGA AG GAA GCGA GAAAA UG ACA UUUU CUUGU GA UGU UACG UAAUU GG AAU UUUA CUCGA CU AGU UUUC CAUUG CC UUG UAAC CUCAA GU CUA GGAA GAAAG GC UCU GUCA CAAAA CG AUA UAAU CUUAA UGG UUUG AAACA CCU AAAA GACAA ACU AUAA CUCUG GCA UAUU UUUUA UUC ACAA UAACA CAA UAAA UAACU UAG GCAG UUAGU AAG AGCC CUUUG AUC GAAG CAAUG AUG GUUA UUCGG CUG UUAG UAAUA UGA UCCG CAAGU GUA GCAU GGAUA GUU UAUA AUUAA CAC AAAC CUCGU AAC GAUA GAAAU ACC AUUU UAACG UCG UUCU AUUUU UCC UUAU AAUAA CGA CAAA AAAGA GCC CUCG UUUGG CCC UAAG GGAGA ACG UUGU AGAAA UCA UGAA UUUAA CUU UUCA GAAUA AGA CAAG AAAAA GCU UUGC GUAUA UAC UGAG CAAUA GUC CUUU GGAAA GGG AAUA GUAAA CCG AGUA AUAAA AGC UUAA UUAAU CUC GACA AAAAC CCA AACA UUAAG GAU AAAU UUUCU CGC UGCG AUUUA Page 33 Supplementary Tables S1-S20.xlsx

142 Biochemical scores Table S4. Terminal loops CAG AUUA UCAGC GAG GGGA CUUGC CGU GGAG CUAUG GGA CUAG AUAAU UGC UACU CAAGA AGG UUGG CACUG GUG CUCU UUAGA GAC GUUU UAUAU GGU UUAC UUCUU GCG CUUC UUGAC GGC UCAA AAUUA CGG AAUU AAUGA AGCA CUAAA AGAA GAGAG AUCC UUUCC CGAA CAAAG CGUG UAAAA AAGA UAACC GACG UAAAU UAUG AACUA AAGU UAUAA GAAC GCAUA GCUA UUUGA GCCA CACGU AGCU UUUGU UCUU GCCAA UCAC GAAGA UGUU GAAAC ACAU GUAAU UCUG GGUUA CAUG GCAAG AACU GAACA CAUU AUAUA UAGA AAAAU CCCG UUUAC ACAG UAAGA CUAA GUCUA UCAG UUAUU GAGU UUCAA AUAU GUUUA GAGG UUAUA UCAU CAUAG GAAU AUUAG CAAC GAUGA CCUC AUCAA AUUG CCCAA GCUU CGUUG AUGA UUAGG UUCC ACCCA ACCC GUUUC CAGA UUCGU AUUC UUAGC GAUU GGGGA GGAU GCUAA UUGA UUUUG UCUC GAGUA Page 34 Supplementary Tables S1-S20.xlsx

143 Biochemical scores Table S4. Terminal loops GUAU CGAAA AAAG CUGAC UAGG UUAAA GUUG CUACG ACCU UAUUU CAAU CUUAG UGCU UCUUU CGCC AAAUC GUCU UUUCA ACUA UUCUA UGUG CUUCG AGUG GAGAA UAGU CUUGG UACA AUUAU GGUG CUAGC AUAC UGAAA UCCU UAAUG UCCA AAUAU UGAU CACCG ACAC GAGGA AAUG UUCCU AUCA UUGUG CUGG CACAA CCCC GGUAA GUAG AGAUA AACC CAUUA CACG CAACG CCAA CUAGU GGUA GUCAU ACGA CAAUU ACUU UUGAU UAUC CUCAG AUCU UACGA GUCC AAAUU CGAG AAGUA UACC GUCUG GGCA UUCUG CUUA CAAGC UGUA UUCGA CUGA UUCAU CUCC CGCUG AUAG UAUUA UGGU GGACA GGGU CACAU UCUA AACAA GGUU AUGUA CUCA GUAAG AGAU UUUUC CCUU GGGAA CACU CUUUU UCCC UCAGA CCUG GUCUU GAUG UCAGG CCAG UUAUG CACA GUGAA UGAC AAACC Page 35 Supplementary Tables S1-S20.xlsx

144 Biochemical scores Table S4. Terminal loops AAGG AAUUU GUCG UACUU CGUA CUAGA GCCU AUGAU AACG CUGGC CAUA GAAGU UGGA AGAAG CAGG UGAUA CUGU AUGAA GCAC CAAGG UGCC CAUUU AGAG UUUAG UAGC AGACA UCGC CAUGG CAGU GGCAA CCAU UAAUC GUUC CAUGA UGCA UUGGC GAGC CAGAG AAUC CAUAU GUGU CGCAA AGUU CACUA CUAU UGAAG GCGG AAACU AUCG ACAAA ACCA CCUAA AUGG AGAGA CCCA CGUGU UCGG GUUCA CCGA UAAAC GACU UAGAU AUGC GAUAU ACUG UUUGC AAGC UCAAC CCCU GUUAU AGCG GACGA AUGU AAGAA GCUG GCAAA GCCC UUAAC AGGA GUUUU GUGG CCUGA CCAC CAACA UGGC CUCGC CUGC GUGUA ACGG GUUGG UCGU UUCAC AGUC CGCAU GCGU CUUCA ACUC AGCAA GGGG AUUGU CGUU UCACU GGUC CAUGU GCUC UCGCU GUAC GAUUA GGCC UUCCA GGCU CGAGU Page 36 Supplementary Tables S1-S20.xlsx

145 Biochemical scores Table S4. Terminal loops UGGG GGAUG UCGA UGAAU GAUC UUGAA CUAC UUGGU UGUC UAGAC CCUA GUCGA CGCG CACUU CAGC CAGUG CCGC CACAG GGCG AACCC ACGU UCUAA CGCU GUUAG GGAC UCCAA CGCA GUAUU CACC UAAGU ACCG UUACG GCGC CUCAC CAUC AUAAG AGGU UGCCC CGAC AGCCC GCCG GCUUA CGGU UUCUC CCGU AAAGG CGGG AUUAC AGGC UCAUU AGAC AAAAG GACC GUAAC GGGC AAUCA CGAU AAUGU CGGC GGGUA CGGA AUCAU GUGC CAACU CGUC AACCA CCGG UACAA ACGC ACCCU AGGG UCAGU UUGCU CGAAG GUUUG CAUAA CUUUA UUGCC ACGUA AUCUU AUAGA UAAAG CCCUG CGCAG UAUCA GUCUC CCUGU CAAUC GCACA UUUCG ACCAU AUCCU UCAAA UACGU ACCUA UACAU UUACA Page 37 Supplementary Tables S1-S20.xlsx

146 Biochemical scores Table S4. Terminal loops Page 38 UGACC AACUU UGUAU CCAGU CUGGU CGUAA UCAAG UACCC GCUAU UGCUC UCCGG GUUCG AGUAG UGAUU AUAUU AGUUA UAUGA AUCUA CUAUU CCUUG UAUUC GCAAC CACGA AUUCA ACUAA AAAUG CAUCU UCCAU UUACC UUCGC UUCCG ACACA UCUCU GCUGA GUAGC UCAAU AUCAC AUACA GCUUU GGCCC CAAAU CGGUG AAUAG CCAUG UCCUA AUUUG AUAUC GUCAG AUCAG CUCGG UCUUA CGUUU CCCGC CCAGC GCGUA GCUUC GUACA ACAGA UUACU UCCGC CUUAU CACCC ACGAA AUAGC UGACU UCACC CUUAC UUCCC AUUGA Supplementary Tables S1-S20.xlsx

147 Biochemical scores Table S4. Terminal loops Page 39 UAUUG AUGAG CUAUA GAAUU CCUAG UCUCC GGAUU UAUGG GCGAG CCCGU UGCAC UGAGU GUAGA UCGGC CCAGA CAGCC CCAGG ACGAU GCCCC CUCAU AUAGU UCCCC UGCGA GGAAG CUCUC UGUGA GUCCA UCCUU CUCCG UGUAA UGUGU GGCUA CAUGC AUACU UACAC CUGGA GGAAC CGCGU CAGCA GGUUC UGGUA GCCUC AAAGU ACAAG UUCAG UACCA AUAGG ACUGG ACCCC AGUAA ACAGG UUGCA GCCAU UCAUA GAUCU CUAAG CUCCA GUUGA GUGGA AUUUC AAGCA AUGUG UACUG UAUAG UGAUC ACAUA GUCCU AGAAC CCUGG Supplementary Tables S1-S20.xlsx

148 Biochemical scores Table S4. Terminal loops Page 40 UCCAC GAAUC AUUGG UUGUA AUGGC UAUGU AUUCC UCUAC UACGG AUAUG ACUGA UGCAA UGGCU AAGUG CGAUA GACCC CAGUA GAUUC ACACG CGCCC AACUG ACUUA ACAGC UGAAC UAAGG UUGUU GCUCA CCUGC GUUGU GGUGA AAAGC GGUUU ACCAA UGUUC GAUAC GCGAA UCUCA UUAUC GUUCC UACUC GCCUA UCAUC CAUCG UAGCU UAUCU ACGAG GACCA GGAGG CCCUA UGUUU CUUCU AUCCA CGAUG GACUA ACGGA AACGG ACCUC ACCUU UCUGC CGCGA AUCGA AUAAC CUGUG AGUUU CUCUA CGUAG CCAUA UGUCC CCUCA Supplementary Tables S1-S20.xlsx

149 Biochemical scores Table S4. Terminal loops Page 41 GCCUU GCAGA GAUCC UGGAA UAUAC UGUAC GAUCA CUCCU UCGCG CAGGG CCAAA GCUUG UCACA AUGAC CACCU AGUCU AGGAA UCCCA UCCGU UAGCA AUCGC UUGAG UCGAA GCAAU UGCUU GACAU UACCU UCGAC CGUAU CUGUA CCAUU UGAGA CCGAC GUGAU UCUGA GCAGC UGCCA AGGAU CCCCA GUCAC AGAGC UCGGU GACGC CGAAU CGACA GCAUG CACGG CACGC UCCUG GAAUG UCCCU CUCUU UUGCG GGAAU AUUCU UUGGA GUUAC CCUAC ACCGG AACGU UAGUA UAGAA CUUUC GGUCA CCCUU GGAGU ACUUG GGCGA GAGAU Supplementary Tables S1-S20.xlsx

150 Biochemical scores Table S4. Terminal loops Page 42 AGGAG GUGCA CCUCG AACAU CCAUC CAUCA GUGAC UCAUG GUUCU ACUUC UGCAU AGCAU AUACG CCUUA CAUUC AAGGU GCUAG UGGAU CCACG CCCAG GCUAC CAAAC GAUGU UACUA UGUCU CCCGA AGAUG AAUCC CGUCU AGUCA ACUUU UGUUA GUAGU GACGU AGCCU AGUAU AGCCG GGCCA AGAAU GGCUC UCCUC GAUUG UCUAU ACUCA AGGUA UGUUG AGAUU UAUCC CCUUU UACAG UGACA UACCG UUGUC AAUAC GACUC AAGUC UGACG CCAAG AGUGA UAGUU AGCAG AAUGG GAGAC CUACA GGAUC CUGAA AUCUG AAUUC CGAGA Supplementary Tables S1-S20.xlsx

151 Biochemical scores Table S4. Terminal loops Page 43 GGCAU AUUCG AUCCG ACAAC AGCUU ACCAC GCCAG CGUGA UGGUU GAACC AAGGC AACUC ACGAC GCUGG CCUCU CUUCC UAAGC UACGC UCUUC ACUAG ACCUG UCACG AAUCU UUGGG UCUCG UAGGU CAGUU ACACC CAGGC GAACU CCACC CGCUU CGUCA CCUUC GGUCC AGCUA GCACG AGGAC CUAAC AGAGU AGUUC AAGCC ACUGU CUACC GAGUU AACCU GGACG AAGAG UCUGG GUAUG AUGGU GUCCC GAUAG CCAAU UCGUA UGCGU CAGAU CCUCC CAGAA GAACG UGAUG AUUGC AUCGG CGUGC GCCUG UGAGC AAGGG CUGAU GGUAU Supplementary Tables S1-S20.xlsx

152 Biochemical scores Table S4. Terminal loops Page 44 CUGAG GAAGG CUAGG GAAGC UGGGU GUCCG UCUUG GCCCG ACUAC UGGCC GUGAG CGCGC GUGGC ACCGC UGCUA ACGCA GGCAG CAGCG GACAG UAGAG CCGCC AUCUC CUACU GGUCG AAGAU CUCCC UAGGA AGGCC CGAGG CUGUC GUGGG UGGAG CAUCC UGAGG GAUUU UGUGC GACAC AAACG GCCCU CCACA UAGGC CGGAU UGGCA CCACU GCAGG CGCUA AUACC CUGCC CCCAC GUUGC CUAAU GUGCG AAGUU AGCCA GGCAC GGCUU AUCCC AAUUG GUCGC UCCGA CGAAC CUGCG CCUAU UAGCC CCGUG UCGCC GACCU CAGGA GCACC Supplementary Tables S1-S20.xlsx

153 Biochemical scores Table S4. Terminal loops Page 45 UCUGU CGCCU UGGGC AUGGG ACAAU AUCGU CGACG UGGGA UGUGG ACUCU GGUAG GCUCC AUGUU CGCUC AACAC GGGAG CCCUC UGCAG AGUCC AAGGA AGCGC CGCAC GAUCG ACAUU ACACU AUGGA AAGCU GGACU ACGGC CGGAA GAGGG CGCCA ACUAU CGACC GUAUC AACGA UCGAU GGAGC GUACG GCUGC AGCUG CCCGG GCAUU CGUGG GGCGG CGCCG GUAGG UGGUC ACAUC CACUC ACAGU UAUGC UGGAC GCUGU GGGAC UAGUG AGUGG GCAGU AGCAC CCCAU CGUCC GCCAC GGUGC CGUUC GCGGG GUGUG CCCCC GUCGG GGUGG Supplementary Tables S1-S20.xlsx

154 Biochemical scores Table S4. Terminal loops Page 46 AGUAC CGGAC AGAGG GCGUU GGCGC AGUUG CCCCG AAGAC AAGCG AGGGA UCGUU CACCA GAGCA GGACC CCGGC GACUU UCGUG GCCGC GCCGA GGCUG UCGCA AACAG ACGGG GCCCA GCUCU GUGGU UGCGC GUGCU GAGCC GAUGC ACCAG GCGAC UAUCG UGCUG GGGUG GGGUU CGUCG GAGGU UGGUG CAGAC GGGCA GCGCA UAGCG UGUAG ACAUG GGCGU CAACC UGUCA ACUCC GCGAU ACGUG GAGUG AGCGA CUGCA AGGGC CGCGG UCGUC CCGUA AUGUC GGCCU CUGUU ACCGU CGGAG CCAAC GGUUG CGAGC GUACU UAGUC AACGC Supplementary Tables S1-S20.xlsx

155 Biochemical scores Table S4. Terminal loops Page 47 ACGCG CAGUC UCGGA CUGGG UGCGG AUGCA AGGCA CGGGC CGGUA CACAC ACCCG GCGGA AGCUC CGUAC GCGUG GUCGU GCAUC UGGGG AUGCC GGUGU UGCCU GGGGG AGACC UCCAG CUAUC GCGGU GUGUU UCGGG GCGCC AGUGU GCGCG UAGGG AGCGG ACUGC CCCCU CCGAA AGGUU GAGUC GGCCG ACGUC GAGGC CCGCA UCCCG GCACU CUGCU UCGAG CCGCG GCUCG GGGCG CCGAU CGAUU GGUAC GUACC UGUCG CCGUU ACGUU CGGCC GGUCU AGACG CGUUA AUGCU CCGUC CGAUC CGGCA GCCGU UCUAG AGUCG GUGCC AGACU Supplementary Tables S1-S20.xlsx

156 Biochemical scores Table S4. Terminal loops AGGCU CAGGU GCGGC ACCGA CAUAC GAUGG GACUG GGGUC AACCG AAUCG CCGAG GACCG GCCGG UGCCG AGCGU GCGUC AGAUC AAUGC AGGGG AGGUC CGGGA GACGG ACGCC CAGCU CGGCG CGGGU GAGCG CCGGA GGGAU GUGUC AGUGC CGGCU CGGUC GGGCU UGGCG GCGCU ACGGU CGGUU ACGCU ACUCG AGGGU AGGCG CCGCU CCGGU CGGGG AGGUG CGACU GAGCU GGGCC AUGCG CCGGG GGGGC GGGGU Page 48 Supplementary Tables S1-S20.xlsx

157 Biochemical scores Table S5. Biloops Loop Score SD Loop Total loop count Supercategory Total loop count UU AA 5251 Intron 9625 AA AC 2334 Translation AU AG 2101 Cis -Reg 6151 UA AU 4482 UC CA 1950 AC CC 2117 CA CG 736 AG CU 1757 UG GA 1482 GA GC 1866 GG GG 2185 CU GU 1133 CC UA 3955 GU UC 8974 GC UG 1694 CG UU Page 49 Supplementary Tables S1-S20.xlsx

158 Biochemical scores Table S6. Triloops Loop Score SD Loop Total loop count Supercategory Total loop count CAU AAA 5306 Intron UUA AAC 2255 Translation UAU AAG 1904 Cis -Reg UUU AAU AUU ACA UAA ACC 1279 AAA ACG 1183 GAA ACU ACA AGA 919 UGU AGC 635 AAU AGG 647 AGU AGU UUG AUA 4104 CUA AUC 3145 UCU AUG 1714 AUA AUU UGG CAA 2043 CCU CAC 2037 ACU CAG 613 GCA CAU UUC CCA 586 CAA CCC 1769 UAG CCG 550 AAG CCU AUC CGA 1225 AUG CGC 1411 CUG CGG 100 UGA CGU 1363 GUA CUA 3138 GUU CUC 749 CAC CUG 2486 AAC CUU 1546 ACC GAA 7185 UCG GAC 393 UCC GAG 825 CGA GAU 1296 GCC GCA CCC GCC 1000 ACG GCG 367 UCA GCU 1704 CUU GGA 828 AGA GGC 161 GCU GGG 1767 UAC GGU 287 GUC GUA 3410 GGG GUC 728 CCG GUG 516 AGC GUU 1380 CUC UAA 8915 CCA UAC 2217 GAU UAG 1709 CGC UAU CAG UCA 1289 GAG UCC 1728 CGU UCG 2922 GGA UCU UGC UGA 2560 AGG UGC 400 GUG UGG 5676 GAC UGU 8242 GGU UUA GCG UUC 5565 GGC UUG 4509 CGG UUU Page 50 Supplementary Tables S1-S20.xlsx

159 Biochemical scores Table S7. Tetraloops Loop Score SD Loop Total loop count Supercategory Total loop count GAAA AAAA 8135 Intron GAGA AAAC Translation GCAA AAAG 1255 Cis -Reg UUCG AAAU 1865 GUGA AACA 3125 GUAA AACC 761 CUUG AACG 492 GCGA AACU 1015 UUUU AAGA 5161 UACG AAGC 373 UUUA AAGG 5033 UUUC AAGU 4721 UAAC AAUA 2693 GGAA AAUC 611 GUCA AAUG 820 UAAU AAUU 3177 UUUG ACAA AAAA ACAC 638 AUAA ACAG 1438 UAUU ACAU ACAA ACCA 325 UAAA ACCC 1486 GCAG ACCG 219 AGCC ACCU 1603 GAAG ACGA 1149 GUUA ACGC 38 UUAG ACGG 411 UCCG ACGU 128 GCAU ACUA 754 UAUA ACUC 258 AAAC ACUG 472 GAUA ACUU 746 AUUU AGAA 4657 UUCU AGAC 404 UUAU AGAG 543 CAAA AGAU 784 CUCG AGCA 1854 UAAG AGCC UUGU AGCG 347 UGAA AGCU 1922 UUCA AGGA 356 CAAG AGGC 187 UUGC AGGG 96 UGAG AGGU 136 CUUU AGUA 8519 AAUA AGUC 594 AGUA AGUG 6055 UUAA AGUU 611 GACA AUAA AACA AUAC 807 AAAU AUAG 703 UGCG AUAU 1615 AUUA AUCA 858 GGGA AUCC 6117 GGAG AUCG 440 CUAG AUCU 737 UACU AUGA 1745 UUGG AUGC 486 CUCU AUGG 326 GUUU AUGU 240 UUAC AUUA 4235 CUUC AUUC 2055 UCAA AUUG 2392 AAUU AUUU 5265 AGCA CAAA 4400 AGAA CAAC AUCC CAAG CGAA CAAU 2687 Page 51 Supplementary Tables S1-S20.xlsx

160 Biochemical scores Table S7. Tetraloops CGUG CACA 853 AAGA CACC 147 GACG CACG 3124 UAUG CACU 1251 AAGU CAGA 1040 GAAC CAGC 171 GCUA CAGG GCCA CAGU 339 AGCU CAUA 537 UCUU CAUC 238 UCAC CAUG 6389 UGUU CAUU ACAU CCAA 926 UCUG CCAC 224 CAUG CCAG 874 AACU CCAU 1301 CAUU CCCA 248 UAGA CCCC 1836 CCCG CCCG 2002 ACAG CCCU 258 CUAA CCGA 410 UCAG CCGC 129 GAGU CCGG 125 AUAU CCGU 192 GAGG CCUA 164 UCAU CCUC 979 GAAU CCUG 737 CAAC CCUU 559 CCUC CGAA 1824 AUUG CGAC 154 GCUU CGAG 2053 AUGA CGAU 253 UUCC CGCA 326 ACCC CGCC CAGA CGCG 219 AUUC CGCU 181 GAUU CGGA 284 GGAU CGGC 69 UUGA CGGG 414 UCUC CGGU 484 GUAU CGUA 813 AAAG CGUC 60 UAGG CGUG 6806 GUUG CGUU 224 ACCU CUAA 1437 CAAU CUAC 351 UGCU CUAG CGCC CUAU 611 GUCU CUCA 720 ACUA CUCC 675 UGUG CUCG AGUG CUCU 1806 UAGU CUGA 930 UACA CUGC 246 GGUG CUGG 726 AUAC CUGU 427 UCCU CUUA 815 UCCA CUUC 2407 UGAU CUUG ACAC CUUU 2177 AAUG GAAA AUCA GAAC 3575 CUGG GAAG CCCC GAAU 1794 GUAG GACA 6284 AACC GACC 139 CACG GACG 3039 CCAA GACU 1419 GGUA GAGA Page 52 Supplementary Tables S1-S20.xlsx

161 Biochemical scores Table S7. Tetraloops ACGA GAGC 1468 ACUU GAGG 3876 UAUC GAGU 1851 AUCU GAUA 5027 GUCC GAUC 211 CGAG GAUG 1928 UACC GAUU 1955 GGCA GCAA CUUA GCAC 1089 UGUA GCAG CUGA GCAU CUCC GCCA 1282 AUAG GCCC 279 UGGU GCCG 245 GGGU GCCU 1331 UCUA GCGA GGUU GCGC 139 CUCA GCGG 685 AGAU GCGU 487 CCUU GCUA 2587 CACU GCUC 304 UCCC GCUG 566 CCUG GCUU 1126 GAUG GGAA CCAG GGAC 146 CACA GGAG 4855 UGAC GGAU 1849 AAGG GGCA 1711 GUCG GGCC 681 CGUA GGCG 453 GCCU GGCU 248 AACG GGGA CAUA GGGC 374 UGGA GGGG 412 CAGG GGGU 1375 CUGU GGUA 1133 GCAC GGUC 316 UGCC GGUG 2924 AGAG GGUU 1205 UAGC GUAA UCGC GUAC 327 CAGU GUAG 5960 CCAU GUAU 1014 GUUC GUCA UGCA GUCC 609 GAGC GUCG 519 AAUC GUCU 2152 GUGU GUGA AGUU GUGC 202 CUAU GUGG 1309 GCGG GUGU 612 AUCG GUUA ACCA GUUC 691 AUGG GUUG 1467 CCCA GUUU 3670 UCGG UAAA 5774 CCGA UAAC GACU UAAG AUGC UAAU ACUG UACA 990 AAGC UACC 2992 CCCU UACG AGCG UACU 4317 AUGU UAGA 5602 GCUG UAGC 1724 GCCC UAGG AGGA UAGU 1569 GUGG UAUA 4662 CCAC UAUC 1751 Page 53 Supplementary Tables S1-S20.xlsx

162 Biochemical scores Table S7. Tetraloops UGGC UAUG 5535 CUGC UAUU ACGG UCAA 6570 UCGU UCAC 7350 AGUC UCAG 3863 GCGU UCAU 4365 ACUC UCCA 748 GGGG UCCC 733 CGUU UCCG GGUC UCCU 2106 GCUC UCGA 950 GUAC UCGC 1363 GGCC UCGG 1077 GGCU UCGU 825 UGGG UCUA 557 UCGA UCUC 860 GAUC UCUG 4133 CUAC UCUU 1465 UGUC UGAA CCUA UGAC 1301 CGCG UGAG CAGC UGAU 998 CCGC UGCA 494 GGCG UGCC 526 ACGU UGCG CGCU UGCU 687 GGAC UGGA 1079 CGCA UGGC 216 CACC UGGG 902 ACCG UGGU 1045 GCGC UGUA 578 CAUC UGUC 192 AGGU UGUG 1666 CGAC UGUU 2330 GCCG UUAA 5344 CGGU UUAC CCGU UUAG CGGG UUAU 8020 AGGC UUCA 5032 AGAC UUCC 1887 GACC UUCG GGGC UUCU 7159 CGAU UUGA 3622 CGGC UUGC 4439 CGGA UUGG 1516 GUGC UUGU CGUC UUUA CCGG UUUC ACGC UUUG AGGG UUUU Page 54 Supplementary Tables S1-S20.xlsx

163 Biochemical scores Table S8. Pentaloops Loop Score SD Loop Total loop count Supercategory Total loop count GUCAA AAAAA 1481 Intron GUUAA AAAAC 598 Translation GAUAA AAAAG 459 Cis -Reg UUUUU AAAAU 651 AAAUA AAACA 9389 UUUAU AAACC 288 CUUGA AAACG 28 GAAAA AAACU 889 CUUGU AAAGA 567 UAAUU AAAGC 85 CUCGA AAAGG 146 CAUUG AAAGU 209 CUCAA AAAUA GAAAG AAAUC 279 CAAAA AAAUG 113 CUUAA AAAUU 406 AAACA AACAA 2657 GACAA AACAC 77 CUCUG AACAG 17 UUUUA AACAU 106 UAACA AACCA UAACU AACCC 124 UUAGU AACCG 9 CUUUG AACCU 29 CAAUG AACGA 80 UUCGG AACGC 10 UAAUA AACGG 142 CAAGU AACGU 89 GGAUA AACUA 2452 AUUAA AACUC 40 CUCGU AACUG 88 GAAAU AACUU 102 UAACG AAGAA 1007 AUUUU AAGAC 17 AAUAA AAGAG 24 AAAGA AAGAU 46 UUUGG AAGCA 307 GGAGA AAGCC 80 AGAAA AAGCG 13 UUUAA AAGCU 21 GAAUA AAGGA 219 AAAAA AAGGC 37 GUAUA AAGGG 31 CAAUA AAGGU 32 GGAAA AAGUA 2335 GUAAA AAGUC 30 AUAAA AAGUG 50 UUAAU AAGUU 44 AAAAC AAUAA 7896 UUAAG AAUAC 78 UUUCU AAUAG 78 AUUUA AAUAU 236 UCAGC AAUCA 1091 CUUGC AAUCC 97 CUAUG AAUCG 9 AUAAU AAUCU 48 CAAGA AAUGA 660 CACUG AAUGC 7 UUAGA AAUGG 80 UAUAU AAUGU 188 UUCUU AAUUA UUGAC AAUUC 31 AAUUA AAUUG 64 AAUGA AAUUU 212 CUAAA ACAAA 407 GAGAG ACAAC 56 UUUCC ACAAG 61 CAAAG ACAAU 54 Page 55 Supplementary Tables S1-S20.xlsx

164 Biochemical scores Table S8. Pentaloops UAAAA ACACA 82 UAACC ACACC 36 UAAAU ACACG 120 AACUA ACACU 36 UAUAA ACAGA 117 GCAUA ACAGC 105 UUUGA ACAGG 261 CACGU ACAGU 18 UUUGU ACAUA 62 GCCAA ACAUC 57 GAAGA ACAUG 12 GAAAC ACAUU 45 GUAAU ACCAA 460 GGUUA ACCAC 40 GCAAG ACCAG 27 GAACA ACCAU 128 AUAUA ACCCA 325 AAAAU ACCCC 636 UUUAC ACCCG 23 UAAGA ACCCU 1222 GUCUA ACCGA 11 UUAUU ACCGC 53 UUCAA ACCGG 133 GUUUA ACCGU 18 UUAUA ACCUA 198 CAUAG ACCUC 115 AUUAG ACCUG 46 GAUGA ACCUU 53 AUCAA ACGAA 187 CCCAA ACGAC 29 CGUUG ACGAG 115 UUAGG ACGAU 181 ACCCA ACGCA 93 GUUUC ACGCC 17 UUCGU ACGCG 10 UUAGC ACGCU 4 GGGGA ACGGA 72 GCUAA ACGGC 22 UUUUG ACGGG 17 GAGUA ACGGU 4 CGAAA ACGUA 187 CUGAC ACGUC 12 UUAAA ACGUG 11 CUACG ACGUU 8 UAUUU ACUAA 597 CUUAG ACUAC 48 UCUUU ACUAG 37 AAAUC ACUAU 21 UUUCA ACUCA 63 UUCUA ACUCC 15 CUUCG ACUCG 4 GAGAA ACUCU 25 CUUGG ACUGA 91 AUUAU ACUGC 10 CUAGC ACUGG 1218 UGAAA ACUGU 39 UAAUG ACUUA 84 AAUAU ACUUC 90 CACCG ACUUG 50 GAGGA ACUUU 44 UUCCU AGAAA 736 UUGUG AGAAC 58 CACAA AGAAG 234 GGUAA AGAAU 81 AGAUA AGACA 316 CAUUA AGACC 30 CAACG AGACG 9 CUAGU AGACU 8 GUCAU AGAGA 235 Page 56 Supplementary Tables S1-S20.xlsx

165 Biochemical scores Table S8. Pentaloops CAAUU AGAGC 91 UUGAU AGAGG 27 CUCAG AGAGU 39 UACGA AGAUA 309 AAAUU AGAUC 7 AAGUA AGAUG 61 GUCUG AGAUU 45 UUCUG AGCAA 405 CAAGC AGCAC 89 UUCGA AGCAG 44 UUCAU AGCAU 34 CGCUG AGCCA 43 UAUUA AGCCC 524 GGACA AGCCG 59 CACAU AGCCU 35 AACAA AGCGA 36 AUGUA AGCGC 22 GUAAG AGCGG 26 UUUUC AGCGU 6 GGGAA AGCUA 146 CUUUU AGCUC 14 UCAGA AGCUG 17 GUCUU AGCUU 179 UCAGG AGGAA 63 UUAUG AGGAC 70 GUGAA AGGAG 62 AAACC AGGAU 86 AAUUU AGGCA 19 UACUU AGGCC 55 CUAGA AGGCG 3 AUGAU AGGCU 7 CUGGC AGGGA 39 GAAGU AGGGC 14 AGAAG AGGGG 7 UGAUA AGGGU 9 AUGAA AGGUA 325 CAAGG AGGUC 7 CAUUU AGGUG 5 UUUAG AGGUU 15 AGACA AGUAA 149 CAUGG AGUAC 16 GGCAA AGUAG 137 UAAUC AGUAU 48 CAUGA AGUCA 62 UUGGC AGUCC 29 CAGAG AGUCG 12 CAUAU AGUCU 82 CGCAA AGUGA 66 CACUA AGUGC 5 UGAAG AGUGG 92 AAACU AGUGU 8 ACAAA AGUUA 673 CCUAA AGUUC 51 AGAGA AGUUG 18 CGUGU AGUUU 238 GUUCA AUAAA 1280 UAAAC AUAAC 93 UAGAU AUAAG 1176 GAUAU AUAAU 6236 UUUGC AUACA 322 UCAAC AUACC 62 GUUAU AUACG 82 GACGA AUACU 250 AAGAA AUAGA 514 GCAAA AUAGC 203 UUAAC AUAGG 116 GUUUU AUAGU 99 CCUGA AUAUA 1075 CAACA AUAUC 714 Page 57 Supplementary Tables S1-S20.xlsx

166 Biochemical scores Table S8. Pentaloops CUCGC AUAUG 703 GUGUA AUAUU 626 GUUGG AUCAA 2465 UUCAC AUCAC 117 CGCAU AUCAG 103 CUUCA AUCAU 259 AGCAA AUCCA 266 AUUGU AUCCC 54 UCACU AUCCG 33 CAUGU AUCCU 328 UCGCU AUCGA 98 GAUUA AUCGC 48 UUCCA AUCGG 33 CGAGU AUCGU 17 GGAUG AUCUA 384 UGAAU AUCUC 37 UUGAA AUCUG 408 UUGGU AUCUU 181 UAGAC AUGAA 685 GUCGA AUGAC 76 CACUU AUGAG 147 CAGUG AUGAU 242 CACAG AUGCA 41 AACCC AUGCC 14 UCUAA AUGCG 3 GUUAG AUGCU 5 UCCAA AUGGA 28 GUAUU AUGGC 150 UAAGU AUGGG 17 UUACG AUGGU 59 CUCAC AUGUA 439 AUAAG AUGUC 9 UGCCC AUGUG 71 AGCCC AUGUU 18 GCUUA AUUAA 4582 UUCUC AUUAC 174 AAAGG AUUAG 515 AUUAC AUUAU 297 UCAUU AUUCA 357 AAAAG AUUCC 108 GUAAC AUUCG 104 AAUCA AUUCU 44 AAUGU AUUGA 141 GGGUA AUUGC 30 AUCAU AUUGG 63 CAACU AUUGU 194 AACCA AUUUA 1101 UACAA AUUUC 109 ACCCU AUUUG 128 UCAGU AUUUU 996 UUGCU CAAAA 1281 CGAAG CAAAC 125 GUUUG CAAAG CAUAA CAAAU 177 CUUUA CAACA 184 UUGCC CAACC 31 ACGUA CAACG 295 AUCUU CAACU 218 AUAGA CAAGA 630 UAAAG CAAGC 230 CCCUG CAAGG 1292 CGCAG CAAGU 629 UAUCA CAAUA 7372 GUCUC CAAUC 168 CCUGU CAAUG 3732 CAAUC CAAUU 2239 GCACA CACAA 807 UUUCG CACAC 16 ACCAU CACAG 2171 Page 58 Supplementary Tables S1-S20.xlsx

167 Biochemical scores Table S8. Pentaloops AUCCU CACAU 221 UCAAA CACCA 14 UACGU CACCC 651 ACCUA CACCG 285 UACAU CACCU 83 UUACA CACGA 650 UGACC CACGC 156 AACUU CACGG 374 UGUAU CACGU 1007 CCAGU CACUA 658 CUGGU CACUC 18 CGUAA CACUG 1948 UCAAG CACUU 653 UACCC CAGAA 40 GCUAU CAGAC 26 UGCUC CAGAG 2452 UCCGG CAGAU 344 GUUCG CAGCA 86 AGUAG CAGCC 96 UGAUU CAGCG 74 AUAUU CAGCU 5 AGUUA CAGGA 24 UAUGA CAGGC 49 AUCUA CAGGG 665 CUAUU CAGGU 7 CCUUG CAGUA 466 UAUUC CAGUC 10 GCAAC CAGUG 2976 CACGA CAGUU 39 AUUCA CAUAA 322 ACUAA CAUAC 11 AAAUG CAUAG 1530 CAUCU CAUAU 593 UCCAU CAUCA 124 UUACC CAUCC 54 UUCGC CAUCG 102 UUCCG CAUCU 168 ACACA CAUGA 418 UCUCU CAUGC 82 GCUGA CAUGG 2681 GUAGC CAUGU 210 UCAAU CAUUA 336 AUCAC CAUUC 43 AUACA CAUUG 3902 GCUUU CAUUU 239 GGCCC CCAAA 70 CAAAU CCAAC 30 CGGUG CCAAG 235 AAUAG CCAAU 26 CCAUG CCACA 33 UCCUA CCACC 67 AUUUG CCACG 56 AUAUC CCACU 19 GUCAG CCAGA 70 AUCAG CCAGC 119 CUCGG CCAGG 552 UCUUA CCAGU 124 CGUUU CCAUA 79 CCCGC CCAUC 130 CCAGC CCAUG 154 GCGUA CCAUU 438 GCUUC CCCAA 8299 GUACA CCCAC 30 ACAGA CCCAG 67 UUACU CCCAU 87 UCCGC CCCCA 50 CUUAU CCCCC 13 CACCC CCCCG 16 ACGAA CCCCU 13 Page 59 Supplementary Tables S1-S20.xlsx

168 Biochemical scores Table S8. Pentaloops AUAGC CCCGA 200 UGACU CCCGC 180 UCACC CCCGG 45 CUUAC CCCGU 416 UUCCC CCCUA 75 AUUGA CCCUC 29 UAUUG CCCUG 148 AUGAG CCCUU 42 CUAUA CCGAA 25 GAAUU CCGAC 43 CCUAG CCGAG 9 UCUCC CCGAU 15 GGAUU CCGCA 22 UAUGG CCGCC 48 GCGAG CCGCG 9 CCCGU CCGCU 3 UGCAC CCGGA 6 UGAGU CCGGC 12 GUAGA CCGGG 3 UCGGC CCGGU 3 CCAGA CCGUA 26 CAGCC CCGUC 13 CCAGG CCGUG 63 ACGAU CCGUU 14 GCCCC CCUAA 1142 CUCAU CCUAC 197 AUAGU CCUAG 641 UCCCC CCUAU 18 UGCGA CCUCA 59 GGAAG CCUCC 34 CUCUC CCUCG 65 UGUGA CCUCU 29 GUCCA CCUGA 515 UCCUU CCUGC 120 CUCCG CCUGG 115 UGUAA CCUGU 228 UGUGU CCUUA 43 GGCUA CCUUC 31 CAUGC CCUUG 271 AUACU CCUUU 34 UACAC CGAAA 684 CUGGA CGAAC 125 GGAAC CGAAG 1092 CGCGU CGAAU 38 CAGCA CGACA 45 GGUUC CGACC 18 UGGUA CGACG 64 GCCUC CGACU 4 AAAGU CGAGA 114 ACAAG CGAGC 12 UUCAG CGAGG 75 UACCA CGAGU 196 AUAGG CGAUA 201 ACUGG CGAUC 5 ACCCC CGAUG 214 AGUAA CGAUU 15 ACAGG CGCAA 1182 UUGCA CGCAC 23 GCCAU CGCAG 325 UCAUA CGCAU 130 GAUCU CGCCA 31 CUAAG CGCCC 54 CUCCA CGCCG 15 GUUGA CGCCU 16 GUGGA CGCGA 241 AUUUC CGCGC 25 AAGCA CGCGG 27 AUGUG CGCGU 56 UACUG CGCUA 25 Page 60 Supplementary Tables S1-S20.xlsx

169 Biochemical scores Table S8. Pentaloops UAUAG CGCUC 16 UGAUC CGCUG 945 ACAUA CGCUU 35 GUCCU CGGAA 42 AGAAC CGGAC 34 CCUGG CGGAG 31 UCCAC CGGAU 71 GAAUC CGGCA 5 AUUGG CGGCC 8 UUGUA CGGCG 5 AUGGC CGGCU 5 UAUGU CGGGA 7 AUUCC CGGGC 9 UCUAC CGGGG 7 UACGG CGGGU 6 AUAUG CGGUA 15 ACUGA CGGUC 5 UGCAA CGGUG 276 UGGCU CGGUU 11 AAGUG CGUAA 441 CGAUA CGUAC 15 GACCC CGUAG 111 CAGUA CGUAU 80 GAUUC CGUCA 55 ACACG CGUCC 15 CGCCC CGUCG 14 AACUG CGUCU 45 ACUUA CGUGA 124 ACAGC CGUGC 22 UGAAC CGUGG 36 UAAGG CGUGU 246 UUGUU CGUUA 13 GCUCA CGUUC 62 CCUGC CGUUG 1142 GUUGU CGUUU 143 GGUGA CUAAA 1475 AAAGC CUAAC 303 GGUUU CUAAG 480 ACCAA CUAAU 47 UGUUC CUACA 126 GAUAC CUACC 390 GCGAA CUACG 5999 UCUCA CUACU 25 UUAUC CUAGA 1021 GUUCC CUAGC 1986 UACUC CUAGG 292 GCCUA CUAGU 1636 UCAUC CUAUA 287 CAUCG CUAUC 29 UAGCU CUAUG UAUCU CUAUU 1396 ACGAG CUCAA GACCA CUCAC 892 GGAGG CUCAG 935 CCCUA CUCAU 152 UGUUU CUCCA 246 CUUCU CUCCC 30 AUCCA CUCCG 271 CGAUG CUCCU 100 GACUA CUCGA 2250 ACGGA CUCGC 2333 AACGG CUCGG 3344 ACCUC CUCGU 3792 ACCUU CUCUA 123 UCUGC CUCUC 62 CGCGA CUCUG 3084 AUCGA CUCUU 43 AUAAC CUGAA 139 CUGUG CUGAC 9173 Page 61 Supplementary Tables S1-S20.xlsx

170 Biochemical scores Table S8. Pentaloops AGUUU CUGAG 74 CUCUA CUGAU 64 CGUAG CUGCA 14 CCAUA CUGCC 38 UGUCC CUGCG 82 CCUCA CUGCU 10 GCCUU CUGGA 247 GCAGA CUGGC 150 GAUCC CUGGG 18 UGGAA CUGGU 102 UAUAC CUGUA 51 UGUAC CUGUC 38 GAUCA CUGUG 88 CUCCU CUGUU 13 UCGCG CUUAA CAGGG CUUAC 679 CCAAA CUUAG 1909 GCUUG CUUAU 123 UCACA CUUCA 405 AUGAC CUUCC 35 CACCU CUUCG 820 AGUCU CUUCU 79 AGGAA CUUGA UCCCA CUUGC 5851 UCCGU CUUGG 1748 UAGCA CUUGU AUCGC CUUUA 249 UUGAG CUUUC 41 UCGAA CUUUG 3702 GCAAU CUUUU 220 UGCUU GAAAA 2196 GACAU GAAAC 336 UACCU GAAAG UCGAC GAAAU 772 CGUAU GAACA 2303 CUGUA GAACC 48 CCAUU GAACG 23 UGAGA GAACU 31 CCGAC GAAGA 1622 GUGAU GAAGC 290 UCUGA GAAGG 494 GCAGC GAAGU 675 UGCCA GAAUA 920 AGGAU GAAUC 58 CCCCA GAAUG 155 GUCAC GAAUU 295 AGAGC GACAA UCGGU GACAC 71 GACGC GACAG 134 CGAAU GACAU 270 CGACA GACCA 191 GCAUG GACCC 62 CACGG GACCG 9 CACGC GACCU 92 UCCUG GACGA 1422 GAAUG GACGC 124 UCCCU GACGG 18 CUCUU GACGU 67 UUGCG GACUA 1401 GGAAU GACUC 37 AUUCU GACUG 27 UUGGA GACUU 23 GUUAC GAGAA 1951 CCUAC GAGAC 47 ACCGG GAGAG 1166 AACGU GAGAU 77 UAGUA GAGCA 31 UAGAA GAGCC 12 CUUUC GAGCG 6 Page 62 Supplementary Tables S1-S20.xlsx

171 Biochemical scores Table S8. Pentaloops GGUCA GAGCU 4 CCCUU GAGGA 678 GGAGU GAGGC 12 ACUUG GAGGG 36 GGCGA GAGGU 14 GAGAU GAGUA 527 AGGAG GAGUC 23 GUGCA GAGUG 19 CCUCG GAGUU 31 AACAU GAUAA CCAUC GAUAC 69 CAUCA GAUAG 140 GUGAC GAUAU 223 UCAUG GAUCA 67 GUUCU GAUCC 48 ACUUC GAUCG 215 UGCAU GAUCU 81 AGCAU GAUGA 2050 AUACG GAUGC 14 CCUUA GAUGG 10 CAUUC GAUGU 54 AAGGU GAUUA 753 GCUAG GAUUC 81 UGGAU GAUUG 87 CCACG GAUUU 50 CCCAG GCAAA 740 GCUAC GCAAC 244 CAAAC GCAAG GAUGU GCAAU 368 UACUA GCACA 93 UGUCU GCACC 19 CCCGA GCACG 34 AGAUG GCACU 21 AAUCC GCAGA 132 CGUCU GCAGC 63 AGUCA GCAGG 66 ACUUU GCAGU 32 UGUUA GCAUA 307 GUAGU GCAUC 99 GACGU GCAUG 66 AGCCU GCAUU 60 AGUAU GCCAA 1635 AGCCG GCCAC 15 GGCCA GCCAG 48 AGAAU GCCAU 71 GGCUC GCCCA 25 UCCUC GCCCC 238 GAUUG GCCCG 32 UCUAU GCCCU 28 ACUCA GCCGA 45 AGGUA GCCGC 12 UGUUG GCCGG 6 AGAUU GCCGU 5 UAUCC GCCUA 401 CCUUU GCCUC 116 UACAG GCCUG 34 UGACA GCCUU 238 UACCG GCGAA 252 UUGUC GCGAC 28 AAUAC GCGAG 417 GACUC GCGAU 61 AAGUC GCGCA 17 UGACG GCGCC 11 CCAAG GCGCG 8 AGUGA GCGCU 3 UAGUU GCGGA 36 AGCAG GCGGC 7 AAUGG GCGGG 34 GAGAC GCGGU 13 Page 63 Supplementary Tables S1-S20.xlsx

172 Biochemical scores Table S8. Pentaloops CUACA GCGUA 116 GGAUC GCGUC 22 CUGAA GCGUG 15 AUCUG GCGUU 27 AAUUC GCUAA 6237 CGAGA GCUAC 95 GGCAU GCUAG 116 AUUCG GCUAU 90 AUCCG GCUCA 271 ACAAC GCUCC 21 AGCUU GCUCG 9 ACCAC GCUCU 21 GCCAG GCUGA 280 CGUGA GCUGC 24 UGGUU GCUGG 35 GAACC GCUGU 22 AAGGC GCUUA 1557 AACUC GCUUC 110 ACGAC GCUUG 69 GCUGG GCUUU 103 CCUCU GGAAA 742 CUUCC GGAAC 58 UAAGC GGAAG 406 UACGC GGAAU 65 UCUUC GGACA 994 ACUAG GGACC 28 ACCUG GGACG 35 UCACG GGACU 35 AAUCU GGAGA 556 UUGGG GGAGC 19 UCUCG GGAGG 247 UAGGU GGAGU 139 CAGUU GGAUA ACACC GGAUC 77 CAGGC GGAUG 382 GAACU GGAUU 120 CCACC GGCAA 763 CGCUU GGCAC 41 CGUCA GGCAG 63 CCUUC GGCAU 45 GGUCC GGCCA 50 AGCUA GGCCC 768 GCACG GGCCG 7 AGGAC GGCCU 13 CUAAC GGCGA 48 AGAGU GGCGC 26 AGUUC GGCGG 59 AAGCC GGCGU 12 ACUGU GGCUA 86 CUACC GGCUC 116 GAGUU GGCUG 17 AACCU GGCUU 21 GGACG GGGAA 383 AAGAG GGGAC 33 UCUGG GGGAG 79 GUAUG GGGAU 6 AUGGU GGGCA 14 GUCCC GGGCC 4 GAUAG GGGCG 7 CCAAU GGGCU 5 UCGUA GGGGA 471 UGCGU GGGGC 3 CAGAU GGGGG 13 CCUCC GGGGU 3 CAGAA GGGUA 150 GAACG GGGUC 7 UGAUG GGGUG 18 AUUGC GGGUU 13 AUCGG GGUAA 778 Page 64 Supplementary Tables S1-S20.xlsx

173 Biochemical scores Table S8. Pentaloops CGUGC GGUAC 15 GCCUG GGUAG 32 UGAGC GGUAU 25 AAGGG GGUCA 51 CUGAU GGUCC 46 GGUAU GGUCG 19 CUGAG GGUCU 8 GAAGG GGUGA 126 CUAGG GGUGC 20 GAAGC GGUGG 22 UGGGU GGUGU 8 GUCCG GGUUA 369 UCUUG GGUUC 74 GCCCG GGUUG 12 ACUAC GGUUU 83 UGGCC GUAAA 1173 GUGAG GUAAC 201 CGCGC GUAAG 1345 GUGGC GUAAU 1516 ACCGC GUACA 153 UGCUA GUACC 10 ACGCA GUACG 78 GGCAG GUACU 17 CAGCG GUAGA 1442 GACAG GUAGC 391 UAGAG GUAGG 35 CCGCC GUAGU 159 AUCUC GUAUA 1689 CUACU GUAUC 43 GGUCG GUAUG 75 AAGAU GUAUU 458 CUCCC GUCAA UAGGA GUCAC 68 AGGCC GUCAG 143 CGAGG GUCAU 2349 CUGUC GUCCA 304 GUGGG GUCCC 43 UGGAG GUCCG 43 CAUCC GUCCU 78 UGAGG GUCGA 313 GAUUU GUCGC 20 UGUGC GUCGG 45 GACAC GUCGU 22 AAACG GUCUA 6094 GCCCU GUCUC 348 CCACA GUCUG 1956 UAGGC GUCUU 267 CGGAU GUGAA 1307 UGGCA GUGAC 255 CCACU GUGAG 75 GCAGG GUGAU 67 CGCUA GUGCA 66 AUACC GUGCC 12 CUGCC GUGCG 39 CCCAC GUGCU 26 GUUGC GUGGA 200 CUAAU GUGGC 25 GUGCG GUGGG 35 AAGUU GUGGU 25 AGCCA GUGUA 755 GGCAC GUGUC 6 GGCUU GUGUG 30 AUCCC GUGUU 29 AAUUG GUUAA GUCGC GUUAC 84 UCCGA GUUAG 309 CGAAC GUUAU 229 CUGCG GUUCA 1585 CCUAU GUUCC 77 Page 65 Supplementary Tables S1-S20.xlsx

174 Biochemical scores Table S8. Pentaloops UAGCC GUUCG 150 CCGUG GUUCU 54 UCGCC GUUGA 212 GACCU GUUGC 30 CAGGA GUUGG 130 GCACC GUUGU 478 UCUGU GUUUA 7487 CGCCU GUUUC 786 UGGGC GUUUG 223 AUGGG GUUUU 216 ACAAU UAAAA 1192 AUCGU UAAAC 439 CGACG UAAAG 419 UGGGA UAAAU 757 UGUGG UAACA 1167 ACUCU UAACC 337 GGUAG UAACG 2353 GCUCC UAACU 983 AUGUU UAAGA 391 CGCUC UAAGC 40 AACAC UAAGG 525 GGGAG UAAGU 249 CCCUC UAAUA 677 UGCAG UAAUC 277 AGUCC UAAUG 402 AAGGA UAAUU AGCGC UACAA 636 CGCAC UACAC 68 GAUCG UACAG 58 ACAUU UACAU 107 ACACU UACCA 117 AUGGA UACCC 156 AAGCU UACCG 51 GGACU UACCU 60 ACGGC UACGA 2314 CGGAA UACGC 68 GAGGG UACGG 1162 CGCCA UACGU 669 ACUAU UACUA 98 CGACC UACUC 62 GUAUC UACUG 55 AACGA UACUU 299 UCGAU UAGAA 90 GGAGC UAGAC 238 GUACG UAGAG 81 GCUGC UAGAU 241 AGCUG UAGCA 71 CCCGG UAGCC 18 GCAUU UAGCG 12 CGUGG UAGCU 114 GGCGG UAGGA 22 CGCCG UAGGC 35 GUAGG UAGGG 14 UGGUC UAGGU 67 ACAUC UAGUA 40 CACUC UAGUC 22 ACAGU UAGUG 33 UAUGC UAGUU 45 UGGAC UAUAA 1471 GCUGU UAUAC 91 GGGAC UAUAG 69 UAGUG UAUAU 1697 AGUGG UAUCA 169 GCAGU UAUCC 43 AGCAC UAUCG 28 CCCAU UAUCU 85 CGUCC UAUGA 634 GCCAC UAUGC 16 GGUGC UAUGG 189 Page 66 Supplementary Tables S1-S20.xlsx

175 Biochemical scores Table S8. Pentaloops CGUUC UAUGU 315 GCGGG UAUUA 893 GUGUG UAUUC 151 CCCCC UAUUG 79 GUCGG UAUUU 564 GGUGG UCAAA 134 AGUAC UCAAC 139 CGGAC UCAAG 103 AGAGG UCAAU 185 GCGUU UCACA 39 GGCGC UCACC 72 AGUUG UCACG 44 CCCCG UCACU 542 AAGAC UCAGA 359 AAGCG UCAGC 937 AGGGA UCAGG 1228 UCGUU UCAGU 154 CACCA UCAUA 83 GAGCA UCAUC 64 GGACC UCAUG 51 CCGGC UCAUU 188 GACUU UCCAA 500 UCGUG UCCAC 106 GCCGC UCCAG 19 GCCGA UCCAU 368 GGCUG UCCCA 52 UCGCA UCCCC 118 AACAG UCCCG 22 ACGGG UCCCU 77 GCCCA UCCGA 288 GCUCU UCCGC 68 GUGGU UCCGG 5365 UGCGC UCCGU 241 GUGCU UCCUA 770 GAGCC UCCUC 29 GAUGC UCCUG 42 ACCAG UCCUU 79 GCGAC UCGAA 260 UAUCG UCGAC 285 UGCUG UCGAG 20 GGGUG UCGAU 47 GGGUU UCGCA 35 CGUCG UCGCC 30 GAGGU UCGCG 49 UGGUG UCGCU 334 CAGAC UCGGA 45 GGGCA UCGGC 158 GCGCA UCGGG 29 UAGCG UCGGU 39 UGUAG UCGUA 28 ACAUG UCGUC 27 GGCGU UCGUG 24 CAACC UCGUU 25 UGUCA UCUAA 396 ACUCC UCUAC 148 GCGAU UCUAG 13 ACGUG UCUAU 85 GAGUG UCUCA 95 AGCGA UCUCC 77 CUGCA UCUCG 71 AGGGC UCUCU 115 CGCGG UCUGA 55 UCGUC UCUGC 90 CCGUA UCUGG 76 AUGUC UCUGU 25 GGCCU UCUUA 229 CUGUU UCUUC 93 ACCGU UCUUG 32 CGGAG UCUUU 403 Page 67 Supplementary Tables S1-S20.xlsx

176 Biochemical scores Table S8. Pentaloops CCAAC UGAAA 915 GGUUG UGAAC 284 CGAGC UGAAG 158 GUACU UGAAU 343 UAGUC UGACA 37 AACGC UGACC 178 ACGCG UGACG 42 CAGUC UGACU 189 UCGGA UGAGA 135 CUGGG UGAGC 31 UGCGG UGAGG 54 AUGCA UGAGU 204 AGGCA UGAUA 189 CGGGC UGAUC 79 CGGUA UGAUG 45 CACAC UGAUU 122 ACCCG UGCAA 195 GCGGA UGCAC 115 AGCUC UGCAG 35 CGUAC UGCAU 147 GCGUG UGCCA 59 GUCGU UGCCC 211 GCAUC UGCCG 8 UGGGG UGCCU 12 AUGCC UGCGA 1528 GGUGU UGCGC 11 UGCCU UGCGG 43 GGGGG UGCGU 58 AGACC UGCUA 40 UCCAG UGCUC 677 CUAUC UGCUG 49 GCGGU UGCUU 78 GUGUU UGGAA 319 UCGGG UGGAC 54 GCGCC UGGAG 35 AGUGU UGGAU 38 GCGCG UGGCA 27 UAGGG UGGCC 21 AGCGG UGGCG 5 ACUGC UGGCU 71 CCCCU UGGGA 21 CCGAA UGGGC 75 AGGUU UGGGG 9 GAGUC UGGGU 23 GGCCG UGGUA 94 ACGUC UGGUC 35 GAGGC UGGUG 14 CCGCA UGGUU 28 UCCCG UGUAA 129 GCACU UGUAC 44 CUGCU UGUAG 20 UCGAG UGUAU 110 CCGCG UGUCA 20 GCUCG UGUCC 48 GGGCG UGUCG 10 CCGAU UGUCU 56 CGAUU UGUGA 151 GGUAC UGUGC 19 GUACC UGUGG 18 UGUCG UGUGU 158 CCGUU UGUUA 69 ACGUU UGUUC 73 CGGCC UGUUG 143 GGUCU UGUUU 68 AGACG UUAAA 1129 CGUUA UUAAC 576 AUGCU UUAAG 3890 CCGUC UUAAU 1964 CGAUC UUACA 172 Page 68 Supplementary Tables S1-S20.xlsx

177 Biochemical scores Table S8. Pentaloops CGGCA UUACC 182 GCCGU UUACG 351 UCUAG UUACU 112 AGUCG UUAGA 1058 GUGCC UUAGC 273 AGACU UUAGG AGGCU UUAGU 4437 CAGGU UUAUA 1416 GCGGC UUAUC 225 ACCGA UUAUG 2529 CAUAC UUAUU 1033 GAUGG UUCAA 4461 GACUG UUCAC 820 GGGUC UUCAG 720 AACCG UUCAU 882 AAUCG UUCCA 456 CCGAG UUCCC 67 GACCG UUCCG 253 GCCGG UUCCU 826 UGCCG UUCGA 1553 AGCGU UUCGC 302 GCGUC UUCGG AGAUC UUCGU 845 AAUGC UUCUA 3673 AGGGG UUCUC 109 AGGUC UUCUG 1363 CGGGA UUCUU 486 GACGG UUGAA 425 ACGCC UUGAC 7692 CAGCU UUGAG 436 CGGCG UUGAU 926 CGGGU UUGCA 57 GAGCG UUGCC 194 CCGGA UUGCG 53 GGGAU UUGCU 253 GUGUC UUGGA 220 AGUGC UUGGC 761 CGGCU UUGGG 58 CGGUC UUGGU 173 GGGCU UUGUA 92 UGGCG UUGUC 33 GCGCU UUGUG 659 ACGGU UUGUU 102 CGGUU UUUAA 3774 ACGCU UUUAC 940 ACUCG UUUAG 691 AGGGU UUUAU 7442 AGGCG UUUCA 829 CCGCU UUUCC 416 CCGGU UUUCG 375 CGGGG UUUCU 987 AGGUG UUUGA 3356 CGACU UUUGC 265 GAGCU UUUGG 4636 GGGCC UUUGU 1146 AUGCG UUUUA 8089 CCGGG UUUUC 216 GGGGC UUUUG 664 GGGGU UUUUU 4306 Page 69 Supplementary Tables S1-S20.xlsx

178 Biochemical scores Table S9. Bulges Bulge size 1 Bulge size 2 Bulge size 3 Bulge size 4 Range Range Range Range Median Median Median Median Centered Centered Centered Centered Bulge Score score Bulge Score score Bulge Score score Bulge Score score A AA GGA AAGU U AG GAA AUAA G AU AAA AGAA C GA GAU AAAA CA AUA UUUG UA CUA ACAU AC UAA UAUG UU GUA AUUA UG GAG GGAA GG CAU UUAA UC UCA AAGC CU CAA AAAG CG ACA UCAA GC AAU AUAU GU AAG UGAA CC CAG CGAA UAU GAAU AUU AAAU CCA CUAA AGA UAGG GAC CAAA CCU AAUA AAC UAAA UUU UUCG AGU UUUU GCA CAGC GUU AAGA CUG GGGA UUA AUUG GGU UUUC AGG AUAG UAC CGAC CUC AUCG AUG GGGG GUC UAAG GGC UAAU UUG GUAA UAG UUUA ACU GUAU UGU AAAC ACC AAUU AUC UGUG CCC UAUA CUU AACA CCG GUCG UGA GAUU GGG AGAU CAC UUGG GUG CUUG UCG GAUA UUC GACG UGC ACAA AGC UGAG UCU AAUG UCC AUCA CGC AAGG CGA CAAU ACG GUUA CGG GAGC GCC UACG GCU AUAC UGG CCUA CGU GAAA GCG GAUG Page 70 Supplementary Tables S1-S20.xlsx

179 Biochemical scores Table S9. Bulges Page 71 GAGU GAGA UAGC GCAA GGAU UCAG GAGG UUAG GAAG UAUU GCUA CUUC GUUG GCAU AGAG ACAG UCAU GUAG CAAC CUUA UUAU UUGA UAGA CAGA GGGC GAAC AGUA CAAG UGAU GGUA CUGA GUCA GGUG CUAC ACUU UUCC CCCC GGGU UCGG UCCG CAUA ACCA AUUU AACC AACG ACAC AUGU GACA CUCG UUCU AACU ACUA CAUU CUAG UAUC GCAG CAUC UCUG AAUC GGAC GGAG AUUC GUUC UCAC ACUG CCUG CAGG UGGA CUGU Supplementary Tables S1-S20.xlsx

180 Biochemical scores Table S9. Bulges Page 72 UAAC UAGU CCAA GCUG GGUU CGUG UGGG CCCA AUGA UCCA CCAC UGCG UGUC CACU GUGG AGCA GUGU GCGG CUAU AGGA UCCU CAUG UGCU AGUU GUUU CGAG ACGA CUUU CCAG CAGU UUCA GACU UACA GACC CGAU GUAC ACGC AUGG AGGC AGGG UGAC CUCA UUGC AUCC CACC GGCC CCAU GCCA UCUC UGGU AGCU CUGG CGCA ACCC AUCU UACC UCGU CACA AGGU CCGC UACU UCUU GUGC UCGA GCCG ACGG CGUU CUGC GGCG Supplementary Tables S1-S20.xlsx

181 Biochemical scores Table S9. Bulges AUGC UUAC CUCU GUGA UUGU UCCC UCUA GCAC GAUC CGUA GGCA UGUA CCGG CGCU ACUC AGAC ACGU CGGA GCGA GGUC CGGG UGUU UCGC UGCA UGGC CCGA CCCU GCCU AGUG CCUC CCUU CCCG CGCG AGCG GCGC UGCC GUCC AGUC CACG ACCU CGCC GUCU ACCG CGGU GCUU GCUC AGCC CCGU CGGC CUCC GCCC GGCU CGUC GCGU Page 73 Supplementary Tables S1-S20.xlsx

182 Biochemical scores Table S10. Bulges size 1 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count A A Intron U C Translation G G Cis -Reg C U Page 74 Supplementary Tables S1-S20.xlsx

183 Biochemical scores Table S11. Bulges size 2 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count AA AA Intron AG AC Translation AU AG Cis -Reg GA AU CA CA UA CC 4038 AC CG UU CU UG GA GG GC 8018 UC GG CU GU CG UA GC UC GU UG CC UU Page 75 Supplementary Tables S1-S20.xlsx

184 Biochemical scores Table S12. Bulges size 3 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count GGA AAA 9909 Intron 6371 GAA AAC 2013 Translation AAA AAG Cis -Reg 6543 GAU AAU 2800 AUA ACA 1713 CUA ACC 601 UAA ACG 230 GUA ACU 486 GAG AGA 1129 CAU AGC 462 UCA AGG 435 CAA AGU 1262 ACA AUA 2715 AAU AUC 444 AAG AUG 597 CAG AUU 1139 UAU CAA 5236 AUU CAC 803 CCA CAG AGA CAU GAC CCA 973 CCU CCC 387 AAC CCG 3397 UUU CCU AGU CGA 367 GCA CGC 158 GUU CGG 430 CUG CGU 363 UUA CUA GGU CUC 4531 AGG CUG UAC CUU 976 CUC GAA AUG GAC GUC GAG GGC GAU UUG GCA 2983 UAG GCC 513 ACU GCG 248 UGU GCU 460 ACC GGA AUC GGC CCC GGG 1215 CUU GGU CCG GUA UGA GUC 5010 GGG GUG 380 CAC GUU 1224 GUG UAA UCG UAC 480 UUC UAG 7426 UGC UAU 3410 AGC UCA UCU UCC 517 UCC UCG 462 CGC UCU 357 CGA UGA 543 ACG UGC 235 CGG UGG 901 GCC UGU 430 GCU UUA 1002 UGG UUC 2089 CGU UUG 773 GCG UUU 694 Page 76 Supplementary Tables S1-S20.xlsx

185 Biochemical scores Table S13. Bulges size 4 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count AAGU AAAA 299 Intron 1713 AUAA AAAC 64 Translation AGAA AAAG 229 Cis -Reg 4228 AAAA AAAU 152 UUUG AACA 64 ACAU AACC 25 UAUG AACG 53 AUUA AACU 29 GGAA AAGA 137 UUAA AAGC 742 AAGC AAGG 52 AAAG AAGU 1503 UCAA AAUA 109 AUAU AAUC 26 UGAA AAUG 57 CGAA AAUU 166 GAAU ACAA 56 AAAU ACAC 21 CUAA ACAG 60 UAGG ACAU 278 CAAA ACCA 23 AAUA ACCC 12 UAAA ACCG 9 UUCG ACCU 10 UUUU ACGA 22 CAGC ACGC 10 AAGA ACGG 15 GGGA ACGU 5 AUUG ACUA 27 UUUC ACUC 12 AUAG ACUG 37 CGAC ACUU 33 AUCG AGAA 7312 GGGG AGAC 12 UAAG AGAG 46 UAAU AGAU 68 GUAA AGCA 28 UUUA AGCC 7 GUAU AGCG 17 AAAC AGCU 15 AAUU AGGA 30 UGUG AGGC 12 UAUA AGGG 48 AACA AGGU 19 GUCG AGUA 36 GAUU AGUC 14 AGAU AGUG 21 UUGG AGUU 21 CUUG AUAA 281 GAUA AUAC 75 GACG AUAG 1485 ACAA AUAU 215 UGAG AUCA 89 AAUG AUCC 10 AUCA AUCG 354 AAGG AUCU 12 CAAU AUGA 30 GUUA AUGC 15 GAGC AUGG 49 UACG AUGU 33 AUAC AUUA 172 CCUA AUUC 57 GAAA AUUG 615 GAUG AUUU 65 GAGU CAAA 842 GAGA CAAC 43 UAGC CAAG 46 GCAA CAAU 50 Page 77 Supplementary Tables S1-S20.xlsx

186 Biochemical scores Table S13. Bulges size 4 GGAU CACA 13 UCAG CACC 16 GAGG CACG 13 UUAG CACU 26 GAAG CAGA 77 UAUU CAGC 122 GCUA CAGG 36 CUUC CAGU 25 GUUG CAUA 30 GCAU CAUC 31 AGAG CAUG 84 ACAG CAUU 66 UCAU CCAA 69 GUAG CCAC 17 CAAC CCAG 33 CUUA CCAU 16 UUAU CCCA 18 UUGA CCCC 29 UAGA CCCG 20 CAGA CCCU 22 GGGC CCGA 24 GAAC CCGC 15 AGUA CCGG 13 CAAG CCGU 7 UGAU CCUA 67 GGUA CCUC 21 CUGA CCUG 49 GUCA CCUU 21 GGUG CGAA CUAC CGAC 313 ACUU CGAG 74 UUCC CGAU 56 CCCC CGCA 9 GGGU CGCC 10 UCGG CGCG 19 UCCG CGCU 13 CAUA CGGA 31 ACCA CGGC 6 AUUU CGGG 10 AACC CGGU 9 AACG CGUA 39 ACAC CGUC 2 AUGU CGUG 24 GACA CGUU 15 CUCG CUAA 810 UUCU CUAC 22 AACU CUAG 26 ACUA CUAU 28 CAUU CUCA 47 CUAG CUCC 6 UAUC CUCG 399 GCAG CUCU 8 CAUC CUGA 27 UCUG CUGC 11 AAUC CUGG 35 GGAC CUGU 28 GGAG CUUA 409 AUUC CUUC 142 GUUC CUUG 1250 UCAC CUUU 24 ACUG GAAA 171 CCUG GAAC 47 CAGG GAAG 93 UGGA GAAU 135 CUGU GACA 49 UAAC GACC 168 UAGU GACG 351 CCAA GACU 23 GCUG GAGA 131 Page 78 Supplementary Tables S1-S20.xlsx

187 Biochemical scores Table S13. Bulges size 4 GGUU GAGC 131 CGUG GAGG 45 UGGG GAGU 40 CCCA GAUA 108 AUGA GAUC 44 UCCA GAUG 230 CCAC GAUU 138 UGCG GCAA 121 UGUC GCAC 16 CACU GCAG 49 GUGG GCAU 56 AGCA GCCA 24 GUGU GCCC 6 GCGG GCCG 24 CUAU GCCU 8 AGGA GCGA 31 UCCU GCGC 17 CAUG GCGG 29 UGCU GCGU 2 AGUU GCUA 149 GUUU GCUC 8 CGAG GCUG 55 ACGA GCUU 9 CUUU GGAA 419 CCAG GGAC 71 CAGU GGAG 108 UUCA GGAU 123 GACU GGCA 38 UACA GGCC 15 GACC GGCG 67 CGAU GGCU 5 GUAC GGGA 1451 ACGC GGGC 37 AUGG GGGG 86 AGGC GGGU 32 AGGG GGUA 285 UGAC GGUC 30 CUCA GGUG 33 UUGC GGUU 32 AUCC GUAA 805 CACC GUAC 25 GGCC GUAG 118 CCAU GUAU 59 GCCA GUCA 37 UCUC GUCC 6 UGGU GUCG 7771 AGCU GUCU 10 CUGG GUGA 20 CGCA GUGC 12 ACCC GUGG 102 AUCU GUGU 15 UACC GUUA 104 UCGU GUUC 25 CACA GUUG 111 AGGU GUUU 18 CCGC UAAA 545 UACU UAAC 36 UCUU UAAG 402 GUGC UAAU 153 UCGA UACA 38 GCCG UACC 12 ACGG UACG 331 CGUU UACU 11 CUGC UAGA 40 GGCG UAGC 55 AUGC UAGG 629 UUAC UAGU 21 CUCU UAUA 80 GUGA UAUC 26 Page 79 Supplementary Tables S1-S20.xlsx

188 Biochemical scores Table S13. Bulges size 4 UUGU UAUG 765 UCCC UAUU 42 UCUA UCAA 291 GCAC UCAC 22 GAUC UCAG 73 CGUA UCAU 45 GGCA UCCA 30 UGUA UCCC 12 CCGG UCCG 1308 CGCU UCCU 25 ACUC UCGA 16 AGAC UCGC 7 ACGU UCGG 131 CGGA UCGU 12 GCGA UCUA 48 GGUC UCUC 38 CGGG UCUG 1039 UGUU UCUU 29 UCGC UGAA 1992 UGCA UGAC 48 UGGC UGAG 163 CCGA UGAU 51 CCCU UGCA 26 GCCU UGCC 5 AGUG UGCG 77 CCUC UGCU 22 CCUU UGGA 218 CCCG UGGC 9 CGCG UGGG 171 AGCG UGGU 16 GCGC UGUA 38 UGCC UGUC 43 GUCC UGUG 292 AGUC UGUU 10 CACG UUAA 1435 ACCU UUAC 14 CGCC UUAG 816 GUCU UUAU 46 ACCG UUCA 204 CGGU UUCC 526 GCUU UUCG GCUC UUCU 82 AGCC UUGA 60 CCGU UUGC 17 CGGC UUGG 2738 CUCC UUGU 13 GCCC UUUA 651 GGCU UUUC 1266 CGUC UUUG GCGU UUUU 238 Page 80 Supplementary Tables S1-S20.xlsx

189 Biochemical scores Table S14. Internal loops iloop size 1x1 iloop size 1x2 iloop size 2x1 Range Range Range Median Median Median ' 3' Score Centered score 5' 3' Score Centered score 5' 3' Score Centered score C G G AA AA A U A C UA GA A A A A UA AA G A U C AA AA U U G A UC AG A U U G UA GG G C A C GA GA U A G A AA GA G G A A GA AG U G U U AA AU U G C A CA GG A G G A CU UG A U C G AG UA G C C C CA CA A C U U UA UU U A C U UU CU U A UU UA A C CG AU A G CA GG U A AG AC A C CC UA U G UC AA C C CU AG G U CU UG G U AC CA G C UG GC A C AC UC U U AU GG C G AC AG C G CU AU G G UU AU C C UU UG U G GA UC A U UG UU A G AU UC G U UC GA C C GC AC C A AU CC A C UC CU A C GG CA C A UG UU C U CA CG G C AU GU C A AC CC G C GU CU C G GC UG C G CC GU U A CG CC C G UG CA U U AG CG A C AG CG U U GA GC G U CC CG C G GG CC U A CC GU A U CG UU G A GC CU G U GU UA C G CG AC U A GU GC C U GC AC G U GG GU G A GG UC C G GU GC U Page 81 Supplementary Tables S1-S20.xlsx

190 Biochemical scores Table S14. Internal loops iloop size 1x3 iloop size 2x2 iloop size 3x1 Range Range Range Median Median Median ' 3' Score Centered score 5' 3' Score Centered score 5' 3' Score Centered score C UCC AA GA CAA A A GAA GC AA GGG G C CUA AA AA UAA A G AGG UU UU UAA G C UGU GA GA CAC A U AUG GA AA UAA U U CCA AA CG UAA C U AAG UU AU CAA C U UUU AU UU AAA A A UUU AG GA UUA A C UUA GC GA UUA G U UCC AC AA UUA U C GCU GA CC ACC G C GCC AA UU CCA A A AAA UA AU AAU U C CCA UA UU AGA G C AAC AA AC ACA A C UCU CU UU CCC A C CCC AU AA AAA G U AUA UA GA UUC U U CUC AU UC CAA G U AAA CU AA AUU U C ACC AU CG AAU A A AUA UU UC CUC A U ACG AA AU GAA A A UGA AG UC AAG A C AAU CU UC UAG G C AUA UG UU AAA C U AUU AA CA AUU A U UUC UU UA UUU U C AGC AG AA UCA A C AAA UG UG CAA U A UAU AC UC GGA G U AUC AA UC UGC C U UAC GA UU CGG A G UAA AC UU ACU U U CUG GA UA AGG G U ACU AA GC AUA G U UAU UU GU CCU A U GAA CA UU UAC C A UCU AG CU UAC G U AAU AA UA CUA G U AGG GC AG UGC U U AAC CU AU GAA G U UCA AU AU CCU C U UUA UU AA UUC C U CAC UA CG ACA G C UGA CU CG AAG C U GAC GA AC AAC G A AAU GA CA UAG C A ACU UG CA GGA U A AAC UC UU UGC G C GAA AG UU AAA U C AUG AG AU UAG A U GUG GU AA GAG G A AUU UA UA UAU U G AAG AU UA ACA U G GAG GU AU UUA C C UAC GG CC CGA A C UAA AG CA AAG G A AAG GU UC CUA A A UUA GA UC UGU A U UAA AA AG AUU G C GGC GC GC CGA G G UAU UA UC CGC A Page 82 Supplementary Tables S1-S20.xlsx

191 Biochemical scores Table S14. Internal loops U UCU UU UG AGU U G ACA CC CA UGG A C GUA GA AU GCU U A UCA UC AA GGA A G UUC UC GU CUU G C AUU AG GG GGG A G UCC GA GG UGA A C AAG AU CU AUA A C CGC UA UG AUA U C ACG GG AA UUU G C ACU GA CU AUU C C AGA AC CG UGG G A UAC AG CG AUC G A ACC AA GU UAG U A GAU CA AU CCU U C UUU CG GA UGC A U CCG CA CG GAG A G GAA UG CG GAU U A AGA CC UU ACA C C UGC UU GA UGA U G UUA CU AG GUU U C UGG AA GG UUC G U CUA AC GU CAG A U UUG UA CU UAC U A UCC UU CU AGA U C UCA CC GU GAG U G ACU AU CA AAG U C AGU AG CC GAC A A GAG UA AC GAA U A CUA AG UA GGA C A CGA AC AG CCC G A GUG GA AG CCA G A CAC GA UG CCC U A UAA AG GU AGC G U GAG GU UU GUU C G AAA CG UC CAG C A GAC GA CG UGU G U CAG CU GU AAC U C CGU CA CA AGC A G AGA UU CG AGA A C GGA GA GC UAC A G AUU GC GG GCA G A CCU GG UU UGG C G AUA CC AA CUU A A UGU UC AU CUG G U UAG UC GA UUG U G AGU GU GU CAU A C GCA UA CC AGU G U CAU AG AG AUC C C GGU GU AC CAG G C CUC CA UG CAC U A GGA AC CA CCU G A AUG GC AU UCG U U ACC AC GA CAU G U ACA AA UG CGC C A GCU GC CA AUG U A CAA UG AU AGU A C CUU AG AC AAU G A ACA GU GA AAU C A GUA CG CA UCC G U GCG UG UA GUG G G AUG UU AG GGG U G UAG GC UA GUA C U CAA AA CU CGA C G AAC AC UA ACG U G GUA UG AA CUA C C GUG CG UG UGA C G UAC UC UG UGU U C ACA AU GU CUA U Page 83 Supplementary Tables S1-S20.xlsx

192 Biochemical scores Table S14. Internal loops G CAA UA AA UCA G U AGA CG CG UUC A G CUC UG UC CAG U G CAG AU GA AGU C U UGC CA AA UAU A U UCG GU GC GGU C C AGG GU UA CAC C U GCU AC UG GUG A U CUU CG UU UCU U A GCA CG AA UCU A G UUU AA CC UGA G A UUG GA GU UUG C U CCC GG UC CUC G A AGG AC AC GAC C G UUG UC AG GUG C G CUA GG UA ACG C A CUC AU CC GUC U A CCA GG GA ACU G C UAU CU CU UCU G C GGG UC CG GUC G G GCA CC CG CGC U C AUC UC CU GCU C C UUC CA CU CGA U C GUC UG CU GGC C G UGA CU GG AUC U C CUG CC CC UCA C A UUC UU GG UCA U U GUU AC CC GGU G C GAG CU GC UUU A C CAC CA GU CUC C U UGU AU AC AGC C U CCU GC UU CGU G U UGA UU AC CUC U U GGG UA CA GGC A C GUU CG GU GGU U C UCG GC AC GUA A A CAU CG UA CUG C C CCG CC GA GAG C U GGU AC GG GAA C G CAC AU AG AGA C U AGU CG AU CCA U A CGC GC GU GUA G G GUG CA AG CUG A U GCA AG UG GCA A G GUC GU CU AUC A G ACC CA GA CAU C G GCC CC AG CUG U U CGC UA GU CAU U U UGG UC UA UUG A C CAA CC GG UGU C U GCC AC CU AAC A G CGG CG AG ACU C G AAU CC AU UCC U A AUC GU CC ACU A A CAG CU CC UAU G G CGU GG GG GUG U U AGC UG GC CAC G C CCU AU UG UCG G C GAU UC CA UGG U G GAU CG CC UUG G G ACG GG AU ACC C G AGC CU UG AGG A G UCA CU AC CGC G G CUU GG CA AUG A G UCU CG CU CCG C G CUG CA GC GAU A U GAU CC UA GAU C G GGG CA UC UCG A U GUA GU AG AAC C Page 84 Supplementary Tables S1-S20.xlsx

193 Biochemical scores Table S14. Internal loops C GAC UG AG AUG G A CUG GC CC CUU C G UGU GU GG GUA U A GUU CU CA AGC U G GCG GG CU CGG U A GGG GG UG GCC A G CAU GC UC ACG G A AGU UU CA CCA C A UCG CC UG UUU C A CCC UA GC ACC A C CGG UA GG GCG A A GGU AC GC GGC U U GUC CU UA GUC A G UGC UG CC GAC G C CGA UC UC GCA U G CGA UC GC GGC G G CGC UU GC GGG C C CAG UC GG CUU U C UAG UG GU GUU A G CCU CA GG GAU G G GAC UG GA UCG C A ACG CC UC GAC U A AGC AG GC UCC C U CGU GC CU AUA C G UGG AC AU GCU G A GCG UU CC AGG U A CUU CU GA CCC C A GUC GU CA UCC A A UAG UC AC GCA C C UUG AU GG CCG A G AUC AU GC GUU G C GCG GG AC GCG C G GGA GG AG GCU A A UGC GU UG CGG G C CAU CC CU GCG G A GGC CC GC GCG U A GCC GU CG AGG C G CCG CA UA CGU A G GCU GG GC CGU C A UGG UC CC UAU C G GGC CC AC UCU C U GGC GG GU CCG G G CCC UG GG ACG A G CCA CA AC GGU A G UCG UA AG CGU U U GGA GC UG AUG C G GGU CG GC GUC C A CCG GC CG ACC U A CGG UG AC GCC C A CGU CG AC GCC G G GUU GG CG CCG U U CGA CG GG CGG C U CGG CA CC GCC U Page 85 Supplementary Tables S1-S20.xlsx

194 Biochemical scores Table S15. Internal loops 1x1 5' 3' Score SD 5' 3' Total count Supercategory Total count C G A A Intron U A A C 8865 Translation A A A G Cis -Reg A U A U U G C A U U C C C A C G A G C U 7825 G A G A G U G C G C G G G G G U U C U A C C U C C U U G A C U U Page 86 Supplementary Tables S1-S20.xlsx

195 Biochemical scores Table S16. Internal loops 1x2 5' 3' Score SD 5' 3' Total count Supercategory Total count G AA A AA 7689 Intron C UA A AC 724 Translation A UA A AG 1614 Cis -Reg 8767 C AA A AU 1007 A UC A CA 2047 G UA A CC 734 C GA A CG 486 A AA A CU 5150 A GA A GA 5203 U AA A GC 339 A CA A GG 337 A CU A GU 333 G AG A UA 8555 C CA A UC U UA A UG 1876 U UU A UU A UU C AA C CG C AC 1219 G CA C AG 1546 A AG C AU 861 C CC C CA 2646 G UC C CC 3032 C CU C CG 1478 U CU C CU 2968 U AC C GA C UG C GC 1143 C AC C GG 849 U AU C GU G AC C UA G CU C UC 1734 G UU C UG 2129 C UU C UU 3030 G GA G AA U UG G AC 1504 G AU G AG U UC G AU C GC G CA 5422 A AU G CC 1386 C UC G CG 1590 C GG G CU 3112 A UG G GA 1102 U CA G GC 615 C AU G GG 714 A AC G GU 320 C GU G UA G GC G UC 2530 G CC G UG 1629 A CG G UU 2207 G UG U AA 4736 U AG U AC 6116 C AG U AG 919 U GA U AU 1724 U CC U CA 542 G GG U CC 285 A CC U CG 337 U CG U CU 3835 A GC U GA 571 U GU U GC 316 G CG U GG 236 A GU U GU 259 U GC U UA 5417 U GG U UC 989 A GG U UG 684 G GU U UU 2030 Page 87 Supplementary Tables S1-S20.xlsx

196 Biochemical scores Table S17. Internal loops 2x1 5' 3' Score SD 5' 3' Total count Supercategory Total count AA A AA A Intron 1972 GA A AA C 1393 Translation AA G AA G Cis -Reg AA U AA U 2505 AG A AC A 525 GG G AC C 157 GA U AC G 543 GA G AC U 124 AG U AG A 6815 AU U AG C 549 GG A AG G 2506 UG A AG U 6983 UA G AU A 908 CA A AU C 255 UU U AU G 753 CU U AU U 949 UA A CA A 1587 AU A CA C 175 GG U CA G 748 AC A CA U 130 UA U CC A 190 AA C CC C 267 AG G CC G 186 UG G CC U 243 CA G CG A 188 GC A CG C 153 UC U CG G 255 GG C CG U 142 AG C CU A 423 AU G CU C 108 AU C CU G 162 UG U CU U 1172 UC A GA A UU A GA C 783 UC G GA G GA C GA U 1251 AC C GC A 3801 CC A GC C 51 CU A GC G 239 CA C GC U 45 UU C GG A CG G GG C 295 GU C GG G CC G GG U 1037 CU C GU A 876 UG C GU C 326 GU U GU G 188 CC C GU U 149 CA U UA A 781 CG A UA C 174 CG U UA G 2358 GC G UA U 333 CG C UC A 213 CC U UC C 100 GU A UC G 175 UU G UC U 708 CU G UG A 5579 UA C UG C 211 AC U UG G 701 GC C UG U 215 AC G UU A 240 GU G UU C 203 UC C UU G 186 GC U UU U 1234 Page 88 Supplementary Tables S1-S20.xlsx

197 Biochemical scores Table S18. Internal loops 1x3 5' 3' Score SD 5' 3' Total count Supercategory Total count C UCC A AAA 143 Intron A GAA A AAC 74 Translation C CUA A AAG 68 Cis -Reg G AGG A AAU 64 C UGU A ACA 27 U AUG A ACC 37 U CCA A ACG 10 U AAG A ACU 1092 U UUU A AGA 174 A UUU A AGC 6 C UUA A AGG 16 U UCC A AGU 14 C GCU A AUA 157 C GCC A AUC 10 A AAA A AUG 49 C CCA A AUU 78 C AAC A CAA 52 C UCU A CAC 39 C CCC A CAG 63 U AUA A CAU 35 U CUC A CCA 55 U AAA A CCC 15 C ACC A CCG 4 A AUA A CCU 45 U ACG A CGA 80 A UGA A CGC 14 C AAU A CGG 4 C AUA A CGU 2 U AUU A CUA 135 U UUC A CUC 18 C AGC A CUG 36 C AAA A CUU 34 A UAU A GAA 3404 U AUC A GAC 36 U UAC A GAG 94 G UAA A GAU 55 U CUG A GCA 40 U ACU A GCC 5 U UAU A GCG 35 U GAA A GCU 60 A UCU A GGA 182 U AAU A GGC 18 U AGG A GGG 8 U AAC A GGU 7 U UCA A GUA 46 U UUA A GUC 12 U CAC A GUG 80 C UGA A GUU 22 U GAC A UAA 50 A AAU A UAC 57 A ACU A UAG 29 A AAC A UAU 559 C GAA A UCA 886 C AUG A UCC 341 U GUG A UCG 69 A AUU A UCU 262 G AAG A UGA 113 G GAG A UGC 7 C UAC A UGG 12 C UAA A UGU 37 A AAG A UUA 330 A UUA A UUC 128 U UAA A UUG 109 C GGC A UUU 633 G UAU C AAA 360 U UCU C AAC 464 G ACA C AAG 299 C GUA C AAU 89 Page 89 Supplementary Tables S1-S20.xlsx

198 Biochemical scores Table S18. Internal loops 1x3 A UCA C ACA 55 G UUC C ACC 1274 C AUU C ACG 124 G UCC C ACU 117 C AAG C AGA 175 C CGC C AGC 699 C ACG C AGG 144 C ACU C AGU 69 C AGA C AUA 246 A UAC C AUC 31 A ACC C AUG 523 A GAU C AUU 78 C UUU C CAA 208 U CCG C CAC 40 G GAA C CAG 15 A AGA C CAU 19 C UGC C CCA 105 G UUA C CCC 1640 C UGG C CCG 33 U CUA C CCU 60 U UUG C CGA 17 A UCC C CGC 70 C UCA C CGG 9 G ACU C CGU 79 C AGU C CUA 2227 A GAG C CUC 60 A CUA C CUG 36 A CGA C CUU 38 A GUG C GAA 89 A CAC C GAC 23 A UAA C GAG 44 U GAG C GAU 35 G AAA C GCA 34 A GAC C GCC 641 U CAG C GCG 8 C CGU C GCU 410 G AGA C GGA 37 C GGA C GGC 340 G AUU C GGG 33 A CCU C GGU 82 G AUA C GUA 89 A UGU C GUC 33 U UAG C GUG 28 G AGU C GUU 18 C GCA C UAA 499 U CAU C UAC 423 C GGU C UAG 43 C CUC C UAU 56 A GGA C UCA 407 A AUG C UCC U ACC C UCG 99 U ACA C UCU A GCU C UGA 117 A CAA C UGC 504 C CUU C UGG 51 A ACA C UGU 2239 A GUA C UUA 772 U GCG C UUC 404 G AUG C UUG 27 G UAG C UUU 84 U CAA G AAA 87 G AAC G AAC 45 G GUA G AAG 145 C GUG G AAU 41 G UAC G ACA 76 C ACA G ACC 27 G CAA G ACG 24 U AGA G ACU 51 G CUC G AGA 81 Page 90 Supplementary Tables S1-S20.xlsx

199 Biochemical scores Table S18. Internal loops 1x3 G CAG G AGC 18 U UGC G AGG 2647 U UCG G AGU 361 C AGG G AUA 26 U GCU G AUC 27 U CUU G AUG 37 A GCA G AUU 271 G UUU G CAA 55 A UUG G CAC 42 U CCC G CAG 72 A AGG G CAU 85 G UUG G CCA 7 G CUA G CCC 9 A CUC G CCG 14 A CCA G CCU 43 C UAU G CGA 17 C GGG G CGC 48 G GCA G CGG 20 C AUC G CGU 39 C UUC G CUA 35 C GUC G CUC 42 G UGA G CUG 28 C CUG G CUU 12 A UUC G GAA 173 U GUU G GAC 43 C GAG G GAG 80 C CAC G GAU 32 U UGU G GCA 30 U CCU G GCC 34 U UGA G GCG 17 U GGG G GCU 5 C GUU G GGA 4 C UCG G GGC 12 A CAU G GGG 9 C CCG G GGU 6 U GGU G GUA 20 G CAC G GUC 37 U AGU G GUG 14 A CGC G GUU 4 G GUG G UAA 234 U GCA G UAC 35 G GUC G UAG 22 G ACC G UAU 107 G GCC G UCA 50 U CGC G UCC 137 U UGG G UCG 7 C CAA G UCU 46 U GCC G UGA 33 G CGG G UGC 20 G AAU G UGG 36 A AUC G UGU 14 A CAG G UUA 96 G CGU G UUC 146 U AGC G UUG 23 C CCU G UUU 21 C GAU U AAA 211 G GAU U AAC 353 G ACG U AAG 5703 G AGC U AAU 107 G UCA U ACA 85 G CUU U ACC 49 G UCU U ACG 6865 G CUG U ACU 68 U GAU U AGA 23 G GGG U AGC 29 U GUA U AGG 292 C GAC U AGU 22 A CUG U AUA 191 G UGU U AUC 65 Page 91 Supplementary Tables S1-S20.xlsx

200 Biochemical scores Table S18. Internal loops 1x3 A GUU U AUG 9954 G GCG U AUU 74 A GGG U CAA 26 G CAU U CAC 105 A AGU U CAG 84 A UCG U CAU 27 A CCC U CCA 327 C CGG U CCC 14 A GGU U CCG 235 U GUC U CCU 39 G UGC U CGA 4 C CGA U CGC 17 G CGA U CGG 3 G CGC U CGU 14 C CAG U CUA 782 C UAG U CUC 612 G CCU U CUG 106 G GAC U CUU 21 A ACG U GAA 75 A AGC U GAC 87 U CGU U GAG 79 G UGG U GAU 26 A GCG U GCA 25 A CUU U GCC 23 A GUC U GCG 45 A UAG U GCU 27 C UUG U GGA 7 G AUC U GGC 4 C GCG U GGG 29 G GGA U GGU 21 A UGC U GUA 14 C CAU U GUC 11 A GGC U GUG 191 A GCC U GUU 28 G CCG U UAA 44 G GCU U UAC 144 A UGG U UAG 129 G GGC U UAU 61 U GGC U UCA 57 G CCC U UCC 206 G CCA U UCG 107 G UCG U UCU 62 U GGA U UGA 103 G GGU U UGC 16 A CCG U UGG 24 A CGG U UGU 15 A CGU U UUA 189 G GUU U UUC 256 U CGA U UUG 254 U CGG U UUU 162 Page 92 Supplementary Tables S1-S20.xlsx

201 Biochemical scores Table S19. Internal loops 2x2 5' 3' Score SD 5' 3' Total count Supercategory Total count AA GA AA AA Intron 1989 GC AA AA AC 1456 Translation AA AA AA AG 3949 Cis -Reg UU UU AA AU 378 GA GA AA CA 2888 GA AA AA CC 65 AA CG AA CG 1713 UU AU AA CU 218 AU UU AA GA AG GA AA GC 663 GC GA AA GG 908 AC AA AA GU 641 GA CC AA UA 2206 AA UU AA UC 630 UA AU AA UG 180 UA UU AA UU 2233 AA AC AC AA CU UU AC AC 266 AU AA AC AG 373 UA GA AC AU 283 AU UC AC CA CU AA AC CC 1253 AU CG AC CG 383 UU UC AC CU 165 AA AU AC GA 430 AG UC AC GC 47 CU UC AC GG 30 UG UU AC GU 497 AA CA AC UA 2344 UU UA AC UC 536 AG AA AC UG 397 UG UG AC UU 265 AC UC AG AA 753 AA UC AG AC 90 GA UU AG AG 127 AC UU AG AU 2058 GA UA AG CA 173 AA GC AG CC 332 UU GU AG CG 84 CA UU AG CU 578 AG CU AG GA 2081 AA UA AG GC 25 GC AG AG GG 91 CU AU AG GU 134 AU AU AG UA 241 UU AA AG UC 268 UA CG AG UG 88 CU CG AG UU 174 GA AC AU AA 2927 GA CA AU AC 68 UG CA AU AG 78 UC UU AU AU 591 AG UU AU CA 808 AG AU AU CC 112 GU AA AU CG 3665 UA UA AU CU 189 AU UA AU GA 360 GU AU AU GC 157 GG CC AU GG 37 AG CA AU GU 384 GU UC AU UA 442 GA UC AU UC AA AG AU UG 52 GC GC AU UU 2940 UA UC CA AA 234 UU UG CA AC 57 CC CA CA AG 100 GA AU CA AU 141 Page 93 Supplementary Tables S1-S20.xlsx

202 Biochemical scores Table S19. Internal loops 2x2 UC AA CA CA 413 UC GU CA CC 2 AG GG CA CG 336 GA GG CA CU 123 AU CU CA GA 238 UA UG CA GC 179 GG AA CA GG 76 GA CU CA GU 87 AC CG CA UA 34 AG CG CA UC 82 AA GU CA UG 129 CA AU CA UU 917 CG GA CC AA 1220 CA CG CC AC 15 UG CG CC AG 223 CC UU CC AU 38 UU GA CC CA 1025 CU AG CC CC 110 AA GG CC CG 304 AC GU CC CU 18 UA CU CC GA 102 UU CU CC GC 19 CC GU CC GG 143 AU CA CC GU 1119 AG CC CC UA 129 UA AC CC UC 51 AG UA CC UG 40 AC AG CC UU 318 GA AG CG AA 89 GA UG CG AC 7 AG GU CG AG 155 GU UU CG AU 69 CG UC CG CA 65 GA CG CG CC 28 CU GU CG CG 339 CA CA CG CU 20 UU CG CG GA 115 GA GC CG GC 12 GC GG CG GG 10 GG UU CG GU 79 CC AA CG UA 74 UC AU CG UC 76 UC GA CG UG 148 GU GU CG UU 65 UA CC CU AA 2522 AG AG CU AC 51 GU AC CU AG 477 CA UG CU AU 1027 AC CA CU CA 99 GC AU CU CC 50 AC GA CU CG 4843 AA UG CU CU 171 GC CA CU GA 36 UG AU CU GC 62 AG AC CU GG 119 GU GA CU GU 1208 CG CA CU UA 52 UG UA CU UC UU AG CU UG 991 GC UA CU UU 3702 AA CU GA AA AC UA GA AC 857 UG AA GA AG 480 CG UG GA AU 627 UC UG GA CA AU GU GA CC 1196 UA AA GA CG 1130 CG CG GA CU 746 UG UC GA GA Page 94 Supplementary Tables S1-S20.xlsx

203 Biochemical scores Table S19. Internal loops 2x2 AU GA GA GC 1442 CA AA GA GG 2268 GU GC GA GU 1197 GU UA GA UA 1916 AC UG GA UC 671 CG UU GA UG 558 CG AA GA UU 694 AA CC GC AA GA GU GC AC 221 GG UC GC AG 1354 AC AC GC AU 172 UC AG GC CA 244 GG UA GC CC 45 AU CC GC CG 12 GG GA GC CU 36 CU CU GC GA 1603 UC CG GC GC 189 CC CG GC GG 146 UC CU GC GU 167 CA CU GC UA 199 UG CU GC UC 32 CU GG GC UG 42 CC CC GC UU 169 UU GG GG AA 465 AC CC GG AC 52 CU GC GG AG 140 CA GU GG AU 50 AU AC GG CA 103 GC UU GG CC 207 UU AC GG CG 15 UA CA GG CU 135 CG GU GG GA 1005 GC AC GG GC 20 CG UA GG GG 128 CC GA GG GU 65 AC GG GG UA 155 AU AG GG UC 173 CG AU GG UG 72 GC GU GG UU 190 CA AG GU AA 1558 AG UG GU AC 135 GU CU GU AG 55 CA GA GU AU 950 CC AG GU CA 182 UA GU GU CC 52 UC UA GU CG 35 CC GG GU CU 38 AC CU GU GA 141 CG AG GU GC 67 CC AU GU GG 51 GU CC GU GU 213 CU CC GU UA 63 GG GG GU UC 285 UG GC GU UG 29 AU UG GU UU 223 UC CA UA AA 311 CG CC UA AC 1148 GG AU UA AG 57 CU UG UA AU 1344 CU AC UA CA 123 GG CA UA CC 52 CG CU UA CG 1799 CA GC UA CU 174 CC UA UA GA CA UC UA GC 106 GU AG UA GG 158 UG AG UA GU 141 GC CC UA UA 327 GU GG UA UC 113 Page 95 Supplementary Tables S1-S20.xlsx

204 Biochemical scores Table S19. Internal loops 2x2 CU CA UA UG 526 GG CU UA UU 1533 GG UG UC AA 1455 GC UC UC AC 21 UU CA UC AG 73 CC UG UC AU 191 UA GC UC CA 1042 UA GG UC CC 11 AC GC UC CG 184 CU UA UC CU 139 UG CC UC GA 425 UC UC UC GC 134 UC GC UC GG 127 UU GC UC GU 1237 UC GG UC UA 222 UG GU UC UC 29 CA GG UC UG 211 UG GA UC UU 551 CC UC UG AA 133 AG GC UG AC 32 GC CU UG AG 252 AC AU UG AU 384 UU CC UG CA 485 CU GA UG CC 54 GU CA UG CG 2270 UC AC UG CU 58 AU GG UG GA 70 AU GC UG GC 49 GG AC UG GG 62 GG AG UG GU 125 GU UG UG UA 389 CC CU UG UC 83 CC GC UG UG 4480 GU CG UG UU 406 CA UA UU AA 836 GG GC UU AC 96 UC CC UU AG 169 CC AC UU AU 4389 GG GU UU CA 115 UG GG UU CC 30 CA AC UU CG 7447 UA AG UU CU 347 GC UG UU GA 217 CG GC UU GC 129 GC CG UU GG 134 UG AC UU GU 8002 CG AC UU UA 575 GG CG UU UC 1457 CG GG UU UG CA CC UU UU Page 96 Supplementary Tables S1-S20.xlsx

205 Biochemical scores Table S20. Internal loops 3x1 5' 3' Score SD 5' 3' Total count Supercategory Total count CAA A AAA A 184 Intron 1087 GGG G AAA C 118 Translation UAA A AAA G 123 Cis -Reg UAA G AAA U 83 CAC A AAC A 13 UAA U AAC C 5 UAA C AAC G 117 CAA C AAC U 35 AAA A AAG A 73 UUA A AAG C 60 UUA G AAG G 38 UUA U AAG U 59 ACC G AAU A 81 CCA A AAU C 15 AAU U AAU G 26 AGA G AAU U 81 ACA A ACA A 161 CCC A ACA C 51 AAA G ACA G 118 UUC U ACA U 169 CAA G ACC A 6 AUU U ACC C 10 AAU A ACC G 462 CUC A ACC U 3 GAA A ACG A 6 AAG A ACG C 9 UAG G ACG G 9 AAA C ACG U 53 AUU A ACU A 11 UUU U ACU C 9 UCA A ACU G 136 CAA U ACU U 170 GGA G AGA A 28 UGC C AGA C 8 CGG A AGA G 181 ACU U AGA U 24 AGG G AGC A 18 AUA G AGC C 32 CCU A AGC G 50 UAC C AGC U 10 UAC G AGG A 10 CUA G AGG C 3 UGC U AGG G 173 GAA G AGG U 14 CCU C AGU A 12 UUC C AGU C 20 ACA G AGU G 22 AAG C AGU U 41 AAC G AUA A 102 UAG C AUA C 6 GGA U AUA G 157 UGC G AUA U 125 AAA U AUC A 10 UAG A AUC C 14 GAG G AUC G 49 UAU U AUC U 9 ACA U AUG A 40 UUA C AUG C 2 CGA A AUG G 30 AAG G AUG U 127 CUA A AUU A 68 UGU A AUU C 21 AUU G AUU G 81 CGA G AUU U 140 CGC A CAA A AGU U CAA C 602 UGG A CAA G 529 GCU U CAA U 127 Page 97 Supplementary Tables S1-S20.xlsx

206 Biochemical scores Table S20. Internal loops 3x1 GGA A CAC A CUU G CAC C 19 GGG A CAC G 16 UGA A CAC U 31 AUA A CAG A 980 AUA U CAG C 75 UUU G CAG G 52 AUU C CAG U 43 UGG G CAU A 477 AUC G CAU C 10 UAG U CAU G 48 CCU U CAU U 11 UGC A CCA A 445 GAG A CCA C 4 GAU U CCA G 20 ACA C CCA U 12 UGA U CCC A 145 GUU U CCC C 3 UUC G CCC G 20 CAG A CCC U 18 UAC U CCG A 11 AGA U CCG C 6 GAG U CCG G 3 AAG U CCG U 1 GAC A CCU A 65 GAA U CCU C 50 GGA C CCU G 15 CCC G CCU U 21 CCA G CGA A 346 CCC U CGA C 32 AGC G CGA G 89 GUU C CGA U 17 CAG C CGC A 190 UGU G CGC C 22 AAC U CGC G 10 AGC A CGC U 26 AGA A CGG A 105 UAC A CGG C 1 GCA G CGG G 8 UGG C CGG U 7 CUU A CGU A 3 CUG G CGU C 3 UUG U CGU G 14 CAU A CGU U 2 AGU G CUA A 171 AUC C CUA C 39 CAG G CUA G 518 CAC U CUA U 26 CCU G CUC A 85 UCG U CUC C 13 CAU G CUC G 17 CGC C CUC U 14 AUG U CUG A 27 AGU A CUG C 19 AAU G CUG G 28 AAU C CUG U 12 UCC G CUU A 29 GUG G CUU C 30 GGG U CUU G 46 GUA C CUU U 7 CGA C GAA A 93 ACG U GAA C 11 CUA C GAA G 208 UGA C GAA U 21 UGU U GAC A 40 CUA U GAC C 13 UCA G GAC G 21 UUC A GAC U 5 CAG U GAG A 124 Page 98 Supplementary Tables S1-S20.xlsx

207 Biochemical scores Table S20. Internal loops 3x1 AGU C GAG C 7 UAU A GAG G 253 GGU C GAG U 40 CAC C GAU A 14 GUG A GAU C 8 UCU U GAU G 19 UCU A GAU U 138 UGA G GCA A 17 UUG C GCA C 12 CUC G GCA G 35 GAC C GCA U 21 GUG C GCC A 9 ACG C GCC C 3 GUC U GCC G 3 ACU G GCC U 0 UCU G GCG A 8 GUC G GCG C 4 CGC U GCG G 8 GCU C GCG U 8 CGA U GCU A 4 GGC C GCU C 8 AUC U GCU G 6 UCA C GCU U 34 UCA U GGA A 68 GGU G GGA C 251 UUU A GGA G 396 CUC C GGA U 160 AGC C GGC A 12 CGU G GGC C 9 CUC U GGC G 7 GGC A GGC U 8 GGU U GGG A 148 GUA A GGG C 7 CUG C GGG G 5932 GAG C GGG U 25 GAA C GGU A 6 AGA C GGU C 11 CCA U GGU G 13 GUA G GGU U 14 CUG A GUA A 20 GCA A GUA C 46 AUC A GUA G 28 CAU C GUA U 28 CUG U GUC A 6 CAU U GUC C 4 UUG A GUC G 11 UGU C GUC U 11 AAC A GUG A 23 ACU C GUG C 19 UCC U GUG G 38 ACU A GUG U 16 UAU G GUU A 7 GUG U GUU C 47 CAC G GUU G 11 UCG G GUU U 18 UGG U UAA A 826 UUG G UAA C 1887 ACC C UAA G 550 AGG A UAA U 541 CGC G UAC A 42 AUG A UAC C 43 CCG C UAC G 89 GAU A UAC U 47 GAU C UAG A 740 UCG A UAG C 167 AAC C UAG G 1495 AUG G UAG U 1374 CUU C UAU A 29 GUA U UAU C 3 Page 99 Supplementary Tables S1-S20.xlsx

208 Biochemical scores Table S20. Internal loops 3x1 AGC U UAU G 47 CGG U UAU U 62 GCC A UCA A 125 ACG G UCA C 24 CCA C UCA G 47 UUU C UCA U 36 ACC A UCC A 4 GCG A UCC C 5 GGC U UCC G 15 GUC A UCC U 9 GAC G UCG A 13 GCA U UCG C 5 GGC G UCG G 16 GGG C UCG U 28 CUU U UCU A 18 GUU A UCU C 3 GAU G UCU G 28 UCG C UCU U 21 GAC U UGA A 71 UCC C UGA C 13 AUA C UGA G 56 GCU G UGA U 20 AGG U UGC A 68 CCC C UGC C 1113 UCC A UGC G 42 GCA C UGC U 332 CCG A UGG A 256 GUU G UGG C 20 GCG C UGG G 58 GCU A UGG U 44 CGG G UGU A 54 GCG G UGU C 21 GCG U UGU G 96 AGG C UGU U 21 CGU A UUA A 246 CGU C UUA C 30 UAU C UUA G 1336 UCU C UUA U 5425 CCG G UUC A 11 ACG A UUC C 43 GGU A UUC G 27 CGU U UUC U 64 AUG C UUG A 63 GUC C UUG C 26 ACC U UUG G 43 GCC C UUG U 500 GCC G UUU A 22 CCG U UUU C 4 CGG C UUU G 86 GCC U UUU U 153 Page 100 Supplementary Tables S1-S20.xlsx

209 Antisense scores Table S21. Terminal loops-size Range Median * Median = max score - range/2 * Centered score = score - range Loop size Score SD Centered Score Loop size Total loop count Category Total loop count antisense CD-box CRISPR Gene HACA-box mirna scarna Page 1 Supplementary Tables S21-S40.xlsx

210 Antisense scores Table S21. Terminal loops-size Page 2 Supplementary Tables S21-S40.xlsx

213 Antisense scores Table S22. Bulges-size Range Median * Median = max score - range/2 * Centered score = score - range Bulge size Score SD Centered Score Bulge size Total bulge count Category Total bulge count antisense CD-box CRISPR Gene HACA-box mirna scarna Page 5 Supplementary Tables S21-S40.xlsx

214 Antisense scores Table S22. Bulges-size Page 6 Supplementary Tables S21-S40.xlsx

215 Antisense scores Table S23. Internal loops-size Range Median * Median = max score - range/2 * Centered score = score - range 5' size 3 'size Score SD Centered Score 5' size 3 'size Total i-loop count Category Total i-loop count antisense CD-box CRISPR Gene HACA-box mirna scarna Page 7 Supplementary Tables S21-S40.xlsx

216 Antisense scores Table S23. Internal loops-size Page 8 Supplementary Tables S21-S40.xlsx

237 Antisense scores Table S24. Terminal loops Biloops Triloops Tetraloops Pentaloops Range Range Range Range Median Median Median Median Loop Score Centered score Loop Score Centered score Loop Score Centered score Loop Score Centered score UA UAA UUUU UGCAU UU UAU GAAA UCCAG AA UUU AAAG UGGGC CA ACC UUCG UGGGU AG CAU GGAA UGUGU UG CAA GUAA UUGCC GA UCA GCAA UUUAU CU AAA AAAA UUUUG AC UGU GGAG CUUGU GG CCA GAGU AGAAA UC ACA UUAU UGGUA AU CUA AUUU UUCUU GU CUC GUCA CCUGU CC AUA UCAU UUUAG GC GAU UAUA UAUGU CG GAA UGGC UUCGU UCU UGGU UUUUA AUU UAGU UGUGC AUC UCCA UGAGU UUC UUGC UUUCG AGC ACGU UGGAU UUA CUUG UUGUG AAC ACCA UAUAG AAU UUUG UCCUG UAG AAGU CUUUG UGA AGAA UGCUU CUU GAAU UGCAA GCU CUUU AAUUU AUG UUGU UCUAA UCC AAAU CUUCG GGC GCCA UCCAU CAC UAUC AUUUG UGG GAGA UACUG CCU UAAA UGUGG GUU UCUU UGAAU UUG UUCA UUACC CUG GUGA UUGCU ACU UACA UACAU UAC UGCU UCUGA GAG GAUC UAUAU GCA CAGU UAUUU AGU GAAG UGCAC GGU CUCU UUUUC AGA GACA UUUCC UGC AACA UGCAG AAG UUUC UGGAC GUA UGUU UUCUC CCC UGAU CCCAG CAG UUUA UGGCC GUG AAAC GCGCA UCG AGCU UUCGC GAC AGAG AGUGU GUC UAAU AUAAU CGU AUGU UGCGC GGA UUCU AUAUA ACG UCCG UUCAU CGA CUGC UAUAA AGG CUGU CAUGC GCC ACCC AUUAA CGC UAUU UUUGC GGG AUCA UUUUU GCG GGGC UGACC CCG UCAA UUGGC CGG AGCA GCAUA Page 29 Supplementary Tables S21-S40.xlsx

238 Antisense scores Table S24. Terminal loops Page 30 CUCG UGUAU UCAC GUGGA ACAU UUUGU ACAC GAAUA GAUU UUAUA UCAG UGCGU UAUG CAUGU GUUA UCCCU GCGA UCCUC AUUA AUUCG GAAC UUGGU UCGC AUGUG GGCA UCUGU CCAG UCAAG GUAG UCCAA ACAA CUAGU CCAU UGUUU ACAG UCAUG UGCC UCCAC CAAG AUUAG AUGG UUGUC AUGC UGCCU UUAG ACUGU UGUG UCUCG AAUA UUCCC GGGU ACUUG GGGG GUAUA GAUG CAUCA CAAA CUCGU GGUA GUUUU UCCU GCUCA UCCC UGUGA UUAA UUCAG UAAC UUCCU CAAU UAUUG CUCA CUAUA CCAC UUUAA CCCC UCCUU ACUA AUUGU UUAC UUGGG AUAA UCUUU AGUA UGUAA CUAU GCUGU UAGC UUCUG GUCC GGUUU AUCU UGACU UGUC UGAGC AAUC CUUCU GGAU GACAA AAGC UGCCA GUCU GGACA CAGC UUGUU UGAA GAUUA UUCC CUUAU GAUA AAAAA UGAG CGUCG CCCA UGUUC UCUG CUUGA CAAC UCGUG AUGA UCAUA AUAU CUCUU AGGU ACUGA AGAU UUUGG AGUG AGGAA GUGU CGUGU CCAA AUUUA GCAG CCCCA UGCA AUACA GCGU GAUGA Supplementary Tables S21-S40.xlsx

239 Antisense scores Table S24. Terminal loops Page 31 GGUU UCCGA AGUU UGAGG GCAU UGGGA GGGA ACCAG GUUU AUGCC AAGG CUUUU CACU ACAUA CCUG CAGGA AACU CUCAG GCCU CUUCA ACUC GCUUG UGUA UUUAC CCUC AUCAU CAUA AACUU GCUU CACAG AUUG AAGUC GCAC UCCCC GUUC UUCCG CACG AGAAC CACA UGUAC GACU UCUCU GGUG UGAAA GGUC CAAAA CCGU UCCGU UCUC AUUUC AUAG UUGAU AUUC UAGGC CUCC UAUAC GUAU CUCCA AAUG UUCCA UAAG UUUGA UGGA UACAG UACC CCUUU GGCU UACAA CCUU UUCAA UCGU UUAAU AAGA AUGUC CACC CUGGU GUGG UAUGC UGCG CUUAA GCUA UUCAC ACUG CUCUG UGGG AUGAA GACC CAGCC AGGC UGAGA UCUA UCUGG AGGA UUGAC GACG GUCAU GUAC UGAAG CUAG UGCUA GUUG UGUAG ACCU AUCAG GCUG GGAGA UUGG AUUCC ACGC UGGUC UCGG UCAAA CUUC CAUUU CUAC ACAUC AAUU GAAUG GAGG AAUAC CAUU GCCAG UGAC CCUAG CCCU GAGGA UAGA GUACA AGUC CUGGC CUGG GGAUA GUGC UUACA GGAC GCACA UUGA UCUAC Supplementary Tables S21-S40.xlsx

240 Antisense scores Table S24. Terminal loops Page 32 AGAC AUAUG GAGC GACUG UACU UUAGU AACC UAGCC CUUA CUUGC GUCG GCUAU ACGA AUCAA UACG UCCCA UAGG AGCUA GCGC AUGGA CCUA UAAUA CGGC UAGUC CCGG AUCCA CAUC CAAUG AGCC AAUAA AUCC UAUGA AGGG UGGCU GCCC UCUUC CAGA AAUGG CUGA GCUCU CGGU AAAUC GGCG CUUGG ACUU UUCUA CAGG GCUAA CUAA AUAUU CGAU UACCU CGUG UGAUG CAUG GAAUU GCUC UCGCC CGAA UCUAU ACCG UAAAA CGCU GUGUA CCCG CUUAG AUAC CUGCC GGCC CUUCC CGAC GUAGU CGAG GCUGA CGGA CCAGA CCGC GCAUU CGUU CUACC AACG UGCUG UCGA AUGAG ACGG GGUGA CCGA UCAGU CGGG AGCAU AUCG UGCUC AGCG AAAUA GCGG CUAGA CGUA UAUUC CGCA UUAAA GCCG AGCAG CGUC UUCGG CGCC CUAUC CGCG CCCGU UAAUG CUGGA AAAAG AAGUA UCUUG UGGUG GCUGG CCAGU ACACA AUCUG UGGUU AUAGU UAUCA AGGGU GAAAA Supplementary Tables S21-S40.xlsx

241 Antisense scores Table S24. Terminal loops Page 33 UUGCA AUGUA CUAUG ACUUU CAGAA UCAUU CCUGA UUUCU UACUU GUAAU UUAAC UUGCG UUGUA ACUCU UGGAG UUAGA UGUCU CAUAA CUCUA UAGGG UGAUU UAGAU ACUAA UCUAG AGUUU AGUUC UCCGG AAACC GGCAG CGCGA UGCCG UCGGC UAAGU UCUCC CUAGC CUGUG AUAAA AUUAU CUAAG CUCAU UGACG ACUAG AAACA CAGGU AUUUU CCUGC AUGGG ACCAU AGAAU CUCAA UAUCG GCCUU UAAAU AGCAC ACAGU ACCUG CCCUU CCUAU UCCUA UGCGG UCCGC UGUCG GAAAU ACAGC GCAUG GGUUA UGCGA AUGUU UGUCC Supplementary Tables S21-S40.xlsx

242 Antisense scores Table S24. Terminal loops Page 34 ACUAU AAACU GUUCU CAGAU GGCUA UAGUG UUACG UGACA UAAAG UAAUU UUAUC CGACA AGGGC CCCAC CUUUC CCCUG GUCAA GUGUC AGAGC AAAAU ACGUG AGCUC GGAAG UGGGG AAGUG CCAUU UAACA GCCAA UAUCC UCGGU UUACU AUGGC UGGCA AAUGU CUCAC UAGGU AAAUU UAUGG UCUGC AUUGG AGACA AUCGA UAGAA CACUG CCUGG CUGAU GCCUA UAACC ACCCA AUCCC GUCUU CCUCU AAAGA CUACA CUCGC UUGAA CAUCG CGACC ACAUG AAAAC ACAAA GUUAU UUAUG GAAGG CCACC CGCAU GGAGU AGCGU UAUCU Supplementary Tables S21-S40.xlsx

243 Antisense scores Table S24. Terminal loops Page 35 AUCAC AUGCG AGAAG UACCC CUCCG AGAGA AUACG GCUUA CACGC GUAAA UUCGA AAUUC CCUAA AUGAC GGCCU GUGCC UCAAU UCAGG UGUUA AAAUG AGUAA CACAA AUAGC AUUGA AGGUG GACUC CAAGA GAAAC GUGGC GUUGU GUCUA GUUGA UACUC GCUAG UACAC GUGCG ACUCA GGAGG CAACC CCAUG ACCUC AUGAU CCAAU CGCUC UCAUC ACAUU AGUAC CAAAU GGGGC GUUAA AAGUU AUAAG CAUGA GAGCA GCCCA UGAAC UGUUG CCCAA AACUA ACUGG AGGUC CAGUA GUUCG AGUCC AGUUA CCCGG AGUGA CCCGC GAUGG Supplementary Tables S21-S40.xlsx

244 Antisense scores Table S24. Terminal loops Page 36 GGGUC UCCCG AUUCU CACUU UGCCC AAUUA AGGUA AUGGU CAAGG CUUUA GUGCA GAUGU AGCCA CGCGC GACCU GGAUC GACCA GCCUG GACUA AAAGG CGUAA GUGGU UAUUA UGGAA UGUCA ACGAG ACUUC AUCUU GAUCU GCCGG UCAGC UCGAG UUAGC UUGAG AUAGA CAACA CCCGA AGAUG CACAU GAGAA CGUAU CUAUU GAAUC UAACU UAGUA AGUUG AUCUA GCUCG AACAC AAUAG ACAGA GAAAG GAGUG GUUUA GUUUG UCACU UUGGA UUUCA CUGCA AAGAA AACGC ACUCC GGAGC GGCGC GGCUG AAUGA GUAGA GUCCU UAGUU Supplementary Tables S21-S40.xlsx

245 Antisense scores Table S24. Terminal loops Page 37 UCAAC AACAA AACAG AACAU AAUAU AAUCU AUGCA CAACU CAGUC CCAAC CUCCU GGAAA GUUGG UACUA UCUCA AAGGC GUGAC GCGUA CGUGC CUCGA GCAGG GGUUC ACUAC CUCUC AAGAG GGGAA GAACA CCAAA GAAGA GACAC AGUGG CAAGC GUUCA CAUUG UGAUC CGACG AACUG AAGGU AAUGC ACACC AGCUU AUCGG CACGG CCCCG CGAGC CUAAU CUGAA GAAGU GCGUG GGGCA GUUAG UGAUA GCGAU AGGAC CCGUG CUGAC GGAAC GGAUG GUAGC UCUUA UUAUU CAAAC CAGCU UAAGC GGUGU UUAGG ACCCU CUAAA CACAC Supplementary Tables S21-S40.xlsx

246 Antisense scores Table S24. Terminal loops Page 38 AUAGG CCUCA AUAUC CACCU CACUC AGUCU CUCGG CUUAC AAUCA AGUAG GGGGU UACGU GUGUG CCAGC UACCG ACUGC AGGCC AUUGC CAUCU GGGGG GUCAC GUGAA GUGUU GUUCC UAAGA UAAGG AGGAG AACCU AUGCU CAAGU CACGU CGAGA GAGGG GGACU GGGAG CAGUU CCCCU CCUCC CGCAC GGUGG UACGC UACGG AAGCA ACCAA ACGGC AGCCC AGGUU CAAUC CUACU CUAGG GAUAC GCAGC GUAUG GUUUC UAGCU UCGUC UCGUU CCGAA GAGUA AUAAC CACCA CAUUC CCCCC CCGGC CGUGA GCUUU GGCGA AACCC AAGGA Supplementary Tables S21-S40.xlsx

247 Antisense scores Table S24. Terminal loops Page 39 ACACU AGAUA CAUAC CCAAG CCUUA CGGGC GGAUU GGGGA CGAUG CAUAU GCAAG AACGU AAGGG ACGUA AGACG CAGCA CUGUC CUGUU GAUAA GUCCA ACCUU ACGCA ACUUA AGAUU AGCAA AGGGA CCACU CCAUA CCCUC CCUUC CGGGG CUGCU GAACC GAGAU GAUUU GGCUU GUUAC UCACA UCGAA UUAAG CAGGG CCCAU CGGCC GAGAG AACCA CAAAG CAGGC CCUCG CGCAG GAUGC GGCAU GGGUA UAAUC GGUAA ACGCU ACGGU AUCCU CCGCC CGAAC CGGUG CGUCA GCCAC GUACU GUGAU UAACG UCAGA GGUAG GUGGG AACUC Supplementary Tables S21-S40.xlsx

248 Antisense scores Table S24. Terminal loops Page 40 ACACG ACGAA ACGUU AGACC GCCCG GGCAC UAGAC AGUGC CACGA CGAAA GGUGC UAAAC GCAAC GUACC AAGCC ACCAC ACGGG ACUCG AGCCU AGCUG AUUAC CAACG CGAAU CGGGU CGUCC CUGAG CUGUA GAUUC GGGUG GUAAC GUCUC AAGAU ACAAG CCACA CCAGG CGAGU CGUUU GAUAU GCACG GCUCC GUAUU CAAUA CAGAG CCGGA CGACU GAAGC GGUCA AAUUG ACCGA ACGAU AGGAU AUACC AUACU AUCGU AUCUC AUUCA CGAGG CGGAC CUAAC GAGUU GCAGA GCGCG GCGGG GGUAC GUCGU UACCA UAGAG AGAGU CGCGU Supplementary Tables S21-S40.xlsx

249 Antisense scores Table S24. Terminal loops Page 41 CGCUG GAACU GAGAC UACGA AAUCG ACAAU ACCUA AGCGC CAUAG CGGGA GAUAG GGACC AAAGU ACGGA AGCGG AGGCU AGUCA CAGAC CAGUG CAUGG CCGAG CUCCC GACAU GACCG GAGGC GCAGU GCCAU GGAAU GGCGU GUAAG GUGCU UAGGA UCGAC UCGAU ACAGG ACGCC AGACU GAUCA GGUAU GUCAG UAGCG AAAGC ACCCG ACCGU CGCCU CGGUA CGUGG CUGCG CUGGG AACGA AAGAC AAGCG AAUCC ACGAC ACGUC AGAGG AGCCG AGGCA AGGCG CACCC CCGUU CCUUG CGCCC CGGCA CGGCU GACGA GCAAA GCGGU GCUGC Supplementary Tables S21-S40.xlsx

250 Antisense scores Table S24. Terminal loops Page 42 GGCAA GGCGG GUAGG GUUGC UCACC ACGCG AGAUC AGCGA AGGGG AGUAU CACUA CAUUA CCGAC CGGAU CGGUC CUACG GACGU GACUU GAGCC GAUUG GCAUC GGUCC UAGCA UCGCA UCGGG UGGCG AAACG AACCG ACCGG CAAUU CCGCU CCGUC CGCCA CGCCG CGGAG CGGUU CGUAG GAGGU GAUCG GCACC GCGUU GGCCG GGCUC GGGAC GGGUU GGUUG GUACG GUAUC GUCGA GUCUG GUGAG UCGCU UCGUA AACGG AAGCU ACAAC ACCCC AUCCG CAGCG CAUCC CCACG CCAUC CCGCG CCGGG CCGGU CCUAC CGAAG CGAUA CGAUC Supplementary Tables S21-S40.xlsx

251 Antisense scores Table S24. Terminal loops CGAUU CGCAA CGCGG CGCUA CGCUU CGGAA CGUAC CGUCU CGUUC CGUUG GACAG GACGG GAGCG GAGCU GAGUC GCACU GCCCU GCGAA GCGAG GCUUC GGACG GGCCA GGCCC GGGAU GGGCU GGUCG GGUCU GUCCC GUCGC UCACG UCGGA ACCGC AGUCG AUCGC CACCG CCCUA CCGAU CCGCA CCGUA CGGCG CGUUA GAACG GACCC GACGC GAUCC GCAAU GCCCC GCCGA GCCGC GCCGU GCCUC GCGAC GCGCC GCGCU GCGGA GCGGC GCGUC GCUAC GGGCC GGGCG GUCCG GUCGG UCGCG Page 43 Supplementary Tables S21-S40.xlsx

252 Antisense scores Table S25. Biloops Loop Score SD Loop Total loop count Supercategory Total loop count UA AA 1095 Antisense 926 UU AC 304 Gene AA AG 863 SnoRNA 1255 CA AU 308 AG CA 1274 UG CC 213 GA CG 67 CU CU 361 AC GA 605 GG GC 92 UC GG 349 AU GU 228 GU UA 6474 CC UC 350 GC UG 841 CG UU 654 Page 44 Supplementary Tables S21-S40.xlsx

253 Antisense scores Table S26. Triloops Loop Score SD Loop Total loop count Supercategory Total loop count UAA AAA 1484 Antisense UAU AAC 366 Gene UUU AAG 238 SnoRNA 8146 ACC AAU 363 CAU ACA 787 CAA ACC UCA ACG 42 AAA ACU 383 UGU AGA 299 CCA AGC 563 ACA AGG 67 CUA AGU 158 CUC AUA 2257 AUA AUC 737 GAU AUG 277 GAA AUU 1525 UCU CAA 1371 AUU CAC 194 AUC CAG 295 UUC CAU 3111 AGC CCA 2047 UUA CCC 126 AAC CCG 18 AAU CCU 210 UAG CGA 197 UGA CGC 36 CUU CGG 28 GCU CGU 84 AUG CUA 851 UCC CUC 658 GGC CUG 203 CAC CUU 229 UGG GAA 574 CCU GAC 92 GUU GAG 434 UUG GAU 477 CUG GCA 172 ACU GCC 798 UAC GCG 21 GAG GCU 393 GCA GGA 178 AGU GGC 607 GGU GGG 94 AGA GGU 144 UGC GUA 190 AAG GUC 84 GUA GUG 166 CCC GUU 193 CAG UAA GUG UAC 294 UCG UAG 593 GAC UAU 1447 GUC UCA 2103 CGU UCC 215 GGA UCG 141 ACG UCU 756 CGA UGA 820 AGG UGC 214 GCC UGG 357 CGC UGU 803 GGG UUA 554 GCG UUC 449 CCG UUG 245 CGG UUU 2009 Page 45 Supplementary Tables S21-S40.xlsx

254 Antisense scores Table S27. Tetraloops Loop Score SD Loop Total loop count Supercategory Total loop count UUUU AAAA 1291 Antisense GAAA AAAC 168 Gene AAAG AAAG 1367 SnoRNA 9305 UUCG AAAU 213 GGAA AACA 211 GUAA AACC 81 GCAA AACG 9 AAAA AACU 81 GGAG AAGA 91 GAGU AAGC 73 UUAU AAGG 51 AUUU AAGU 233 GUCA AAUA 140 UCAU AAUC 108 UAUA AAUG 40 UGGC AAUU 98 UGGU ACAA 140 UAGU ACAC 131 UCCA ACAG 107 UUGC ACAU 167 ACGU ACCA 734 CUUG ACCC 142 ACCA ACCG 41 UUUG ACCU 37 AAGU ACGA 25 AGAA ACGC 40 GAAU ACGG 8 CUUU ACGU 398 UUGU ACUA 95 AAAU ACUC 48 GCCA ACUG 34 UAUC ACUU 24 GAGA AGAA 402 UAAA AGAC 104 UCUU AGAG 810 UUCA AGAU 110 GUGA AGCA 208 UACA AGCC 35 UGCU AGCG 11 GAUC AGCU 250 CAGU AGGA 209 GAAG AGGC 205 CUCU AGGG 69 GACA AGGU 152 AACA AGUA 88 UUUC AGUC 40 UGUU AGUG 110 UGAU AGUU 75 UUUA AUAA 118 AAAC AUAC 19 AGCU AUAG 88 AGAG AUAU 89 UAAU AUCA 139 AUGU AUCC 22 UUCU AUCG 18 UCCG AUCU 119 CUGC AUGA 62 CUGU AUGC 96 ACCC AUGG 106 UAUU AUGU 149 AUCA AUUA 111 GGGC AUUC 65 UCAA AUUG 46 AGCA AUUU 457 CUCG CAAA 302 UCAC CAAC 72 ACAU CAAG 253 ACAC CAAU 204 Page 46 Supplementary Tables S21-S40.xlsx

255 Antisense scores Table S27. Tetraloops GAUU CACA 66 UCAG CACC 47 UAUG CACG 72 GUUA CACU 54 GCGA CAGA 61 AUUA CAGC 166 GAAC CAGG 43 UCGC CAGU 250 GGCA CAUA 82 CCAG CAUC 21 GUAG CAUG 22 ACAA CAUU 36 CCAU CCAA 106 ACAG CCAC 77 UGCC CCAG 317 CAAG CCAU 232 AUGG CCCA 65 AUGC CCCC 86 UUAG CCCG 13 UGUG CCCU 31 AAUA CCGA 14 GGGU CCGC 17 GGGG CCGG 38 GAUG CCGU 43 CAAA CCUA 36 GGUA CCUC 69 UCCU CCUG 52 UCCC CCUU 50 UUAA CGAA 26 UAAC CGAC 30 CAAU CGAG 55 CUCA CGAU 40 CCAC CGCA 4 CCCC CGCC 2 ACUA CGCG 1 UUAC CGCU 13 AUAA CGGA 30 AGUA CGGC 91 CUAU CGGG 14 UAGC CGGU 73 GUCC CGUA 11 AUCU CGUC 7 UGUC CGUG 20 AAUC CGUU 16 GGAU CUAA 49 AAGC CUAC 30 GUCU CUAG 62 CAGC CUAU 85 UGAA CUCA 103 UUCC CUCC 61 GAUA CUCG 129 UGAG CUCU 222 CCCA CUGA 32 UCUG CUGC 571 CAAC CUGG 35 AUGA CUGU 155 AUAU CUUA 26 AGGU CUUC 33 AGAU CUUG 260 AGUG CUUU 219 GUGU GAAA CCAA GAAC 201 GCAG GAAG 1352 UGCA GAAU 426 GCGU GACA 269 GGUU GACC 37 AGUU GACG 40 GCAU GACU 56 GGGA GAGA 855 Page 47 Supplementary Tables S21-S40.xlsx

256 Antisense scores Table S27. Tetraloops GUUU GAGC 63 AAGG GAGG 45 CACU GAGU 439 CCUG GAUA 136 AACU GAUC 222 GCCU GAUG 97 ACUC GAUU 410 UGUA GCAA 738 CCUC GCAC 173 CAUA GCAG 324 GCUU GCAU 269 AUUG GCCA 874 GCAC GCCC 23 GUUC GCCG 6 CACG GCCU 51 CACA GCGA 166 GACU GCGC 102 GGUG GCGG 8 GGUC GCGU 143 CCGU GCUA 39 UCUC GCUC 15 AUAG GCUG 43 AUUC GCUU 49 CUCC GGAA 5092 GUAU GGAC 309 AAUG GGAG 8001 UAAG GGAU 500 UGGA GGCA 142 UACC GGCC 49 GGCU GGCG 57 CCUU GGCU 45 UCGU GGGA 164 AAGA GGGC 330 CACC GGGG 366 GUGG GGGU 188 UGCG GGUA 110 GCUA GGUC 44 ACUG GGUG 312 UGGG GGUU 86 GACC GUAA 690 AGGC GUAC 90 UCUA GUAG 315 AGGA GUAU 67 GACG GUCA 478 GUAC GUCC 71 CUAG GUCG 29 GUUG GUCU 88 ACCU GUGA 187 GCUG GUGC 75 UUGG GUGG 77 ACGC GUGU 77 UCGG GUUA 106 CUUC GUUC 76 CUAC GUUG 38 AAUU GUUU 93 GAGG UAAA 379 CAUU UAAC 218 UGAC UAAG 92 CCCU UAAU 223 UAGA UACA 219 AGUC UACC 48 CUGG UACG 39 GUGC UACU 70 GGAC UAGA 113 UUGA UAGC 484 AGAC UAGG 31 GAGC UAGU 483 UACU UAUA 570 AACC UAUC 272 Page 48 Supplementary Tables S21-S40.xlsx

257 Antisense scores Table S27. Tetraloops CUUA UAUG 104 GUCG UAUU 146 ACGA UCAA 150 UACG UCAC 210 UAGG UCAG 125 GCGC UCAU 657 CCUA UCCA 410 CGGC UCCC 90 CCGG UCCG 140 CAUC UCCU 183 AGCC UCGA 9 AUCC UCGC 566 AGGG UCGG 143 GCCC UCGU 40 CAGA UCUA 33 CUGA UCUC 67 CGGU UCUG 73 GGCG UCUU 467 ACUU UGAA 240 CAGG UGAC 575 CUAA UGAG 374 CGAU UGAU 441 CGUG UGCA 86 CAUG UGCC 152 GCUC UGCG 67 CGAA UGCU 198 ACCG UGGA 251 CGCU UGGC 6867 CCCG UGGG 222 AUAC UGGU 3056 GGCC UGUA 63 CGAC UGUC 190 CGAG UGUG 104 CGGA UGUU 183 CCGC UUAA 125 CGUU UUAC 76 AACG UUAG 113 UCGA UUAU 404 ACGG UUCA 192 CCGA UUCC 127 CGGG UUCG 874 AUCG UUCU 234 AGCG UUGA 30 GCGG UUGC 356 CGUA UUGG 64 CGCA UUGU 505 GCCG UUUA 211 CGUC UUUC 152 CGCC UUUG 291 CGCG UUUU 1835 Page 49 Supplementary Tables S21-S40.xlsx

258 Antisense scores Table S28. Pentaloops Loop Score SD Loop Total loop count Supercategory Total loop count UGCAU AAAAA 51 Antisense UCCAG AAAAC 19 Gene UGGGC AAAAG 34 SnoRNA UGGGU AAAAU 27 UGUGU AAACA 22 UUGCC AAACC 33 UUUAU AAACG 2 UUUUG AAACU 14 CUUGU AAAGA 54 AGAAA AAAGC 5 UGGUA AAAGG 9 UUCUU AAAGU 3 CCUGU AAAUA 71 UUUAG AAAUC 61 UAUGU AAAUG 66 UUCGU AAAUU 64 UUUUA AACAA 23 UGUGC AACAC 12 UGAGU AACAG 7 UUUCG AACAU 11 UGGAU AACCA 7 UUGUG AACCC 7 UAUAG AACCG 2 UCCUG AACCU 12 CUUUG AACGA 2 UGCUU AACGC 12 UGCAA AACGG 1 AAUUU AACGU 6 UCUAA AACUA 17 CUUCG AACUC 6 UCCAU AACUG 12 AUUUG AACUU 42 UACUG AAGAA 27 UGUGG AAGAC 2 UGAAU AAGAG 21 UUACC AAGAU 12 UUGCU AAGCA 11 UACAU AAGCC 5 UCUGA AAGCG 2 UAUAU AAGCU 1 UAUUU AAGGA 7 UGCAC AAGGC 12 UUUUC AAGGG 6 UUUCC AAGGU 6 UGCAG AAGUA 25 UGGAC AAGUC 68 UUCUC AAGUG 74 CCCAG AAGUU 16 UGGCC AAUAA 70 GCGCA AAUAC 64 UUCGC AAUAG 8 AGUGU AAUAU 9 AUAAU AAUCA 8 UGCGC AAUCC 2 AUAUA AAUCG 8 UUCAU AAUCU 11 UAUAA AAUGA 13 CAUGC AAUGC 12 AUUAA AAUGG 34 UUUGC AAUGU 25 UUUUU AAUUA 10 UGACC AAUUC 20 UUGGC AAUUG 10 GCAUA AAUUU 111 UGUAU ACAAA 19 GUGGA ACAAC 1 UUUGU ACAAG 12 GAAUA ACAAU 8 Page 50 Supplementary Tables S21-S40.xlsx

259 Antisense scores Table S28. Pentaloops UUAUA ACACA 60 UGCGU ACACC 6 CAUGU ACACG 6 UCCCU ACACU 27 UCCUC ACAGA 12 AUUCG ACAGC 52 UUGGU ACAGG 6 AUGUG ACAGU 26 UCUGU ACAUA 60 UCAAG ACAUC 24 UCCAA ACAUG 84 CUAGU ACAUU 10 UGUUU ACCAA 31 UCAUG ACCAC 5 UCCAC ACCAG 85 AUUAG ACCAU 20 UUGUC ACCCA 14 UGCCU ACCCC 1 ACUGU ACCCG 5 UCUCG ACCCU 9 UUCCC ACCGA 4 ACUUG ACCGC 0 GUAUA ACCGG 2 CAUCA ACCGU 5 CUCGU ACCUA 8 GUUUU ACCUC 11 GCUCA ACCUG 26 UGUGA ACCUU 6 UUCAG ACGAA 6 UUCCU ACGAC 2 UAUUG ACGAG 8 CUAUA ACGAU 4 UUUAA ACGCA 6 UCCUU ACGCC 6 AUUGU ACGCG 3 UUGGG ACGCU 17 UCUUU ACGGA 7 UGUAA ACGGC 5 GCUGU ACGGG 13 UUCUG ACGGU 5 GGUUU ACGUA 6 UGACU ACGUC 2 UGAGC ACGUG 124 CUUCU ACGUU 6 GACAA ACUAA 37 UGCCA ACUAC 14 GGACA ACUAG 16 UUGUU ACUAU 17 GAUUA ACUCA 20 CUUAU ACUCC 26 AAAAA ACUCG 5 CGUCG ACUCU 24 UGUUC ACUGA 35 CUUGA ACUGC 9 UCGUG ACUGG 9 UCAUA ACUGU 42 CUCUU ACUUA 8 ACUGA ACUUC 8 UUUGG ACUUG 58 AGGAA ACUUU 24 CGUGU AGAAA 159 AUUUA AGAAC 44 CCCCA AGAAG 22 AUACA AGAAU 28 GAUGA AGACA 12 UCCGA AGACC 16 UGAGG AGACG 6 UGGGA AGACU 6 ACCAG AGAGA 14 Page 51 Supplementary Tables S21-S40.xlsx

260 Antisense scores Table S28. Pentaloops AUGCC AGAGC 46 CUUUU AGAGG 4 ACAUA AGAGU 9 CAGGA AGAUA 7 CUCAG AGAUC 3 CUUCA AGAUG 31 GCUUG AGAUU 8 UUUAC AGCAA 8 AUCAU AGCAC 20 AACUU AGCAG 50 CACAG AGCAU 30 AAGUC AGCCA 37 UCCCC AGCCC 5 UUCCG AGCCG 2 AGAAC AGCCU 13 UGUAC AGCGA 3 UCUCU AGCGC 8 UGAAA AGCGG 3 CAAAA AGCGU 21 UCCGU AGCUA 27 AUUUC AGCUC 16 UUGAU AGCUG 5 UAGGC AGCUU 12 UAUAC AGGAA 56 CUCCA AGGAC 9 UUCCA AGGAG 35 UUUGA AGGAU 4 UACAG AGGCA 2 CCUUU AGGCC 5 UACAA AGGCG 4 UUCAA AGGCU 3 UUAAU AGGGA 4 AUGUC AGGGC 27 CUGGU AGGGG 3 UAUGC AGGGU 29 CUUAA AGGUA 10 UUCAC AGGUC 10 CUCUG AGGUG 39 AUGAA AGGUU 5 CAGCC AGUAA 65 UGAGA AGUAC 10 UCUGG AGUAG 8 UUGAC AGUAU 3 GUCAU AGUCA 3 UGAAG AGUCC 18 UGCUA AGUCG 0 UGUAG AGUCU 6 AUCAG AGUGA 20 GGAGA AGUGC 15 AUUCC AGUGG 13 UGGUC AGUGU 96 UCAAA AGUUA 18 CAUUU AGUUC 56 ACAUC AGUUG 11 GAAUG AGUUU 15 AAUAC AUAAA 56 GCCAG AUAAC 10 CCUAG AUAAG 12 GAGGA AUAAU 70 GUACA AUACA 30 CUGGC AUACC 4 GGAUA AUACG 10 UUACA AUACU 4 GCACA AUAGA 13 UCUAC AUAGC 10 AUAUG AUAGG 15 GACUG AUAGU 45 UUAGU AUAUA 59 UAGCC AUAUC 10 Page 52 Supplementary Tables S21-S40.xlsx

261 Antisense scores Table S28. Pentaloops CUUGC AUAUG 120 GCUAU AUAUU 24 AUCAA AUCAA 27 UCCCA AUCAC 26 AGCUA AUCAG 23 AUGGA AUCAU 34 UAAUA AUCCA 38 UAGUC AUCCC 42 AUCCA AUCCG 1 CAAUG AUCCU 5 AAUAA AUCGA 37 UAUGA AUCGC 0 UGGCU AUCGG 18 UCUUC AUCGU 4 AAUGG AUCUA 13 GCUCU AUCUC 10 AAAUC AUCUG 25 CUUGG AUCUU 14 UUCUA AUGAA 32 GCUAA AUGAC 10 AUAUU AUGAG 48 UACCU AUGAU 11 UGAUG AUGCA 23 GAAUU AUGCC 43 UCGCC AUGCG 36 UCUAU AUGCU 12 UAAAA AUGGA 55 GUGUA AUGGC 16 CUUAG AUGGG 38 CUGCC AUGGU 16 CUUCC AUGUA 59 GUAGU AUGUC 62 GCUGA AUGUG 683 CCAGA AUGUU 64 GCAUU AUUAA 76 CUACC AUUAC 3 UGCUG AUUAG 126 AUGAG AUUAU 21 GGUGA AUUCA 4 UCAGU AUUCC 40 AGCAU AUUCG 1720 UGCUC AUUCU 15 AAAUA AUUGA 192 CUAGA AUUGC 9 UAUUC AUUGG 18 UUAAA AUUGU 63 AGCAG AUUUA 33 UUCGG AUUUC 50 CUAUC AUUUG 90 CCCGU AUUUU 37 UAAUG CAAAA 37 CUGGA CAAAC 11 AAAAG CAAAG 7 AAGUA CAAAU 18 UCUUG CAACA 20 UGGUG CAACC 55 GCUGG CAACG 13 CCAGU CAACU 15 ACACA CAAGA 38 AUCUG CAAGC 13 UGGUU CAAGG 38 AUAGU CAAGU 12 UAUCA CAAUA 11 AGGGU CAAUC 11 GAAAA CAAUG 26 UUGCA CAAUU 2 AUGUA CACAA 23 CUAUG CACAC 44 ACUUU CACAG 34 Page 53 Supplementary Tables S21-S40.xlsx

262 Antisense scores Table S28. Pentaloops CAGAA CACAU 31 UCAUU CACCA 10 CCUGA CACCC 4 UUUCU CACCG 0 UACUU CACCU 10 GUAAU CACGA 15 UUAAC CACGC 20 UUGCG CACGG 10 UUGUA CACGU 12 ACUCU CACUA 3 UGGAG CACUC 10 UUAGA CACUG 24 UGUCU CACUU 9 CAUAA CAGAA 42 CUCUA CAGAC 3 UAGGG CAGAG 11 UGAUU CAGAU 14 UAGAU CAGCA 6 ACUAA CAGCC 62 UCUAG CAGCG 1 AGUUU CAGCU 11 AGUUC CAGGA 29 UCCGG CAGGC 7 AAACC CAGGG 21 GGCAG CAGGU 20 CGCGA CAGUA 10 UGCCG CAGUC 15 UCGGC CAGUG 7 UAAGU CAGUU 8 UCUCC CAUAA 37 CUAGC CAUAC 7 CUGUG CAUAG 8 AUAAA CAUAU 9 AUUAU CAUCA 69 CUAAG CAUCC 1 CUCAU CAUCG 14 UGACG CAUCU 5 ACUAG CAUGA 12 AAACA CAUGC 67 CAGGU CAUGG 3 AUUUU CAUGU 87 CCUGC CAUUA 3 AUGGG CAUUC 10 ACCAU CAUUG 19 AGAAU CAUUU 51 CUCAA CCAAA 10 UAUCG CCAAC 7 GCCUU CCAAG 7 UAAAU CCAAU 13 AGCAC CCACA 4 ACAGU CCACC 21 ACCUG CCACG 1 CCCUU CCACU 8 CCUAU CCAGA 64 UCCUA CCAGC 8 UGCGG CCAGG 4 UCCGC CCAGU 104 UGUCG CCAUA 4 GAAAU CCAUC 1 ACAGC CCAUG 17 GCAUG CCAUU 13 GGUUA CCCAA 47 UGCGA CCCAC 19 AUGUU CCCAG 759 UGUCC CCCAU 21 ACUAU CCCCA 59 AAACU CCCCC 10 GUUCU CCCCG 12 CAGAU CCCCU 8 Page 54 Supplementary Tables S21-S40.xlsx

263 Antisense scores Table S28. Pentaloops GGCUA CCCGA 20 UAGUG CCCGC 8 UUACG CCCGG 42 UGACA CCCGU 19 UAAAG CCCUA 0 UAAUU CCCUC 4 UUAUC CCCUG 27 CGACA CCCUU 38 AGGGC CCGAA 29 CCCAC CCGAC 3 CUUUC CCGAG 3 CCCUG CCGAU 0 GUCAA CCGCA 0 GUGUC CCGCC 5 AGAGC CCGCG 1 AAAAU CCGCU 2 ACGUG CCGGA 11 AGCUC CCGGC 10 GGAAG CCGGG 1 UGGGG CCGGU 1 AAGUG CCGUA 0 CCAUU CCGUC 2 UAACA CCGUG 9 GCCAA CCGUU 2 UAUCC CCUAA 27 UCGGU CCUAC 1 UUACU CCUAG 69 AUGGC CCUAU 32 UGGCA CCUCA 15 AAUGU CCUCC 8 CUCAC CCUCG 7 UAGGU CCUCU 31 AAAUU CCUGA 94 UAUGG CCUGC 33 UCUGC CCUGG 23 AUUGG CCUGU 234 AGACA CCUUA 7 AUCGA CCUUC 8 UAGAA CCUUG 2 CACUG CCUUU 59 CCUGG CGAAA 15 CUGAU CGAAC 5 GCCUA CGAAG 1 UAACC CGAAU 3 ACCCA CGACA 36 AUCCC CGACC 39 GUCUU CGACG 54 CCUCU CGACU 11 AAAGA CGAGA 34 CUACA CGAGC 12 CUCGC CGAGG 4 UUGAA CGAGU 4 CAUCG CGAUA 1 CGACC CGAUC 1 ACAUG CGAUG 26 AAAAC CGAUU 1 ACAAA CGCAA 1 GUUAU CGCAC 32 UUAUG CGCAG 7 GAAGG CGCAU 37 CCACC CGCCA 2 CGCAU CGCCC 2 GGAGU CGCCG 2 AGCGU CGCCU 5 UAUCU CGCGA 21 AUCAC CGCGC 13 AUGCG CGCGG 1 AGAAG CGCGU 9 UACCC CGCUA 1 Page 55 Supplementary Tables S21-S40.xlsx

264 Antisense scores Table S28. Pentaloops CUCCG CGCUC 33 AGAGA CGCUG 9 AUACG CGCUU 1 GCUUA CGGAA 1 CACGC CGGAC 4 GUAAA CGGAG 2 UUCGA CGGAU 3 AAUUC CGGCA 2 CCUAA CGGCC 21 AUGAC CGGCG 0 GGCCU CGGCU 4 GUGCC CGGGA 8 UCAAU CGGGC 7 UCAGG CGGGG 6 UGUUA CGGGU 13 AAAUG CGGUA 5 AGUAA CGGUC 3 CACAA CGGUG 5 AUAGC CGGUU 2 AUUGA CGUAA 21 AGGUG CGUAC 1 GACUC CGUAG 2 CAAGA CGUAU 7 GAAAC CGUCA 5 GUGGC CGUCC 5 GUUGU CGUCG 1968 GUCUA CGUCU 1 GUUGA CGUGA 10 UACUC CGUGC 22 GCUAG CGUGG 5 UACAC CGUGU 38 GUGCG CGUUA 0 ACUCA CGUUC 1 GGAGG CGUUG 1 CAACC CGUUU 4 CCAUG CUAAA 9 ACCUC CUAAC 4 AUGAU CUAAG 18 CCAAU CUAAU 6 CGCUC CUACA 12 UCAUC CUACC 21 ACAUU CUACG 3 AGUAC CUACU 7 CAAAU CUAGA 26 GGGGC CUAGC 21 GUUAA CUAGG 7 AAGUU CUAGU 78 AUAAG CUAUA 57 CAUGA CUAUC 20 GAGCA CUAUG 25 GCCCA CUAUU 7 UGAAC CUCAA 51 UGUUG CUCAC 39 CCCAA CUCAG 48 AACUA CUCAU 20 ACUGG CUCCA 36 AGGUC CUCCC 3 CAGUA CUCCG 11 GUUCG CUCCU 7 AGUCC CUCGA 22 AGUUA CUCGC 20 CCCGG CUCGG 8 AGUGA CUCGU 47 CCCGC CUCUA 23 GAUGG CUCUC 14 GGGUC CUCUG 48 UCCCG CUCUU 47 AUUCU CUGAA 6 CACUU CUGAC 49 Page 56 Supplementary Tables S21-S40.xlsx

265 Antisense scores Table S28. Pentaloops UGCCC CUGAG 5 AAUUA CUGAU 59 AGGUA CUGCA 14 AUGGU CUGCC 28 CAAGG CUGCG 5 CUUUA CUGCU 8 GUGCA CUGGA 27 GAUGU CUGGC 59 AGCCA CUGGG 5 CGCGC CUGGU 28 GACCU CUGUA 5 GGAUC CUGUC 6 GACCA CUGUG 45 GCCUG CUGUU 6 GACUA CUUAA 182 AAAGG CUUAC 8 CGUAA CUUAG 32 GUGGU CUUAU 35 UAUUA CUUCA 33 UGGAA CUUCC 28 UGUCA CUUCG 959 ACGAG CUUCU 57 ACUUC CUUGA 41 AUCUU CUUGC 22 GAUCU CUUGG 21 GCCGG CUUGU 182 UCAGC CUUUA 24 UCGAG CUUUC 27 UUAGC CUUUG 124 UUGAG CUUUU 29 AUAGA GAAAA 96 CAACA GAAAC 61 CCCGA GAAAG 28 AGAUG GAAAU 46 CACAU GAACA 11 GAGAA GAACC 8 CGUAU GAACG 0 CUAUU GAACU 9 GAAUC GAAGA 20 UAACU GAAGC 11 UAGUA GAAGG 22 AGUUG GAAGU 6 AUCUA GAAUA 111 GCUCG GAAUC 87 AACAC GAAUG 46 AAUAG GAAUU 65 ACAGA GACAA 57 GAAAG GACAC 8 GAGUG GACAG 1 GUUUA GACAU 3 GUUUG GACCA 17 UCACU GACCC 0 UUGGA GACCG 3 UUUCA GACCU 13 CUGCA GACGA 2 AAGAA GACGC 0 AACGC GACGG 1 ACUCC GACGU 3 GGAGC GACUA 98 GGCGC GACUC 29 GGCUG GACUG 33 AAUGA GACUU 3 GUAGA GAGAA 91 GUCCU GAGAC 9 UAGUU GAGAG 20 UCAAC GAGAU 6 AACAA GAGCA 12 AACAG GAGCC 3 AACAU GAGCG 1 Page 57 Supplementary Tables S21-S40.xlsx

266 Antisense scores Table S28. Pentaloops AAUAU GAGCU 1 AAUCU GAGGA 33 AUGCA GAGGC 3 CAACU GAGGG 12 CAGUC GAGGU 2 CCAAC GAGUA 29 CUCCU GAGUC 1 GGAAA GAGUG 8 GUUGG GAGUU 4 UACUA GAUAA 6 UCUCA GAUAC 7 AAGGC GAUAG 8 GUGAC GAUAU 4 GCGUA GAUCA 6 CGUGC GAUCC 0 CUCGA GAUCG 2 GCAGG GAUCU 8 GGUUC GAUGA 31 ACUAC GAUGC 7 CUCUC GAUGG 9 AAGAG GAUGU 14 GGGAA GAUUA 113 GAACA GAUUC 3 CCAAA GAUUG 3 GAAGA GAUUU 8 GACAC GCAAA 2 AGUGG GCAAC 14 CAAGC GCAAG 9 GUUCA GCAAU 0 CAUUG GCACA 1728 UGAUC GCACC 2 CGACG GCACG 4 AACUG GCACU 1 AAGGU GCAGA 10 AAUGC GCAGC 5 ACACC GCAGG 22 AGCUU GCAGU 3 AUCGG GCAUA 2882 CACGG GCAUC 3 CCCCG GCAUG 25 CGAGC GCAUU 20 CUAAU GCCAA 119 CUGAA GCCAC 5 GAAGU GCCAG 211 GCGUG GCCAU 7 GGGCA GCCCA 48 GUUAG GCCCC 0 UGAUA GCCCG 6 GCGAU GCCCU 1 AGGAC GCCGA 0 CCGUG GCCGC 0 CUGAC GCCGG 12 GGAAC GCCGU 0 GGAUG GCCUA 15 GUAGC GCCUC 0 UCUUA GCCUG 17 UUAUU GCCUU 50 CAAAC GCGAA 1 CAGCU GCGAC 0 UAAGC GCGAG 1 GGUGU GCGAU 50 UUAGG GCGCA 187 ACCCU GCGCC 0 CUAAA GCGCG 10 CACAC GCGCU 0 AUAGG GCGGA 0 CCUCA GCGGC 0 AUAUC GCGGG 10 CACCU GCGGU 2 Page 58 Supplementary Tables S21-S40.xlsx

267 Antisense scores Table S28. Pentaloops CACUC GCGUA 65 AGUCU GCGUC 0 CUCGG GCGUG 12 CUUAC GCGUU 2 AAUCA GCUAA 33 AGUAG GCUAC 0 GGGGU GCUAG 58 UACGU GCUAU 22 GUGUG GCUCA 52 CCAGC GCUCC 4 UACCG GCUCG 13 ACUGC GCUCU 27 AGGCC GCUGA 31 AUUGC GCUGC 2 CAUCU GCUGG 23 GGGGG GCUGU 43 GUCAC GCUUA 14 GUGAA GCUUC 1 GUGUU GCUUG 38 GUUCC GCUUU 10 UAAGA GGAAA 23 UAAGG GGAAC 17 AGGAG GGAAG 27 AACCU GGAAU 7 AUGCU GGACA 221 CAAGU GGACC 8 CACGU GGACG 1 CGAGA GGACU 12 GAGGG GGAGA 44 GGACU GGAGC 76 GGGAG GGAGG 26 CAGUU GGAGU 28 CCCCU GGAUA 354 CCUCC GGAUC 13 CGCAC GGAUG 17 GGUGG GGAUU 7 UACGC GGCAA 4 UACGG GGCAC 16 AAGCA GGCAG 17 ACCAA GGCAU 19 ACGGC GGCCA 1 AGCCC GGCCC 1 AGGUU GGCCG 2 CAAUC GGCCU 12 CUACU GGCGA 10 CUAGG GGCGC 12 GAUAC GGCGG 2 GCAGC GGCGU 3 GUAUG GGCUA 18 GUUUC GGCUC 2 UAGCU GGCUG 10 UCGUC GGCUU 4 UCGUU GGGAA 21 CCGAA GGGAC 2 GAGUA GGGAG 33 AUAAC GGGAU 1 CACCA GGGCA 6 CAUUC GGGCC 0 CCCCC GGGCG 0 CCGGC GGGCU 1 CGUGA GGGGA 7 GCUUU GGGGC 18 GGCGA GGGGG 9 AACCC GGGGU 8 AAGGA GGGUA 7 ACACU GGGUC 15 AGAUA GGGUG 5 CAUAC GGGUU 2 CCAAG GGUAA 18 Page 59 Supplementary Tables S21-S40.xlsx

268 Antisense scores Table S28. Pentaloops CCUUA GGUAC 4 CGGGC GGUAG 6 GGAUU GGUAU 6 GGGGA GGUCA 11 CGAUG GGUCC 3 CAUAU GGUCG 1 GCAAG GGUCU 1 AACGU GGUGA 30 AAGGG GGUGC 15 ACGUA GGUGG 8 AGACG GGUGU 16 CAGCA GGUUA 89 CUGUC GGUUC 63 CUGUU GGUUG 2 GAUAA GGUUU 40 GUCCA GUAAA 17 ACCUU GUAAC 5 ACGCA GUAAG 3 ACUUA GUAAU 23 AGAUU GUACA 611 AGCAA GUACC 14 AGGGA GUACG 2 CCACU GUACU 5 CCAUA GUAGA 13 CCCUC GUAGC 17 CCUUC GUAGG 2 CGGGG GUAGU 24 CUGCU GUAUA 434 GAACC GUAUC 2 GAGAU GUAUG 11 GAUUU GUAUU 4 GGCUU GUCAA 16 GUUAC GUCAC 5 UCACA GUCAG 6 UCGAA GUCAU 41 UUAAG GUCCA 6 CAGGG GUCCC 1 CCCAU GUCCG 0 CGGCC GUCCU 13 GAGAG GUCGA 2 AACCA GUCGC 1 CAAAG GUCGG 0 CAGGC GUCGU 4 CCUCG GUCUA 11 CGCAG GUCUC 5 GAUGC GUCUG 2 GGCAU GUCUU 26 GGGUA GUGAA 13 UAAUC GUGAC 12 GGUAA GUGAG 2 ACGCU GUGAU 5 ACGGU GUGCA 10 AUCCU GUGCC 16 CCGCC GUGCG 27 CGAAC GUGCU 3 CGGUG GUGGA 357 CGUCA GUGGC 28 GCCAC GUGGG 6 GUACU GUGGU 21 GUGAU GUGUA 84 UAACG GUGUC 14 UCAGA GUGUG 39 GGUAG GUGUU 5 GUGGG GUUAA 20 AACUC GUUAC 4 ACACG GUUAG 6 ACGAA GUUAU 13 ACGUU GUUCA 13 AGACC GUUCC 9 Page 60 Supplementary Tables S21-S40.xlsx

269 Antisense scores Table S28. Pentaloops GCCCG GUUCG 22 GGCAC GUUCU 140 UAGAC GUUGA 19 AGUGC GUUGC 2 CACGA GUUGG 7 CGAAA GUUGU 12 GGUGC GUUUA 12 UAAAC GUUUC 11 GCAAC GUUUG 12 GUACC GUUUU 170 AAGCC UAAAA 62 ACCAC UAAAC 15 ACGGG UAAAG 13 ACUCG UAAAU 57 AGCCU UAACA 13 AGCUG UAACC 15 AUUAC UAACG 5 CAACG UAACU 15 CGAAU UAAGA 5 CGGGU UAAGC 11 CGUCC UAAGG 13 CUGAG UAAGU 20 CUGUA UAAUA 23 GAUUC UAAUC 7 GGGUG UAAUG 109 GUAAC UAAUU 13 GUCUC UACAA 26 AAGAU UACAC 58 ACAAG UACAG 94 CCACA UACAU 132 CCAGG UACCA 4 CGAGU UACCC 77 CGUUU UACCG 8 GAUAU UACCU 24 GCACG UACGA 9 GCUCC UACGC 32 GUAUU UACGG 8 CAAUA UACGU 40 CAGAG UACUA 7 CCGGA UACUC 11 CGACU UACUG 146 GAAGC UACUU 34 GGUCA UAGAA 13 AAUUG UAGAC 6 ACCGA UAGAG 4 ACGAU UAGAU 36 AGGAU UAGCA 3 AUACC UAGCC 68 AUACU UAGCG 6 AUCGU UAGCU 7 AUCUC UAGGA 3 AUUCA UAGGC 53 CGAGG UAGGG 22 CGGAC UAGGU 15 CUAAC UAGUA 7 GAGUU UAGUC 23 GCAGA UAGUG 34 GCGCG UAGUU 7 GCGGG UAUAA 257 GGUAC UAUAC 28 GUCGU UAUAG 292 UACCA UAUAU 78 UAGAG UAUCA 20 AGAGU UAUCC 30 CGCGU UAUCG 510 CGCUG UAUCU 49 GAACU UAUGA 92 GAGAC UAUGC 82 UACGA UAUGG 16 Page 61 Supplementary Tables S21-S40.xlsx

270 Antisense scores Table S28. Pentaloops AAUCG UAUGU 165 ACAAU UAUUA 9 ACCUA UAUUC 21 AGCGC UAUUG 41 CAUAG UAUUU 69 CGGGA UCAAA 33 GAUAG UCAAC 7 GGACC UCAAG 165 AAAGU UCAAU 42 ACGGA UCACA 4 AGCGG UCACC 2 AGGCU UCACG 1 AGUCA UCACU 8 CAGAC UCAGA 5 CAGUG UCAGC 12 CAUGG UCAGG 31 CCGAG UCAGU 30 CUCCC UCAUA 160 GACAU UCAUC 13 GACCG UCAUG 70 GAGGC UCAUU 46 GCAGU UCCAA 910 GCCAU UCCAC 289 GGAAU UCCAG GGCGU UCCAU 246 GUAAG UCCCA 54 GUGCU UCCCC 59 UAGGA UCCCG 119 UCGAC UCCCU 99 UCGAU UCCGA 49 ACAGG UCCGC 30 ACGCC UCCGG 643 AGACU UCCGU 96 GAUCA UCCUA 22 GGUAU UCCUC 58 GUCAG UCCUG 271 UAGCG UCCUU 53 AAAGC UCGAA 4 ACCCG UCGAC 3 ACCGU UCGAG 32 CGCCU UCGAU 3 CGGUA UCGCA 3 CGUGG UCGCC 58 CUGCG UCGCG 0 CUGGG UCGCU 2 AACGA UCGGA 1 AAGAC UCGGC 27 AAGCG UCGGG 3 AAUCC UCGGU 26 ACGAC UCGUA 2 ACGUC UCGUC 5 AGAGG UCGUG 131 AGCCG UCGUU 5 AGGCA UCUAA 93 AGGCG UCUAC 34 CACCC UCUAG 670 CCGUU UCUAU 24 CCUUG UCUCA 7 CGCCC UCUCC 34 CGGCA UCUCG 2317 CGGCU UCUCU 42 GACGA UCUGA 72 GCAAA UCUGC 27 GCGGU UCUGG 114 GCUGC UCUGU 184 GGCAA UCUUA 9 GGCGG UCUUC 21 GUAGG UCUUG 28 GUUGC UCUUU 73 Page 62 Supplementary Tables S21-S40.xlsx

271 Antisense scores Table S28. Pentaloops UCACC UGAAA 354 ACGCG UGAAC 30 AGAUC UGAAG 27 AGCGA UGAAU 97 AGGGG UGACA 49 AGUAU UGACC 165 CACUA UGACG 25 CAUUA UGACU 70 CCGAC UGAGA 81 CGGAU UGAGC 185 CGGUC UGAGG 37 CUACG UGAGU 168 GACGU UGAUA 10 GACUU UGAUC 19 GAGCC UGAUG 30 GAUUG UGAUU 22 GCAUC UGCAA 179 GGUCC UGCAC 1238 UAGCA UGCAG 288 UCGCA UGCAU 1483 UCGGG UGCCA 69 UGGCG UGCCC 115 AAACG UGCCG 19 AACCG UGCCU 97 ACCGG UGCGA 65 CAAUU UGCGC 1294 CCGCU UGCGG 32 CCGUC UGCGU 616 CGCCA UGCUA 38 CGCCG UGCUC 116 CGGAG UGCUG 27 CGGUU UGCUU 120 CGUAG UGGAA 13 GAGGU UGGAC 67 GAUCG UGGAG 18 GCACC UGGAU 128 GCGUU UGGCA 20 GGCCG UGGCC 102 GGCUC UGGCG 3 GGGAC UGGCU 20 GGGUU UGGGA 61 GGUUG UGGGC 882 GUACG UGGGG 18 GUAUC UGGGU 316 GUCGA UGGUA 2004 GUCUG UGGUC 30 GUGAG UGGUG 21 UCGCU UGGUU 21 UCGUA UGUAA 36 AACGG UGUAC 178 AAGCU UGUAG 32 ACAAC UGUAU 159 ACCCC UGUCA 9 AUCCG UGUCC 24 CAGCG UGUCG 154 CAUCC UGUCU 18 CCACG UGUGA 145 CCAUC UGUGC 1052 CCGCG UGUGG 113 CCGGG UGUGU 1073 CCGGU UGUUA 13 CCUAC UGUUC 40 CGAAG UGUUG 12 CGAUA UGUUU 79 CGAUC UUAAA 21 CGAUU UUAAC 26 CGCAA UUAAG 6 CGCGG UUAAU 38 CGCUA UUACA 35 Page 63 Supplementary Tables S21-S40.xlsx

272 Antisense scores Table S28. Pentaloops CGCUU UUACC 175 CGGAA UUACG 14 CGUAC UUACU 26 CGUCU UUAGA 22 CGUUC UUAGC 8 CGUUG UUAGG 16 GACAG UUAGU 34 GACGG UUAUA 710 GAGCG UUAUC 16 GAGCU UUAUG 27 GAGUC UUAUU 7 GCACU UUCAA 84 GCCCU UUCAC 89 GCGAA UUCAG 781 GCGAG UUCAU 136 GCUUC UUCCA 36 GGACG UUCCC 48 GGCCA UUCCG 58 GGCCC UUCCU 45 GGGAU UUCGA 12 GGGCU UUCGC 116 GGUCG UUCGG 35 GGUCU UUCGU 150 GUCCC UUCUA 31 GUCGC UUCUC 71 UCACG UUCUG 56 UCGGA UUCUU 140 ACCGC UUGAA 12 AGUCG UUGAC 39 AUCGC UUGAG 12 CACCG UUGAU 29 CCCUA UUGCA 20 CCGAU UUGCC 3576 CCGCA UUGCG 26 CCGUA UUGCU 131 CGGCG UUGGA 8 CGUUA UUGGC 63 GAACG UUGGG 80 GACCC UUGGU 57 GACGC UUGUA 39 GAUCC UUGUC 168 GCAAU UUGUG 168 GCCCC UUGUU 42 GCCGA UUUAA 61 GCCGC UUUAC 35 GCCGU UUUAG 175 GCCUC UUUAU 170 GCGAC UUUCA 8 GCGCC UUUCC 117 GCGCU UUUCG GCGGA UUUCU 42 GCGGC UUUGA 36 GCGUC UUUGC 64 GCUAC UUUGG 40 GGGCC UUUGU 283 GGGCG UUUUA 160 GUCCG UUUUC 151 GUCGG UUUUG 164 UCGCG UUUUU 111 Page 64 Supplementary Tables S21-S40.xlsx

273 Antisense scores Table S29. Bulges Bulge size 1 Bulge size 2 Bulge size 3 Bulge size 4 Range Range Range Range Median Median Median Median Bulge Score Centered score Bulge Score Centered score Bulge Score Centered score Bulge Score Centered score A UU ACU AUUU U CU AUU ACUU C AA UCU AAUU G CA AUC UAUU GA ACC UCAA UA UUU UGUU AG CAA UUUU UG GUU AGUC AU GCU AGAA AC UCA UGUA UC UAG UUGU CC GAU AGUU GU CAG AAAA GG AGU CAGG GC AAA AGCU CG AAC AUAU CUU CAUU AAU GACA UAA AGGA GGG UAAA CCU CUGU CUA AAGA UUA AUAA GUG GUUU UGA UUAU CUC GUGU GUC GCUU AUA UUCU UCC CUCA ACA ACUA GAC UUAA CCA CUAA AUG CUUU GCA GAUC GAG CGAA UUC AAUA AGA AUCU AAG GGCA UGU AAAU GCC AUGU CCC AUUG CAC GACU GGU AGCA CUG UCUU UAU UGAU UUG UUAC CGA AGCC AGG GGAA CAU CUGG AGC UUCA GAA UAGA GUA ACAA GGA GUAU UGG AGGU UGC UGGU UAC CAGA UCG CAAA CGU UCUG CCG AAUG GGC CCAA CGG AUCA ACG AACU GCG GCAC CGC CAUG Page 65 Supplementary Tables S21-S40.xlsx

274 Antisense scores Table S29. Bulges Page 66 AACC AAGC GAAA UUGG CCAU AAUC UUGC AUGA UUUG AGAU AAGU UGCU GAGU CUUA GAUU AUAC CCCA GUCU UAGU CGUU UGAA CAGU AUUA CCUU AUCC GAGA UAAG GGUU AUGG ACCA GGCC UUUC GCAU AUGC AGGC AAGG UAAU AGUG GGUC UUUA GUCA CUAU GGGC CUUC CAAG GCUC GCUG AUAG AGAG GUUG UAGG CUAG AAAC UCAU CGAG AUUC GCUA AGGG UGGG AACA GCAG UGUG CCGU UGCC GGAG AAAG CACU GAAU ACUC Supplementary Tables S21-S40.xlsx

275 Antisense scores Table S29. Bulges Page 67 UUAG UGAG ACAU ACCU GGCU GAUA UAUA ACCC UGUC GGGG GUCC CAUA ACAC GGAC CACA UCAG UUGA GAGG GUAC ACUG CCAG UGAC CUGA UCAC AGCG CCUA CUAC UCCA GAUG UAGC UAUC GCAA UACA ACGA CCUG UCGU GGGA GUGA AGUA CUCC CUGC UACU CAUC UAUG GCCU GUCG CACC GAGC GGUA ACGU UCUA UGGA UCCC GAAC CCCG CACG GUGC CAAU CUCU GUUC AGAC AACG GCCA GUUA GAAG CAAC CCCC CGGC CUUG Supplementary Tables S21-S40.xlsx

276 Antisense scores Table S29. Bulges UACC UUCC CGUC ACAG CCGA GGCG GGGU CCAC CCCU CCGG CGGG GACG GCCC GUGG UCGA UGGC GGAU UACG UGCA CAGC GACC CGCU UAAC UCCU GUAA CGAC UCCG UCGG UCUC CCUC CGAU GGUG CGUG GCGC GUAG CGUA ACGG ACCG CCGC CGGA CGCA CUCG UUCG AUCG GCCG CGGU ACGC CGCC GCGG UCGC CGCG GCGA GCGU UGCG Page 68 Supplementary Tables S21-S40.xlsx

277 Antisense scores Table S30. Bulges size 1 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count A A Antisense U C Gene C G SnoRNA G U Page 69 Supplementary Tables S21-S40.xlsx

278 Antisense scores Table S31. Bulges size 2 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count UU AA 7376 Antisense CU AC 4092 Gene AA AG 4307 SnoRNA 9109 CA AU 3616 GA CA UA CC 2990 AG CG 816 UG CU AU GA 5296 AC GC 1149 UC GG 1544 CC GU 2741 GU UA 4831 GG UC 2923 GC UG 3537 CG UU Page 70 Supplementary Tables S21-S40.xlsx

279 Antisense scores Table S32. Bulges size 3 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count ACU AAA 776 Antisense AUU AAC 1938 Gene UCU AAG 332 SnoRNA 5687 AUC AAU 843 ACC ACA 532 UUU ACC 1723 CAA ACG 93 GUU ACU 5544 GCU AGA 882 UCA AGC 250 UAG AGG 397 GAU AGU 804 CAG AUA 1291 AGU AUC 5541 AAA AUG 909 AAC AUU 4962 CUU CAA 3662 AAU CAC 370 UAA CAG 969 GGG CAU 265 CCU CCA 967 CUA CCC 254 UUA CCG 91 GUG CCU 581 UGA CGA 2121 CUC CGC 157 GUC CGG 88 AUA CGU 102 UCC CUA 720 ACA CUC 533 GAC CUG 408 CCA CUU 505 AUG GAA 304 GCA GAC 365 GAG GAG 620 UUC GAU 1283 AGA GCA 524 AAG GCC 399 UGU GCG 499 GCC GCU 7892 CCC GGA 460 CAC GGC 210 GGU GGG 889 CUG GGU 433 UAU GUA 366 UUG GUC 622 CGA GUG 710 AGG GUU 1662 CAU UAA 809 AGC UAC 284 GAA UAG 2391 GUA UAU 216 GGA UCA 884 UGG UCC 475 UGC UCG 170 UAC UCU 3132 UCG UGA 4621 CGU UGC 2207 CCG UGG 294 GGC UGU 368 CGG UUA 449 ACG UUC 348 GCG UUG 282 CGC UUU 1469 Page 71 Supplementary Tables S21-S40.xlsx

280 Antisense scores Table S33. Bulges size 4 Bulge Score SD Bulge Total bulge count Supercategory Total bulge count AUUU AAAA 107 Antisense 1243 ACUU AAAC 18 Gene AAUU AAAG 19 SnoRNA 1775 UAUU AAAU 87 UCAA AACA 36 UGUU AACC 29 UUUU AACG 47 AGUC AACU 71 AGAA AAGA 182 UGUA AAGC 26 UUGU AAGG 18 AGUU AAGU 60 AAAA AAUA 58 CAGG AAUC 85 AGCU AAUG 72 AUAU AAUU 1124 CAUU ACAA 37 GACA ACAC 33 AGGA ACAG 10 UAAA ACAU 34 CUGU ACCA 43 AAGA ACCC 15 AUAA ACCG 5 GUUU ACCU 108 UUAU ACGA 9 GUGU ACGC 1 GCUU ACGG 3 UUCU ACGU 14 CUCA ACUA 173 ACUA ACUC 26 UUAA ACUG 27 CUAA ACUU 323 CUUU AGAA 145 GAUC AGAC 50 CGAA AGAG 39 AAUA AGAU 224 AUCU AGCA 127 GGCA AGCC 124 AAAU AGCG 14 AUGU AGCU 794 AUUG AGGA 72 GACU AGGC 85 AGCA AGGG 40 UCUU AGGU 201 UGAU AGUA 105 UUAC AGUC 435 AGCC AGUG 98 GGAA AGUU 8964 CUGG AUAA 75 UUCA AUAC 29 UAGA AUAG 22 ACAA AUAU 62 GUAU AUCA 247 AGGU AUCC 61 UGGU AUCG 3 CAGA AUCU 57 CAAA AUGA 27 UCUG AUGC 53 AAUG AUGG 17 CCAA AUGU 39 AUCA AUUA 42 AACU AUUC 33 GCAC AUUG 41 CAUG AUUU 441 AACC CAAA 27 AAGC CAAC 14 GAAA CAAG 33 UUGG CAAU 20 Page 72 Supplementary Tables S21-S40.xlsx

281 Antisense scores Table S33. Bulges size 4 CCAU CACA 31 AAUC CACC 19 UUGC CACG 10 AUGA CACU 44 UUUG CAGA 102 AGAU CAGC 18 AAGU CAGG 105 UGCU CAGU 30 GAGU CAUA 58 CUUA CAUC 98 GAUU CAUG 39 AUAC CAUU 198 CCCA CCAA 54 GUCU CCAC 9 UAGU CCAG 67 CGUU CCAU 28 UGAA CCCA 43 CAGU CCCC 8 AUUA CCCG 14 CCUU CCCU 9 AUCC CCGA 27 GAGA CCGC 5 UAAG CCGG 6 GGUU CCGU 13 AUGG CCUA 18 ACCA CCUC 12 GGCC CCUG 9 UUUC CCUU 19 GCAU CGAA 167 AUGC CGAC 3 AGGC CGAG 15 AAGG CGAU 12 UAAU CGCA 2 AGUG CGCC 1 GGUC CGCG 0 UUUA CGCU 6 GUCA CGGA 5 CUAU CGGC 37 GGGC CGGG 4 CUUC CGGU 2 CAAG CGUA 7 GCUC CGUC 7 GCUG CGUG 11 AUAG CGUU 81 AGAG CUAA 38 GUUG CUAC 18 UAGG CUAG 20 CUAG CUAU 28 AAAC CUCA 58 UCAU CUCC 14 CGAG CUCG 2 AUUC CUCU 13 GCUA CUGA 28 AGGG CUGC 104 UGGG CUGG 43 AACA CUGU 152 GCAG CUUA 46 UGUG CUUC 22 CCGU CUUG 13 UGCC CUUU 96 GGAG GAAA 36 AAAG GAAC 9 CACU GAAG 15 GAAU GAAU 16 ACUC GACA 53 UUAG GACC 18 UGAG GACG 8 ACAU GACU 48 ACCU GAGA 39 Page 73 Supplementary Tables S21-S40.xlsx

282 Antisense scores Table S33. Bulges size 4 GGCU GAGC 15 GAUA GAGG 14 UAUA GAGU 32 ACCC GAUA 39 UGUC GAUC 99 GGGG GAUG 19 GUCC GAUU 91 CAUA GCAA 20 ACAC GCAC 24 GGAC GCAG 17 CACA GCAU 17 UCAG GCCA 11 UUGA GCCC 6 GAGG GCCG 3 GUAC GCCU 14 ACUG GCGA 0 CCAG GCGC 4 UGAC GCGG 1 CUGA GCGU 0 UCAC GCUA 33 AGCG GCUC 35 CCUA GCUG 36 CUAC GCUU 162 UCCA GGAA 32 GAUG GGAC 16 UAGC GGAG 33 UAUC GGAU 19 GCAA GGCA 104 UACA GGCC 30 ACGA GGCG 7 CCUG GGCU 28 UCGU GGGA 10 GGGA GGGC 27 GUGA GGGG 11 AGUA GGGU 7 CUCC GGUA 11 CUGC GGUC 51 UACU GGUG 12 CAUC GGUU 281 UAUG GUAA 14 GCCU GUAC 10 GUCG GUAG 8 CACC GUAU 27 GAGC GUCA 15 GGUA GUCC 15 ACGU GUCG 8 UCUA GUCU 100 UGGA GUGA 18 UCCC GUGC 10 GAAC GUGG 22 CCCG GUGU 50 CACG GUUA 11 GUGC GUUC 57 CAAU GUUG 31 CUCU GUUU 84 GUUC UAAA 66 AGAC UAAC 6 AACG UAAG 20 GCCA UAAU 22 GUUA UACA 20 GAAG UACC 5 CAAC UACG 7 CCCC UACU 13 CGGC UAGA 108 CUUG UAGC 10 UACC UAGG 36 UUCC UAGU 42 CGUC UAUA 37 ACAG UAUC 22 Page 74 Supplementary Tables S21-S40.xlsx

283 Antisense scores Table S33. Bulges size 4 CCGA UAUG 21 GGCG UAUU 230 GGGU UCAA 182 CCAC UCAC 11 CCCU UCAG 13 CCGG UCAU 18 CGGG UCCA 17 GACG UCCC 16 GCCC UCCG 3 GUGG UCCU 6 UCGA UCGA 6 UGGC UCGC 1 GGAU UCGG 5 UACG UCGU 9 UGCA UCUA 10 CAGC UCUC 13 GACC UCUG 32 CGCU UCUU 47 UAAC UGAA 23 UCCU UGAC 13 GUAA UGAG 35 CGAC UGAU 40 UCCG UGCA 7 UCGG UGCC 13 UCUC UGCG 0 CCUC UGCU 34 CGAU UGGA 25 GGUG UGGC 8 CGUG UGGG 18 GCGC UGGU 29 GUAG UGUA 89 CGUA UGUC 15 ACGG UGUG 15 ACCG UGUU 196 CCGC UUAA 61 CGGA UUAC 34 CGCA UUAG 12 CUCG UUAU 56 UUCG UUCA 28 AUCG UUCC 8 GCCG UUCG 2 CGGU UUCU 45 ACGC UUGA 21 CGCC UUGC 41 GCGG UUGG 30 UCGC UUGU 129 CGCG UUUA 19 GCGA UUUC 19 GCGU UUUG 37 UGCG UUUU 97 Page 75 Supplementary Tables S21-S40.xlsx

284 Antisense scores Table S34. Internal loops iloop size 1x1 iloop size 1x2 iloop size 2x1 Range Range Range Median Median Median ' 3' Score Centered score 5' 3' Score Centered score 5' 3' Score Centered score U U U CC GG A A A A CA UU C C A U CU AA A U G U UU UU U A U C CU GA A U A A AU AG A C U U UC AA U A C A UU CU U G C C UU UC U U C G UU AC A C G A AA CA U G G A GA GC A C C A UG AA C G A A UA UU A G U C CC AC C A G A CU CA A A CC CC A A AG AU U A AC AA G U CA CU C U AA UC C G CC GU U U UG UA A C UC GA G A UC GA U U AU AG G G AA UG A A GU CA G G AC GU C G UC AC U C AU GC C A CG AU A U UA CU A A GG CC G C GC AU C C AA GU A G CU UU G U AG UG U U GU UA U U AC UC A C UG GG C G AG UG C U GC AG C C AC AG U C CA CC U G UG GG G A GC UG G C GU CA C C GA CU G G GA CC C C AG UA C U GA GA C G CA UC G U GG GG U G AU AC G C UA UA G G GC GC U G UA AU G G GU GU G C CG GC G C GG CG U G GG CG C U CG CG A G CG CG G Page 76 Supplementary Tables S21-S40.xlsx

285 Antisense scores Table S34. Internal loops iloop size 1x3 iloop size 2x2 iloop size 3x1 Range Range Range Median Median Median ' 3' Score Centered score 5' 3' Score Centered score 5' 3' Score Centered score U CUC UU UU UCU U U UGU UG UG UUU U C CUC GU AC AAA G U CAU CU UU AAC A A CUU AG AC CAC C A CUA AA UU UCA U U CAC AG AA AUU C U CCC UU UC UGU U U UGC AA AC ACA A U AUU GU AU CCU U A CCU UU CU UUC U U UGA AG AG GCU U U UUC AG CC AUU U A UGA UG AU UCU C U CGC AG AU UCU A A CCC CC UU AAC G C CUU UG CU AAA A A CUC AA GC CUC C G ACU AG UC UAU U A CAA GG AA CUU U A CAU AA CA AAU U U AUC UA AU UGA U A UUA CC GG UUU C A GUC UG CC GCU C C CCU UG AC GCA U U UUU CA AC UAU A C CAC AU AC AUC C G CCC GU AA AGA C U CGA GU UU UUG U G AAA GU UC GCC U A GCU AA AU UAC U G CUC AU UU ACU C A UGU UG CA UGA A U UAG AA GA UCC C A AAU UU AA UUA G C AAU UA UU UGG U A CAC CA UG AUA G A UCA AA AA AAA U C CAU CU CU UCC U U CUU UU AU CUC U U CCU CA AU UGU A C UUU UG AA UUG A G UGU UC AU AUA A C UCC UG UU CAU U A UCU AU AU UAU C A UAU AC CC UUU A A AUC AU AA CAU C G UCC GA UC GUU U G AAG UC UU AAC U U AAU CA UC CAC A C UGC CA UU CAG A C ACA GA AC CUG U A UUU CC CU AAU C C CCC UA UA ACA G U UAU CU UA CAC U A CCA CU AG CCU G A ACU AG CU GCA C G CAA CA AA GCC A A UAA GG CC AAU A U UCC UA AC CUC A A UCC UU GA GUG C G AAC AG GU AAA C U AAG CU UC ACA U U CAA GG AC GUA A G CAC AC CU AUG G Page 77 Supplementary Tables S21-S40.xlsx

286 Antisense scores Table S34. Internal loops A AUA GA GA UAA U U UAC AA CC AAG A G UAC AG UU UAC A G CAU GU CU AUG A A GUU UU AC AUA C G AAU UA AA GCG U C UUA CG UU CCC U U UUA AC UC AGG G C UGU AG CA GAU A G UAU GC GC ACU U A UGG UC UG UAC C A GAU AA UC AGA G C AAC UC CU AGU A C UCU UU UG ACU A U GGC AU GA UCA A A AAA GU CC CAG U U GUA CU AC GUU C C CUA AC GG CUA U U AAA UC GG UGA C C UAG AG GC AUA U A CAG UC GA AAU G A CGC AG GA CAA U G AUU CA AG UCU G A CUG UG CG UAA A C AUU CA GA UGU C G UUA CU AU CAG C U CGU GU GC GUG G C CAA GA UU CUG G G UCA GC AU UUA U U AGC GG UG GUG A A GUA AU CA AUC A A AUU GC AC AGU U C UUC UC AC GCA A U CAG GA CC GAA A U CUG AU UA GUG U U AUG GA AA CAA G G AGA GC GA CCA C A UGC UC AA UGC C G GCC UU UA UUC C G AUG GG CU AUU A U GUC CU UG UUA A A GGC CC AU AAG G U ACC AA GU CUG C G UGC UC GU CAA C U UCU CA UA GGC A G CUA AC AU CCU C A UAC AG UG GCC C G CUU AU UC CUU C A UUG AU CU GUA U G UGA CU CA GCA G A UUC CC GU AGA A C ACU UA UG ACC U G GGA AU CC UAG A C UGA AA GG CAC G C UAC CC UC GCC G A AGA AA CU GAA U A GAA AG UA CAA A C UAU AA UA GAU C G UUU GG AU GUC U G CCU GC CC AGA U A CGA UG GU CAU A A CCG AC GU CUC G C CAG AU GU AGC A U AGU GC CU CUG A U UUG AC AG UGC U U CUA GU GU AAC C C UAA GG UC GCU A U CCA UU AG ACC A G UUC CA CU GCG C Page 78 Supplementary Tables S21-S40.xlsx

287 Antisense scores Table S34. Internal loops U ACU CC UA GGG A A AGC CA GU UAA G A UAG AA UG GGU C A ACA GU AG UCA G C AAA CU GG UCC A G ACA AU UG GAU U U GUU GU UG GUA C C CCG UA GA GAC A A GAC CG CA UGC A A GCC AC GA CCG C U UCA GC GU AUG C G GAG CG CG GAG A U AAC UG UA CUU G G AUC GC UC UAU G U AUA GU GA CCA A G UGG AC UU UUC A C AAG GC UG GGU U G GUU GU UA CGG U G GUA UU CC ACU G C GAA CG UA AUC G C AGU GA AU UCG U G AUA AA AG UUA C C AGG UG UC AAG C A GAG GA CA AUC U A UCG GA CU UGG C C CUG CU GA GGA C A AUG UA AG AAG U G CCA UC UC UAG U C GAU UC CA UGG A G ACC CG AA CGC C A GUG GC CA GGA A U GAC UU GU CUA G U GCA CC CC GAA G G UCG UA GU GUC C U UGG GA GC GCU G G UAA GC UU UGG G U GAA CU AA GAC U A ACC CC UG UUG C C ACC AC AC UAG C C GUC CU CC GGG C U GAU UC UA ACC G G GGG CG GG GGC U U UCG GG AG ACC C C CGA UG AG AUG U A GCA AG CG UGA G C GGC CA CC GGG G U GGA CU CG CCA U G AGC GG CA AGG A G AGU CG CU GAC G U UAA GU CA AUU G G UUG CA CA GGA U G GGC UA CU GAG C C CGC UC AG CUA A U GCU CC CA UUU G G CGU AC UG GGG U U GAG UU GG AGC G U GCC UC GC UAC G G GCU GC UA CUU A G AGG GG UU UGU G G GAA AU GC CGA C G GUC GG CG AGU C C AUA UA CA UCA C A AAG GA GG CCC C G UAG CC AC GGC G U ACA AU AG GCG A C GCU AC AA CGA A C AGC CA GG GGU A A AGG AG GG AGC U C GCC GC AA CCC A Page 79 Supplementary Tables S21-S40.xlsx

288 Antisense scores Table S34. Internal loops A AAC GA UG ACG U C GAG GA GU CCG G U AGG CU GC CCU A U GGG CG AU CGA U G UCU CG GA CGC G A CGU CG UG GAC C U GUG UA CC GCG G U GGU CA GC GUU G C UCG AU GG CGG A C AUC UA GG GAG G G CAG UC CC CGU G G CGA CC AA CAG G C UCA UA CG AGG C C ACG AC UA CGA G C GUU CC AG GAG U C CCA GG GC UCC G A GGU CA CG GAU G C AUG CU GU CCA G A AGU UG GC CGU U G CUG UU CA GUC A A GCG CC GA UAG G C AGA CG UC AGC C G GAC CG CC UCG C G GGU CC CG CUA C G GCA GA UA GUU A U ACG UU GC UCG A U AGA AC GC GUA G C GUG GU GG UAA C G CGC GC AG ACA C U CGG UA GC AGU G C GCA UA UC GGA G G CGG GC GG CCC G A GGA AC CA GAA C A GGG UG GG UUG G C CGU GG GG ACG C C GUA UU CG ACG G U CCG CG AC CAU G C CGG CC GC CGU C C GAC GG GU GUC G C GGA GU CG CGG G A CGG GG GA ACG A C UGG UG GA CGC A C UUG GC CG AGG U G GAU GG UA CCG U C GGU GA AG CGC U G CCG AA CG UUC G G GUG CG AG CCG A C GCG UC CG CGU A G ACG CG GU UGC G A ACG AU CG GGC C U GCG CG GC GGU G C GGG AC CG CGG C G GCG GA CG UCG G Page 80 Supplementary Tables S21-S40.xlsx

289 Antisense scores Table S35. Internal loops 1x1 5' 3' Score SD 5' 3' Total count Supercategory Total count U U A A Antisense A A A C Gene C A A G 6878 SnoRNA U G A U A U C A U A C C C U C G A C C U G C G A 8658 U C G C C G G G G G G U 8672 C C U A G A U C G U U G A G U U Page 81 Supplementary Tables S21-S40.xlsx

290 Antisense scores Table S36. Internal loops 1x2 5' 3' Score SD 5' 3' Total count Supercategory Total count U CC A AA 630 Antisense A CA A AC 451 Gene U CU A AG 351 SnoRNA 4421 U UU A AU 3612 C CU A CA A AU A CC 507 U UC A CG 316 A UU A CU 944 C UU A GA 559 G UU A GC 232 A AA A GG 273 A GA A GU 307 A UG A UA 725 A UA A UC 589 C CC A UG 896 A CU A UU 853 A CC C AA 305 A AG C AC 201 A AC C AG 154 U CA C AU 314 U AA C CA 244 G CC C CC 484 U UG C CG 116 C UC C CU 6044 A UC C GA 182 U AU C GC 225 G AA C GG 176 A GU C GU 403 G AC C UA 284 G UC C UC 356 C AU C UG 212 A CG C UU 969 U UA G AA 391 A GG G AC 288 C GC G AG 227 C AA G AU 145 G CU G CA 256 U AG G CC 337 U GU G CG 31 U AC G CU 402 C UG G GA 200 G AG G GC 167 U GC G GG 90 C AC G GU 128 C CA G UA 206 G UG G UC 377 A GC G UG 295 C GU G UU 1295 C GA U AA 497 G GA U AC 323 C AG U AG 247 U GA U AU 543 G CA U CA 528 U GG U CC 1711 G AU U CG 60 C UA U CU 4342 G GC U GA 216 G UA U GC 198 G GU U GG 173 C CG U GU 241 C GG U UA 622 G GG U UC 1501 U CG U UG 440 G CG U UU 2220 Page 82 Supplementary Tables S21-S40.xlsx

291 Antisense scores Table S37. Internal loops 2x1 5' 3' Score SD 5' 3' Total count Supercategory Total count GG A AA A 4127 Antisense UU C AA C 654 Gene AA A AA G 607 SnoRNA 4680 UU U AA U 1605 GA A AC A 396 AG A AC C 322 AA U AC G 61 CU U AC U 162 UC U AG A 648 AC A AG C 152 CA U AG G 207 GC A AG U 125 AA C AU A 163 UU A AU C 175 AC C AU G 48 CA A AU U 300 CC A CA A 367 AU U CA C 89 AA G CA G 210 CU C CA U 352 UC C CC A 371 GU U CC C 134 UA A CC G 289 GA G CC U 96 GA U CG A 38 AG G CG C 47 UG A CG G 11 CA G CG U 103 GU C CU A 150 AC U CU C 301 GC C CU G 145 AU A CU U 632 CU A GA A 756 CC G GA C 88 AU C GA G 281 GU A GA U 208 UU G GC A 369 UG U GC C 165 UA U GC G 49 UC A GC U 67 GG C GG A 4831 UG C GG C 192 AG C GG G 115 AG U GG U 96 CC U GU A 127 GG G GU C 198 UG G GU G 44 CA C GU U 221 CU G UA A 254 CC C UA C 170 UA C UA G 80 GA C UA U 133 UC G UC A 188 GG U UC C 234 AC G UC G 187 UA G UC U 664 GC U UG A 222 AU G UG C 165 GU G UG G 210 GC G UG U 129 CG U UU A 339 CG C UU C 4211 CG A UU G 126 CG G UU U 1592 Page 83 Supplementary Tables S21-S40.xlsx

292 Antisense scores Table S38. Internal loops 1x3 5' 3' Score SD 5' 3' Total count Supercategory Total count U CUC A AAA 86 Antisense 3788 U UGU A AAC 12 Gene C CUC A AAG 18 SnoRNA 3573 U CAU A AAU 75 A CUU A ACA 56 A CUA A ACC 13 U CAC A ACG 1 U CCC A ACU 41 U UGC A AGA 80 U AUU A AGC 35 A CCU A AGG 12 U UGA A AGU 7 U UUC A AUA 229 A UGA A AUC 78 U CGC A AUG 23 A CCC A AUU 60 C CUU A CAA 286 A CUC A CAC 172 G ACU A CAG 70 A CAA A CAU 117 A CAU A CCA 412 U AUC A CCC 96 A UUA A CCG 31 A GUC A CCU 198 C CCU A CGA 122 U UUU A CGC 79 C CAC A CGG 6 G CCC A CGU 10 U CGA A CUA 8094 G AAA A CUC 227 A GCU A CUG 659 G CUC A CUU 269 A UGU A GAA 23 U UAG A GAC 17 A AAU A GAG 35 C AAU A GAU 30 A CAC A GCA 44 A UCA A GCC 17 C CAU A GCG 10 U CUU A GCU 123 U CCU A GGA 18 C UUU A GGC 26 G UGU A GGG 5 C UCC A GGU 5 A UCU A GUA 192 A UAU A GUC 68 A AUC A GUG 40 G UCC A GUU 135 G AAG A UAA 52 U AAU A UAC 34 C UGC A UAG 27 C ACA A UAU 143 A UUU A UCA 64 C CCC A UCC 41 U UAU A UCG 20 A CCA A UCU 58 A ACU A UGA 177 G CAA A UGC 168 A UAA A UGG 37 U UCC A UGU 89 A UCC A UUA 548 G AAC A UUC 47 U AAG A UUG 74 U CAA A UUU 57 G CAC C AAA 15 A AUA C AAC 44 U UAC C AAG 26 G UAC C AAU 1248 Page 84 Supplementary Tables S21-S40.xlsx

293 Antisense scores Table S38. Internal loops 1x3 G CAU C ACA 57 A GUU C ACC 11 G AAU C ACG 6 C UUA C ACU 42 U UUA C AGA 7 C UGU C AGC 27 G UAU C AGG 29 A UGG C AGU 21 A GAU C AUA 31 C AAC C AUC 44 C UCU C AUG 9 U GGC C AUU 97 A AAA C CAA 28 U GUA C CAC 230 C CUA C CAG 21 U AAA C CAU 86 C UAG C CCA 39 A CAG C CCC 47 A CGC C CCG 120 G AUU C CCU 73 A CUG C CGA 16 C AUU C CGC 113 G UUA C CGG 4 U CGU C CGU 13 C CAA C CUA 145 G UCA C CUC 311 U AGC C CUG 43 A GUA C CUU 131 A AUU C GAA 24 C UUC C GAC 3 U CAG C GAG 14 U CUG C GAU 25 U AUG C GCA 19 G AGA C GCC 7 A UGC C GCG 2 G GCC C GCU 14 G AUG C GGA 7 U GUC C GGC 16 A GGC C GGG 0 U ACC C GGU 3 G UGC C GUA 12 U UCU C GUC 13 G CUA C GUG 22 A UAC C GUU 6 G CUU C UAA 32 A UUG C UAC 50 G UGA C UAG 34 A UUC C UAU 15 C ACU C UCA 10 G GGA C UCC 64 C UGA C UCG 6 C UAC C UCU 51 A AGA C UGA 28 A GAA C UGC 216 C UAU C UGG 6 G UUU C UGU 56 G CCU C UUA 62 A CGA C UUC 33 A CCG C UUG 6 C CAG C UUU 47 U AGU G AAA 94 U UUG G AAC 33 U CUA G AAG 49 C UAA G AAU 37 U CCA G ACA 15 G UUC G ACC 25 U ACU G ACG 2 A AGC G ACU 1324 A UAG G AGA 61 Page 85 Supplementary Tables S21-S40.xlsx

294 Antisense scores Table S38. Internal loops 1x3 A ACA G AGC 26 C AAA G AGG 8 G ACA G AGU 9 U GUU G AUA 13 C CCG G AUC 22 A GAC G AUG 31 A GCC G AUU 44 U UCA G CAA 49 G GAG G CAC 74 U AAC G CAG 15 G AUC G CAU 41 U AUA G CCA 41 G UGG G CCC 63 C AAG G CCG 3 G GUU G CCU 27 G GUA G CGA 15 C GAA G CGC 21 C AGU G CGG 7 G AUA G CGU 8 C AGG G CUA 244 A GAG G CUC 54 A UCG G CUG 29 C CUG G CUU 23 A AUG G GAA 12 G CCA G GAC 7 C GAU G GAG 16 G ACC G GAU 2 A GUG G GCA 9 U GAC G GCC 46 U GCA G GCG 0 G UCG G GCU 13 U UGG G GGA 42 G UAA G GGC 19 U GAA G GGG 17 A ACC G GGU 27 C ACC G GUA 25 C GUC G GUC 14 U GAU G GUG 3 G GGG G GUU 14 U UCG G UAA 26 C CGA G UAC 49 A GCA G UAG 18 C GGC G UAU 71 U GGA G UCA 26 G AGC G UCC 53 G AGU G UCG 11 U UAA G UCU 11 G UUG G UGA 29 G GGC G UGC 103 C CGC G UGG 15 U GCU G UGU 65 G CGU G UUA 30 U GAG G UUC 21 U GCC G UUG 25 G GCU G UUU 29 G AGG U AAA 46 G GAA U AAC 46 G GUC U AAG 107 C AUA U AAU 85 A AAG U ACA 18 G UAG U ACC 41 U ACA U ACG 9 C GCU U ACU 29 C AGC U AGA 23 A AGG U AGC 343 C GCC U AGG 14 A AAC U AGU 85 C GAG U AUA 34 U AGG U AUC 116 Page 86 Supplementary Tables S21-S40.xlsx

295 Antisense scores Table S38. Internal loops 1x3 U GGG U AUG 57 G UCU U AUU 641 A CGU U CAA 94 U GUG U CAC 2459 U GGU U CAG 109 C UCG U CAU 533 C AUC U CCA 53 G CAG U CCC 288 G CGA U CCG 11 C UCA U CCU 74 C ACG U CGA 142 C GUU U CGC 1958 C CCA U CGG 21 A GGU U CGU 130 C AUG U CUA 165 A AGU U CUC 643 G CUG U CUG 38 A GCG U CUU 94 C AGA U GAA 18 G GAC U GAC 40 G GGU U GAG 14 G GCA U GAU 18 U ACG U GCA 24 U AGA U GCC 36 C GUG U GCG 1 G CGC U GCU 24 U CGG U GGA 42 C GCA U GGC 298 G CGG U GGG 21 A GGA U GGU 56 A GGG U GUA 29 C CGU U GUC 30 C GUA U GUG 10 U CCG U GUU 15 C CGG U UAA 9 C GAC U UAC 312 C GGA U UAG 178 A CGG U UAU 112 C UGG U UCA 24 C UUG U UCC 103 G GAU U UCG 19 C GGU U UCU 89 G CCG U UGA 216 G GUG U UGC 2716 C GCG U UGG 59 G ACG U UGU 525 A ACG U UUA 69 U GCG U UUC 149 C GGG U UUG 19 G GCG U UUU 111 Page 87 Supplementary Tables S21-S40.xlsx

296 Antisense scores Table S39. Internal loops 2x2 5' 3' Score SD 5' 3' Total count Supercategory Total count UU UU AA AA 192 Antisense UG UG AA AC 442 Gene GU AC AA AG 62 SnoRNA CU UU AA AU 382 AG AC AA CA 244 AA UU AA CC 118 AG AA AA CG 30 UU UC AA CU 194 AA AC AA GA 296 GU AU AA GC 369 UU CU AA GG 329 AG AG AA GU 196 AG CC AA UA 275 UG AU AA UC 235 AG AU AA UG 81 CC UU AA UU 2239 UG CU AC AA 41 AA GC AC AC 106 AG UC AC AG 265 GG AA AC AU 69 AA CA AC CA 34 UA AU AC CC 959 CC GG AC CG 8 UG CC AC CU 126 UG AC AC GA 117 CA AC AC GC 29 AU AC AC GG 287 GU AA AC GU 98 GU UU AC UA 42 GU UC AC UC 126 AA AU AC UG 166 AU UU AC UU 99 UG CA AG AA 490 AA GA AG AC 3647 UU AA AG AG 344 UA UU AG AU 459 CA UG AG CA 162 AA AA AG CC 316 CU CU AG CG 49 UU AU AG CU 153 CA AU AG GA 99 UG AA AG GC 344 UC AU AG GG 44 UG UU AG GU 136 AU AU AG UA 112 AC CC AG UC 262 AU AA AG UG 186 GA UC AG UU 172 UC UU AU AA 250 CA UC AU AC 518 CA UU AU AG 33 GA AC AU AU 230 CC CU AU CA 95 UA UA AU CC 226 CU UA AU CG 9 CU AG AU CU 76 AG CU AU GA 245 CA AA AU GC 43 GG CC AU GG 48 UA AC AU GU 121 UU GA AU UA 82 AG GU AU UC 151 CU UC AU UG 79 GG AC AU UU 375 AC CU CA AA 255 GA GA CA AC 254 AA CC CA AG 257 AG UU CA AU 209 Page 88 Supplementary Tables S21-S40.xlsx

297 Antisense scores Table S39. Internal loops 2x2 GU CU CA CA 359 UU AC CA CC 151 UA AA CA CG 47 CG UU CA CU 105 AC UC CA GA 137 AG CA CA GC 28 GC GC CA GG 70 UC UG CA GU 133 AA UC CA UA 316 UC CU CA UC 246 UU UG CA UG 351 AU GA CA UU 212 GU CC CC AA 84 CU AC CC AC 35 AC GG CC AG 173 UC GG CC AU 169 AG GC CC CA 133 UC GA CC CC 73 AG GA CC CG 67 CA AG CC CU 197 UG CG CC GA 78 CA GA CC GC 30 CU AU CC GG 1168 GU GC CC GU 79 GA UU CC UA 92 GC AU CC UC 616 GG UG CC UG 116 AU CA CC UU 626 GC AC CG AA 81 UC AC CG AC 18 GA CC CG AG 7 AU UA CG AU 56 GA AA CG CA 157 GC GA CG CC 29 UC AA CG CG 69 UU UA CG CU 55 GG CU CG GA 77 CU UG CG GC 5 CC AU CG GG 93 AA GU CG GU 5 UC GU CG UA 64 CA UA CG UC 35 AC AU CG UG 46 AG UG CG UU 101 AU UC CU AA 95 AU CU CU AC 108 CU CA CU AG 230 CC GU CU AU 80 UA UG CU CA 130 AU CC CU CC 101 AA GG CU CG 121 CC UC CU CU 418 AA CU CU GA 282 AG UA CU GC 69 AA UA CU GG 186 GG AU CU GU 97 GC CC CU UA 143 UG GU CU UC 175 AC GU CU UG 84 AU GU CU UU 1055 GC CU GA AA 112 AC AG GA AC 227 GU GU GA AG 16 GG UC GA AU 64 UU AG GA CA 75 CA CU GA CC 77 CC UA GA CG 3 CA GU GA CU 176 AA UG GA GA 112 Page 89 Supplementary Tables S21-S40.xlsx

298 Antisense scores Table S39. Internal loops 2x2 GU AG GA GC 52 CU GG GA GG 44 AU UG GA GU 32 GU UG GA UA 27 UA GA GA UC 318 CG CA GA UG 43 AC GA GA UU 120 GC GU GC AA 36 CG CG GC AC 134 UG UA GC AG 24 GC UC GC AU 107 GU GA GC CA 53 AC UU GC CC 81 GC UG GC CG 19 GU UA GC CU 170 UU CC GC GA 168 CG UA GC GC 175 GA AU GC GG 21 AA AG GC GU 160 UG UC GC UA 64 GA CA GC UC 93 GA CU GC UG 134 CU GA GC UU 122 UA AG GG AA 349 UC UC GG AC 244 UC CA GG AG 71 CG AA GG AU 115 GC CA GG CA 79 UU GU GG CC 165 CC CC GG CG 103 UA GU GG CU 92 GA GC GG GA 59 GC UU GG GC 72 CU AA GG GG 16 CC UG GG GU 17 AC AC GG UA 22 CU CC GG UC 74 UC UA GG UG 81 CG GG GG UU 89 GG AG GU AA 390 UG AG GU AC 3911 AG CG GU AG 110 CA CC GU AU 640 CU CG GU CA 96 GG CA GU CC 135 CG CU GU CG 24 GU CA GU CU 108 CA CA GU GA 96 UA CU GU GC 228 UC AG GU GG 17 CC CA GU GU 124 AC UG GU UA 119 UU GG GU UC 200 UC GC GU UG 79 GC UA GU UU 218 GG UU UA AA 256 AU GC UA AC 242 GG CG UA AG 82 UA CA UA AU 342 GA GG UA CA 126 CC AC UA CC 57 AU AG UA CG 85 AC AA UA CU 101 CA GG UA GA 73 AG GG UA GC 24 GC AA UA GG 60 GA UG UA GU 130 GA GU UA UA 316 CU GC UA UC 33 Page 90 Supplementary Tables S21-S40.xlsx

299 Antisense scores Table S39. Internal loops 2x2 CG AU UA UG 114 CG GA UA UU 222 CG UG UC AA 141 UA CC UC AC 105 CA GC UC AG 217 AU GG UC AU 322 UA GG UC CA 72 UC CC UC CC 46 CC AA UC CG 6 UA CG UC CU 287 AC UA UC GA 162 CC AG UC GC 41 GG GC UC GG 296 CA CG UC GU 92 CU GU UC UA 134 UG GC UC UC 135 UU CA UC UG 194 CC GA UC UU 560 CG UC UG AA 172 CG CC UG AC 267 CC CG UG AG 49 GA UA UG AU 2126 UU GC UG CA 244 AC GC UG CC 352 GU GG UG CG 106 GC AG UG CU 275 UA GC UG GA 54 UA UC UG GC 20 GC GG UG GG 15 AC CA UG GU 81 UG GG UG UA 239 GG GG UG UC 76 UU CG UG UG 865 CG AC UG UU 247 CC GC UU AA 567 GG GU UU AC 145 GU CG UU AG 81 GG GA UU AU 168 UG GA UU CA 20 GC CG UU CC 81 GG UA UU CG 17 GA AG UU CU 451 AA CG UU GA 165 CG AG UU GC 30 UC CG UU GG 85 CG GU UU GU 61 AU CG UU UA 117 CG GC UU UC 404 AC CG UU UG 188 GA CG UU UU 2035 Page 91 Supplementary Tables S21-S40.xlsx

300 Antisense scores Table S40. Internal loops 3x1 5' 3' Score SD 5' 3' Total count Supercategory Total count UCU U AAA A 628 Antisense 4794 UUU U AAA C 84 Gene AAA G AAA G 2725 SnoRNA 2244 AAC A AAA U 43 CAC C AAC A 9290 UCA U AAC C 342 AUU C AAC G 1099 UGU U AAC U 223 ACA A AAG A 558 CCU U AAG C 53 UUC U AAG G 50 GCU U AAG U 20 AUU U AAU A 1314 UCU C AAU C 111 UCU A AAU G 118 AAC G AAU U 74 AAA A ACA A 154 CUC C ACA C 4 UAU U ACA G 32 CUU U ACA U 47 AAU U ACC A 112 UGA U ACC C 15 UUU C ACC G 12 GCU C ACC U 34 GCA U ACG A 5 UAU A ACG C 3 AUC C ACG G 3 AGA C ACG U 14 UUG U ACU A 42 GCC U ACU C 43 UAC U ACU G 37 ACU C ACU U 160 UGA A AGA A 31 UCC C AGA C 94 UUA G AGA G 71 UGG U AGA U 20 AUA G AGC A 397 AAA U AGC C 18 UCC U AGC G 62 CUC U AGC U 15 UGU A AGG A 27 UUG A AGG C 9 AUA A AGG G 39 CAU U AGG U 2 UAU C AGU A 74 UUU A AGU C 19 CAU C AGU G 12 GUU U AGU U 27 AAC U AUA A 45 CAC A AUA C 48 CAG A AUA G 69 CUG U AUA U 26 AAU C AUC A 124 ACA G AUC C 89 CAC U AUC G 11 CCU G AUC U 9 GCA C AUG A 34 GCC A AUG C 11 AAU A AUG G 32 CUC A AUG U 29 GUG C AUU A 40 AAA C AUU C 174 ACA U AUU G 12 GUA A AUU U 101 AUG G CAA A 159 UAA U CAA C 53 AAG A CAA G 22 UAC A CAA U 36 Page 92 Supplementary Tables S21-S40.xlsx

301 Antisense scores Table S40. Internal loops 3x1 AUG A CAC A 378 AUA C CAC C 232 GCG U CAC G 27 CCC U CAC U 68 AGG G CAG A 59 GAU A CAG C 24 ACU U CAG G 25 UAC C CAG U 29 AGA G CAU A 37 AGU A CAU C 43 ACU A CAU G 3 UCA A CAU U 70 CAG U CCA A 12 GUU C CCA C 41 CUA U CCA G 7 UGA C CCA U 27 AUA U CCC A 15 AAU G CCC C 12 CAA U CCC G 4 UCU G CCC U 31 UAA A CCG A 3 UGU C CCG C 16 CAG C CCG G 9 GUG G CCG U 4 CUG G CCU A 37 UUA U CCU C 56 GUG A CCU G 56 AUC A CCU U 547 AGU U CGA A 48 GCA A CGA C 10 GAA A CGA G 8 GUG U CGA U 13 CAA G CGC A 5 CCA C CGC C 9 UGC C CGC G 8 UUC C CGC U 4 AUU A CGG A 10 UUA A CGG C 1 AAG G CGG G 6 CUG C CGG U 12 CAA C CGU A 3 GGC A CGU C 7 CCU C CGU G 7 GCC C CGU U 7 CUU C CUA A 11 GUA U CUA C 5 GCA G CUA G 11 AGA A CUA U 33 ACC U CUC A 32 UAG A CUC C 442 CAC G CUC G 17 GCC G CUC U 60 GAA U CUG A 47 CAA A CUG C 43 GAU C CUG G 24 GUC U CUG U 39 AGA U CUU A 11 CAU A CUU C 35 CUC G CUU G 10 AGC A CUU U 118 CUG A GAA A 197 UGC U GAA C 8 AAC C GAA G 16 GCU A GAA U 20 ACC A GAC A 279 GCG C GAC C 32 GGG A GAC G 78 UAA G GAC U 19 GGU C GAG A 76 Page 93 Supplementary Tables S21-S40.xlsx

302 Antisense scores Table S40. Internal loops 3x1 UCA G GAG C 16 UCC A GAG G 10 GAU U GAG U 22 GUA C GAU A 85 GAC A GAU C 18 UGC A GAU G 20 CCG C GAU U 43 AUG C GCA A 51 GAG A GCA C 98 CUU G GCA G 32 UAU G GCA U 227 CCA A GCC A 46 UUC A GCC C 26 GGU U GCC G 19 CGG U GCC U 236 ACU G GCG A 50 AUC G GCG C 49 UCG U GCG G 11 UUA C GCG U 126 AAG C GCU A 41 AUC U GCU C 182 UGG C GCU G 17 GGA C GCU U 250 AAG U GGA A 45 UAG U GGA C 17 UGG A GGA G 11 CGC C GGA U 10 GGA A GGC A 151 CUA G GGC C 2 GAA G GGC G 51 GUC C GGC U 8 GCU G GGG A 30 UGG G GGG C 17 GAC U GGG G 14 UUG C GGG U 22 UAG C GGU A 16 GGG C GGU C 13 ACC G GGU G 2 GGC U GGU U 19 ACC C GUA A 27 AUG U GUA C 30 UGA G GUA G 5 GGG G GUA U 35 CCA U GUC A 19 AGG A GUC C 42 GAC G GUC G 3 AUU G GUC U 21 GGA U GUG A 67 GAG C GUG C 65 CUA A GUG G 30 UUU G GUG U 80 GGG U GUU A 6 AGC G GUU C 24 UAC G GUU G 5 CUU A GUU U 51 UGU G UAA A 82 CGA C UAA C 13 AGU C UAA G 12 UCA C UAA U 52 CCC C UAC A 257 GGC G UAC C 32 GCG A UAC G 21 CGA A UAC U 50 GGU A UAG A 31 AGC U UAG C 14 CCC A UAG G 7 ACG U UAG U 20 CCG G UAU A 56 CCU A UAU C 54 Page 94 Supplementary Tables S21-S40.xlsx

303 Antisense scores Table S40. Internal loops 3x1 CGA U UAU G 28 CGC G UAU U 256 GAC C UCA A 32 GCG G UCA C 12 GUU G UCA G 14 CGG A UCA U 304 GAG G UCC A 22 CGU G UCC C 47 CAG G UCC G 8 AGG C UCC U 214 CGA G UCG A 6 GAG U UCG C 18 UCC G UCG G 1 GAU G UCG U 36 CCA G UCU A 296 CGU U UCU C 596 GUC A UCU G 206 UAG G UCU U 8551 AGC C UGA A 127 UCG C UGA C 23 CUA C UGA G 29 GUU A UGA U 60 UCG A UGC A 16 GUA G UGC C 25 UAA C UGC G 3 ACA C UGC U 28 AGU G UGG A 12 GGA G UGG C 11 CCC G UGG G 9 GAA C UGG U 44 UUG G UGU A 43 ACG C UGU C 67 ACG G UGU G 11 CAU G UGU U 316 CGU C UUA A 28 GUC G UUA C 10 CGG G UUA G 78 ACG A UUA U 36 CGC A UUC A 10 AGG U UUC C 18 CCG U UUC G 4 CGC U UUC U 166 UUC G UUG A 46 CCG A UUG C 15 CGU A UUG G 8 UGC G UUG U 84 GGC C UUU A 57 GGU G UUU C 69 CGG C UUU G 11 UCG G UUU U 706 Page 95 Supplementary Tables S21-S40.xlsx

Montrer encore