Structure secondaire d une molécule d ARNt Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa
Plan Généralités sur l ARN Moyens de prédiction des structures secondaires Application : implémentation de l algorithme de Nussinov
Généralités sur l'arn L'acide ribonucléique Polymère linéaire constitué d'un enchaînement de nucléotides 1 groupement phosphate 1 ribose 1 base azotée Présent dans les cellules sous forme de simple brin Molécules plus courtes que l ADN ARN : une centaine à quelques milliers de nucléotides ADN : quelques millions à quelques milliards de nucléotides Produit par transcription de l'adn
Structure de l'arn Structure tridimensionnelle d'un ARN Composée de briques élémentaires : les motifs Motifs Appartiennent à la structure secondaire Classés parmi les interactions tertiaires Structure secondaire : Définie par des relations mathématiques proposées par Waterman Soit une séquence S de paires de bases indicées (i,j) avec i<j : Une base i ne peut être appariée à plus qu'une base j Pour 2 couples de bases appariées (i,j),(k,l) : Si i<k<j alors i<l<j
Motifs élémentaires Structure secondaire : succession de motifs élémentaires On distingue 4 motifs La tige (ou hélice) : succession d appariements de paires de bases consécutives La boucle terminale, fermée par une paire de bases appariées La boucle interne, symétrique ou non, fermée par deux paires de bases Les boucles multiples qui relient les hélices entre elles
Motifs constitués d'au moins deux hélices Résultat de l'interaction d'une boucle libre d'une structure secondaire avec un brin libre complémentaire situé en dehors de la boucle Pseudonoeud H et pseudonoeud I : les deux plus connus
Généralités sur l'arnt L'ARN de transfert : court ARN (70 à 100 nucléotides), intervenant lors de la synthèse des protéines Rôle essentiel dans le processus de traduction Structure spécifique en feuille de trèfle : Bras accepteur : tige supérieure qui porte les extrémités 3' et 5 Bras anticodon : tige inférieure Bras T et Bras D : présence de ribonucléotides modifiés : la ribothymidine (T) et la dihydrouridine (D)
Prédiction des structures secondaires d'arn Interactions les plus simples : les appariements de paires de bases Watson-Crick (A-U et G-C) et appariements dits bancals (G-U) ou Wobble Prédiction de structures avec pseudonoeuds : non intégrée dans la majeure partie des codes existants Algorithmes de prédiction : basés sur les lois d'appariement de Waterman (exclusion des pseudonoeuds) Associe un poids à chaque structure selon un critère donné : nombre maximum d'appariements minimum d'énergie libre
Modèle de base : Lister tous les brins complémentaires d'une séquence donnée Former toutes les combinaisons possibles d'hélices compatibles Calculer l'énergie totale de chaque structure.
Algorithme de Nussinov-Jacobson Algorithme qui vise à maximiser le nombre d appariements Application directe des lois de Waterman Structure secondaire la plus stable : celle où le nombre de bases appariées est le plus grand Hypothèse : structure décomposable en une somme d empilements de paires de bases qui n interagissent pas entre elles Algorithme que nous avons implémenté
Algorithme de Zuker Algorithme implémenté dans le logiciel Mfold Estimation plus réaliste de la stabilité thermodynamique de la structure Energie libre de configuration : somme des contributions de chacun des motifs élémentaires
Algorithme de Zuker Avec prise en compte : Boucles libres Appariements des bases (stacking) Ajout de correction : Pour les boucles multiples qui tendent à déstabiliser la structure Pour les bases pendantes adjacentes à la première paire de bases d une hélice dans les boucles multiples et les boucles terminales
Prise en compte de structures sous-optimales Modifications effectuées par Zuker sur son algorithme : Considérer les structures ayant une énergie libre légèrement supérieure Intérêt : Prendre en compte les structures dont la différence d énergie avec la structure «minimale» serait due aux approximations des énergies de bases utilisées pour le calcul
Prise en compte des pseudonoeuds Rivas et Eddy (1999) : Prise en compte des pseudonoeuds Complexité algorithmique O(n 6 ) en temps et O(n 4 ) en mémoire pour une séquence de n bases Ajout d un second algorithme permettant de modéliser les pseudonoeuds Akutsu (2000) : Amélioration de cet algorithme : complexité de O(n 4 ) en temps en généralisant l approche d appariement maximum
Prédictions à l aide d un algorithme de modélisation cinétique. Principe : Hypothèse : Repliement immédiat après la traduction, passant par états transitoires Conséquences : modifications d appariements possibles entre deux bases, réarrangements entre états de transition Algorithme implémenté par Christian Isambert sur le serveur Kinefold, simulant le repliement cinétique de l ARN
Méthode comparative On se base sur le principe que des séquences homologues ont des structures similaires L évolution conserve mieux la structure que la séquence
Méthode comparative Obtention d un jeu de séquences homologues Recherche du set de bases empilées le plus long, sur tous les brins Recherche de la zone de plus grande similarité entre brins Mise en place d un alignement des séquences (On maximise le nombre de bases correspondantes)
Méthode comparative Suppression ou rajout de paires de bases : compenser des délétions ou des insertions Repliement des sets de séquences complémentaires : minimisation des énergies libres Complexité optimisée : O(n 4 ) en temps et O(n 2 ) en mémoire Méthode d autant plus fiable que le jeu de séquences à comparer est fourni
Simulation numérique
Principe de l algorithme Maximisation du nombre d appariements Remplissage d une matrice de taille n 2 en fonction des appariements possibles Parcours de cette matrice pour déterminer la structure de plus basse énergie
Pondération des liaisons Un appariement A-U n est pas équivalent à un appariement G-C Un Wobble est moins stable que les autres appariements On choisit donc de pondérer les liaisons : G-C = -4 A-U = -3 G-U = -2
Remplissage de la matrice Matrice symétrique La diagonale et la partie inférieure sont fixées à 0 La matrice est remplie de manière récursive
Exemple d une petite séquence Chaque case Mat[i][j] correspond au minimum des 4 cas suivants : A = Mat[i][j-1] B = Mat[i+1][j] C = Mat[i+1][j-1] + App(base[i],base[j]) Pour k variant de i+1 à j-1, D = Mat[i,k] + Mat[k,j]
Signification des «cas» A = Mat[i][j-1] La base[j] n est pas appariée à la structure base[0] base[i] B =Mat[i+1][j] La base[i] n est pas appariée à la structure base[j] base[n] C = Mat[i+1][j-1] + App(base[i],base[j]) Les base[i] et base[j] sont appariées
Signification des «cas» Pour k variant de i+1 à j-1, D = Mat[i][k] + Mat[k][j] Ces structures correspondent aux boucles
Exemple d une petite séquence On va travailler sur la séquence suivante : UCGGCGAUCGCCGA
Obtention des appariements Il faut parcourir la matrice à l envers pour obtenir le maximum d appariements On démarre le «Traceback» à partir de la case en haut à droite c est à dire la case correspondant à la base[0] et la base[n-1] On recherche si pour obtenir cette case on a fait respectivement les cas B, A, C ou D
Si la transformation est D On relance le TraceBack à partir de Mat[i][k] On obtient donc une sous structure On continue à partir de Mat[k][j]
Exemple du Traceback L algorithme ne prend pas en compte les tailles minimales de boucles Nous les avons implémentées à part Il s arrête quand j < i
Exemple d une petite séquence Et donc après traitement graphique, on obtient :
Rendu Graphique souhaité Mise en place difficile Algorithme de calcul des positions complexes Gestion de l image
Rendu graphique réel Utilisation de la librairie wxpython Gestion de multiples fenêtres Gestion de l ouverture de fichier Gestion du contenu des séquences Gestions des menus
Rendu graphique Mise en place 3 possibilités : Entrer la séquence à la main Ouvrir une séquence contenue dans un fichier Visualisation de la séquence test
Rendu graphique Ouvrir une séquence d un fichier Gestion de l ouverture d une fenêtre
Rendu graphique Ouvrir une séquence d un fichier Gestion de l ouverture et de la lecture d un fichier Si fichier sans séquence ARN:
Simulation
Les limites Basé sur un algorithme simpliste Mauvaise gestion des longues séquences La représentation se limite à la longueur de l écran Les séquences irrégulières sont moyennement repliées
Références & Bibliographie T. Akutsu. Dynamic programming algorithms for rna secondary structure prediction with pseudoknots. Discrete Applied Mathematics, 104, 2000. C. Gaspin. RNA secondary structure determination and representation based on constraints satisfaction. Constraints, 6 :201-221, 2001. I.L. Hofacker. Vienna RNA secondary structure server. Nucleic Acids Research, 31(13) :3429-3431, 2003. H. Isambert and E.D. Siggia. Modeling rna folding paths with pseudoknots : Application to hepatitis delta virus ribozyme. Proc. Natl. Acad. Sci. USA, 97(12) :6515, 2000. F. Lefebvre. A grammar-based uni_cation of several alignment and folding algorithms. In D.J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R.F. Smith, editors, ISMB'96, pages 143-154. AAAI press, 1996. D.H. Mathews, J. Sabina, M. Zuker, and D.H. Turner. Expanded sequence dependenceof thermodynamic parameters improves prdiction of RNA secondary structure. Journal of Molecular Biology, 288 :911-940, 1999.
R. Nussinov, G. Pieczenic, J.R. Griggs, and D.J. Kleitman. Algorithms for loop matchings. SIAM Journal of Applied Mathematics, 35 :68-82, 1978. O. Perriquet, H. Touzet, and M. Dauchet. Finding the common structure shared by two homologous rnas. Bioinformatics, 19 :108-116, 2003. E. Rivas and S.R. Eddy. A dynamic programming algorithm for RNA structure prediction including pseudoknots. Journal of Molecular Biology, 285 :2053-2068, 1999. E. Rivas and S.R. Eddy. The language of RNA : a formal grammar that includes pseudoknots Bioinformatics, 16(4) :334-340, 2000. M. Zuker. Computer prediction of RNA structure. Methods in Enzymology, 180 :262-288,1989. M. Zuker. Mfold web server for nucleic acid folding and hybridization prediction. Nucleic Acids Research, 31(13) :3406-3415, 2003. M. Zuker and P. Stiegler. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acids Research, 9 :133-148, 1989.
MERCI DE VOTRE ATTENTION