Structure secondaire d une molécule d ARNt. Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

MABioVis. Bio-informatique et la

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Chapitre 5 : Flot maximal dans un graphe

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Big data et sciences du Vivant L'exemple du séquençage haut débit

FaceBook aime les Maths!

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Annexe 6. Notions d ordonnancement.

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Programmation linéaire

Théorèmes de Point Fixe et Applications 1

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Peut-on imiter le hasard?

Initiation au binaire

Echantillonnage Non uniforme

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Représentation d un entier en base b

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Bases de données relationnelles

Programmation linéaire

Introduction aux bases de données: application en biologie

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

TSTI 2D CH X : Exemples de lois à densité 1

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Plus courts chemins, programmation dynamique

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

TD de Biochimie 4 : Coloration.

Resolution limit in community detection

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

TP N 57. Déploiement et renouvellement d une constellation de satellites

Pi, poker et informatique ; une «épuisante» alliance pour des projets en mathématiques

Traitement des données avec Microsoft EXCEL 2010

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Groupe Eyrolles, 2003, ISBN : X

VI- Expression du génome

Infolettre #18 : Les graphiques avec Excel 2010

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Cours de Master Recherche

Représentation et analyse des systèmes linéaires

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Identification de nouveaux membres dans des familles d'interleukines

Forthcoming Database

Systèmes de transmission

Ingénierie des Modèles. Méta-modélisation

Introduction au maillage pour le calcul scientifique

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Travaux pratiques avec RapidMiner

Résolution de systèmes linéaires par des méthodes directes

Intégration de la dimension sémantique dans les réseaux sociaux

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Exclusion Mutuelle. Arnaud Labourel Courriel : arnaud.labourel@lif.univ-mrs.fr. Université de Provence. 9 février 2011

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Programme d Accès Communautaire / Atelier 4 Initiation à Microsoft Excel PLAN DE COURS 3 MICROSOFT EXCEL 4 LANCER EXCEL 4

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Algorithmique des Systèmes Répartis Protocoles de Communications

Chapitre 4 - Spectroscopie rotationnelle

FIMA, 7 juillet 2005

Architecture distribuée

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Perl Orienté Objet BioPerl There is more than one way to do it

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Cours d Analyse. Fonctions de plusieurs variables

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Differential Synchronization

jeudi 19 septembre 2013, Bournezeau Services et Solutions en Carrière

Apprentissage Automatique

Conception de réseaux de télécommunications : optimisation et expérimentations

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Transcription:

Structure secondaire d une molécule d ARNt Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa

Plan Généralités sur l ARN Moyens de prédiction des structures secondaires Application : implémentation de l algorithme de Nussinov

Généralités sur l'arn L'acide ribonucléique Polymère linéaire constitué d'un enchaînement de nucléotides 1 groupement phosphate 1 ribose 1 base azotée Présent dans les cellules sous forme de simple brin Molécules plus courtes que l ADN ARN : une centaine à quelques milliers de nucléotides ADN : quelques millions à quelques milliards de nucléotides Produit par transcription de l'adn

Structure de l'arn Structure tridimensionnelle d'un ARN Composée de briques élémentaires : les motifs Motifs Appartiennent à la structure secondaire Classés parmi les interactions tertiaires Structure secondaire : Définie par des relations mathématiques proposées par Waterman Soit une séquence S de paires de bases indicées (i,j) avec i<j : Une base i ne peut être appariée à plus qu'une base j Pour 2 couples de bases appariées (i,j),(k,l) : Si i<k<j alors i<l<j

Motifs élémentaires Structure secondaire : succession de motifs élémentaires On distingue 4 motifs La tige (ou hélice) : succession d appariements de paires de bases consécutives La boucle terminale, fermée par une paire de bases appariées La boucle interne, symétrique ou non, fermée par deux paires de bases Les boucles multiples qui relient les hélices entre elles

Motifs constitués d'au moins deux hélices Résultat de l'interaction d'une boucle libre d'une structure secondaire avec un brin libre complémentaire situé en dehors de la boucle Pseudonoeud H et pseudonoeud I : les deux plus connus

Généralités sur l'arnt L'ARN de transfert : court ARN (70 à 100 nucléotides), intervenant lors de la synthèse des protéines Rôle essentiel dans le processus de traduction Structure spécifique en feuille de trèfle : Bras accepteur : tige supérieure qui porte les extrémités 3' et 5 Bras anticodon : tige inférieure Bras T et Bras D : présence de ribonucléotides modifiés : la ribothymidine (T) et la dihydrouridine (D)

Prédiction des structures secondaires d'arn Interactions les plus simples : les appariements de paires de bases Watson-Crick (A-U et G-C) et appariements dits bancals (G-U) ou Wobble Prédiction de structures avec pseudonoeuds : non intégrée dans la majeure partie des codes existants Algorithmes de prédiction : basés sur les lois d'appariement de Waterman (exclusion des pseudonoeuds) Associe un poids à chaque structure selon un critère donné : nombre maximum d'appariements minimum d'énergie libre

Modèle de base : Lister tous les brins complémentaires d'une séquence donnée Former toutes les combinaisons possibles d'hélices compatibles Calculer l'énergie totale de chaque structure.

Algorithme de Nussinov-Jacobson Algorithme qui vise à maximiser le nombre d appariements Application directe des lois de Waterman Structure secondaire la plus stable : celle où le nombre de bases appariées est le plus grand Hypothèse : structure décomposable en une somme d empilements de paires de bases qui n interagissent pas entre elles Algorithme que nous avons implémenté

Algorithme de Zuker Algorithme implémenté dans le logiciel Mfold Estimation plus réaliste de la stabilité thermodynamique de la structure Energie libre de configuration : somme des contributions de chacun des motifs élémentaires

Algorithme de Zuker Avec prise en compte : Boucles libres Appariements des bases (stacking) Ajout de correction : Pour les boucles multiples qui tendent à déstabiliser la structure Pour les bases pendantes adjacentes à la première paire de bases d une hélice dans les boucles multiples et les boucles terminales

Prise en compte de structures sous-optimales Modifications effectuées par Zuker sur son algorithme : Considérer les structures ayant une énergie libre légèrement supérieure Intérêt : Prendre en compte les structures dont la différence d énergie avec la structure «minimale» serait due aux approximations des énergies de bases utilisées pour le calcul

Prise en compte des pseudonoeuds Rivas et Eddy (1999) : Prise en compte des pseudonoeuds Complexité algorithmique O(n 6 ) en temps et O(n 4 ) en mémoire pour une séquence de n bases Ajout d un second algorithme permettant de modéliser les pseudonoeuds Akutsu (2000) : Amélioration de cet algorithme : complexité de O(n 4 ) en temps en généralisant l approche d appariement maximum

Prédictions à l aide d un algorithme de modélisation cinétique. Principe : Hypothèse : Repliement immédiat après la traduction, passant par états transitoires Conséquences : modifications d appariements possibles entre deux bases, réarrangements entre états de transition Algorithme implémenté par Christian Isambert sur le serveur Kinefold, simulant le repliement cinétique de l ARN

Méthode comparative On se base sur le principe que des séquences homologues ont des structures similaires L évolution conserve mieux la structure que la séquence

Méthode comparative Obtention d un jeu de séquences homologues Recherche du set de bases empilées le plus long, sur tous les brins Recherche de la zone de plus grande similarité entre brins Mise en place d un alignement des séquences (On maximise le nombre de bases correspondantes)

Méthode comparative Suppression ou rajout de paires de bases : compenser des délétions ou des insertions Repliement des sets de séquences complémentaires : minimisation des énergies libres Complexité optimisée : O(n 4 ) en temps et O(n 2 ) en mémoire Méthode d autant plus fiable que le jeu de séquences à comparer est fourni

Simulation numérique

Principe de l algorithme Maximisation du nombre d appariements Remplissage d une matrice de taille n 2 en fonction des appariements possibles Parcours de cette matrice pour déterminer la structure de plus basse énergie

Pondération des liaisons Un appariement A-U n est pas équivalent à un appariement G-C Un Wobble est moins stable que les autres appariements On choisit donc de pondérer les liaisons : G-C = -4 A-U = -3 G-U = -2

Remplissage de la matrice Matrice symétrique La diagonale et la partie inférieure sont fixées à 0 La matrice est remplie de manière récursive

Exemple d une petite séquence Chaque case Mat[i][j] correspond au minimum des 4 cas suivants : A = Mat[i][j-1] B = Mat[i+1][j] C = Mat[i+1][j-1] + App(base[i],base[j]) Pour k variant de i+1 à j-1, D = Mat[i,k] + Mat[k,j]

Signification des «cas» A = Mat[i][j-1] La base[j] n est pas appariée à la structure base[0] base[i] B =Mat[i+1][j] La base[i] n est pas appariée à la structure base[j] base[n] C = Mat[i+1][j-1] + App(base[i],base[j]) Les base[i] et base[j] sont appariées

Signification des «cas» Pour k variant de i+1 à j-1, D = Mat[i][k] + Mat[k][j] Ces structures correspondent aux boucles

Exemple d une petite séquence On va travailler sur la séquence suivante : UCGGCGAUCGCCGA

Obtention des appariements Il faut parcourir la matrice à l envers pour obtenir le maximum d appariements On démarre le «Traceback» à partir de la case en haut à droite c est à dire la case correspondant à la base[0] et la base[n-1] On recherche si pour obtenir cette case on a fait respectivement les cas B, A, C ou D

Si la transformation est D On relance le TraceBack à partir de Mat[i][k] On obtient donc une sous structure On continue à partir de Mat[k][j]

Exemple du Traceback L algorithme ne prend pas en compte les tailles minimales de boucles Nous les avons implémentées à part Il s arrête quand j < i

Exemple d une petite séquence Et donc après traitement graphique, on obtient :

Rendu Graphique souhaité Mise en place difficile Algorithme de calcul des positions complexes Gestion de l image

Rendu graphique réel Utilisation de la librairie wxpython Gestion de multiples fenêtres Gestion de l ouverture de fichier Gestion du contenu des séquences Gestions des menus

Rendu graphique Mise en place 3 possibilités : Entrer la séquence à la main Ouvrir une séquence contenue dans un fichier Visualisation de la séquence test

Rendu graphique Ouvrir une séquence d un fichier Gestion de l ouverture d une fenêtre

Rendu graphique Ouvrir une séquence d un fichier Gestion de l ouverture et de la lecture d un fichier Si fichier sans séquence ARN:

Simulation

Les limites Basé sur un algorithme simpliste Mauvaise gestion des longues séquences La représentation se limite à la longueur de l écran Les séquences irrégulières sont moyennement repliées

Références & Bibliographie T. Akutsu. Dynamic programming algorithms for rna secondary structure prediction with pseudoknots. Discrete Applied Mathematics, 104, 2000. C. Gaspin. RNA secondary structure determination and representation based on constraints satisfaction. Constraints, 6 :201-221, 2001. I.L. Hofacker. Vienna RNA secondary structure server. Nucleic Acids Research, 31(13) :3429-3431, 2003. H. Isambert and E.D. Siggia. Modeling rna folding paths with pseudoknots : Application to hepatitis delta virus ribozyme. Proc. Natl. Acad. Sci. USA, 97(12) :6515, 2000. F. Lefebvre. A grammar-based uni_cation of several alignment and folding algorithms. In D.J. States, P. Agarwal, T. Gaasterland, L. Hunter, and R.F. Smith, editors, ISMB'96, pages 143-154. AAAI press, 1996. D.H. Mathews, J. Sabina, M. Zuker, and D.H. Turner. Expanded sequence dependenceof thermodynamic parameters improves prdiction of RNA secondary structure. Journal of Molecular Biology, 288 :911-940, 1999.

R. Nussinov, G. Pieczenic, J.R. Griggs, and D.J. Kleitman. Algorithms for loop matchings. SIAM Journal of Applied Mathematics, 35 :68-82, 1978. O. Perriquet, H. Touzet, and M. Dauchet. Finding the common structure shared by two homologous rnas. Bioinformatics, 19 :108-116, 2003. E. Rivas and S.R. Eddy. A dynamic programming algorithm for RNA structure prediction including pseudoknots. Journal of Molecular Biology, 285 :2053-2068, 1999. E. Rivas and S.R. Eddy. The language of RNA : a formal grammar that includes pseudoknots Bioinformatics, 16(4) :334-340, 2000. M. Zuker. Computer prediction of RNA structure. Methods in Enzymology, 180 :262-288,1989. M. Zuker. Mfold web server for nucleic acid folding and hybridization prediction. Nucleic Acids Research, 31(13) :3406-3415, 2003. M. Zuker and P. Stiegler. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acids Research, 9 :133-148, 1989.

MERCI DE VOTRE ATTENTION