Algorithmes pour la prédiction de structures secondaires des ARN. 19/03/2007 Stéfan Engelen - M2 UPMC 1



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

MABioVis. Bio-informatique et la

Plus courts chemins, programmation dynamique

Chapitre 5 : Flot maximal dans un graphe

Univers Vivant Révision. Notions STE

Identification de nouveaux membres dans des familles d'interleukines

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Evalua&on tests diagnos&ques. Arnaud Fontanet

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Qu est-ce qu une probabilité?

VI- Expression du génome

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Définitions. Numéro à préciser. (Durée : )

Perl Orienté Objet BioPerl There is more than one way to do it

Programmation linéaire

Feuille d exercices 2 : Espaces probabilisés

Resolution limit in community detection

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Système de contrôle du trafic d une ligne de métro Dossier de tests

Chapitre 7. Récurrences

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Annexe 6. Notions d ordonnancement.

Bases moléculaires des mutations Marc Jeanpierre

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008


Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Jean-Philippe Préaux

ATELIERS THEMATIQUES COMMERCES UNIONS COMMERCIALES ATELIER CONDUITE DE REUNION DECIDER - CONVAINCRE MOBILISER

Sorties définitives de l emploi. Quels liens avec la santé, le parcours professionnel et les conditions de travail? Nicolas de Riccardis

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Université Paris-Dauphine DUMI2E 1ère année, Applications

Structure quantique cohérente et incohérente de l eau liquide

Rapport d'analyse des besoins

Transmission d informations sur le réseau électrique

Bases de données documentaires et distribuées Cours NFE04

Problème d ordonnancement de véhicules en variables booléennes

Pour l épreuve d algèbre, les calculatrices sont interdites.

La plateforme Cloud Supply Chain. Présentation de GT Nexus

Solutions hautes performances pour le gardiennage et la surveillance

Cours d Analyse. Fonctions de plusieurs variables

Algèbre binaire et Circuits logiques ( )

Agilitéet qualité logicielle: une mutation enmarche

Peut-on imiter le hasard?

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Modélisation et simulation des performances de nœuds de routage optique dans les réseaux dorsaux hybrides

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Programmation Par Contraintes

Architecture des Systèmes d Information Architecture des Systèmes d Information

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Séquence 2. L expression du patrimoine génétique. Sommaire

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

données en connaissance et en actions?

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

BE-TME Questions série 0

L apprentissage automatique

Exercice : la frontière des portefeuilles optimaux sans actif certain

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

1. Déterminer l ensemble U ( univers des possibles) et l ensemble E ( événement) pour les situations suivantes.

Image d un intervalle par une fonction continue

AUTOMATISATION DES PROCÉDÉS COMMANDER ET SURVEILLER EN ZONE À RISQUE D EXPLOSION ET ENVIRONNEMENTS INDUSTRIELS SOLUTIONS HMI APERÇU DES PRODUITS

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Que faire lorsqu on considère plusieurs variables en même temps?

Table des matières: Guidelines Fonds de Pensions

Épreuve collaborative

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Cours d initiation à la programmation en C++ Johann Cuenin

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Système de gestion électronique pour les clés et objets de valeur

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

3. Artefacts permettant la mesure indirecte du débit

CHAPITRE IV. L axiome du choix

DOCM Solutions officielles = n 2 10.

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Vis à béton FBS et FSS

Algorithmes de recherche

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

5 ème Chapitre 4 Triangles

Système immunitaire artificiel

Chapitre 3. Les distributions à deux variables

MANUEL L I A I S O N B A N C A I R E C O D A D O M I C I L I A T I O N S I S A B E L 6

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Rallye Mathématiques de liaison 3 ème /2 nde et 3 ème /2 nde pro Epreuve finale Jeudi 21 mai 2015 Durée : 1h45

Théorie des Jeux Et ses Applications

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

Transcription:

Algorithmes pour la prédiction de structures secondaires des ARN 19/03/2007 Stéfan Engelen - M2 UPMC 1

L ARN La structure secondaire d ARN L ARN Acide Ribo Nucléique Polymère constitué de 4 nucléotides A,C, G, U (adénine, cytosine, guanine et uracile) : Uracile remplace la thymine de l ADN : moins couteuse / moins stable ADN Support de l information génétique (conservé) Produit rarement (division cellulaire) stabilité > cout de production ARN Transfert de l information (non conservé) Produit souvent (en continu) stabilité < cout de production Groupement hydroxy supplémentaire du ribose : Possibilités de repliements et d interaction plus nombreuses grande diversité de fonctions : Expression de l information génétique Hypothèse d un monde des ARN à l origine de la vie et d un ADN crée à partir de l ARN : Seule macromolécule capable à la fois de transmettre et de porter l information génétique mais également d effectuer des réactions de catalyse. 19/03/2007 Stéfan Engelen - M2 UPMC 2

L ARN La structure secondaire d ARN L ARN La fonction s exprime par deux voies : protéines et ARN Les ARN et les protéines possèdent la variabilité structurale nécessaire à l apparition d une fonction Structure Fonction 19/03/2007 Stéfan Engelen - M2 UPMC 3

L ARN La structure secondaire d ARN La transcription 19/03/2007 Stéfan Engelen - M2 UPMC 4

L ARN La structure secondaire d ARN La traduction Acides aminés libres Met Gly Ala ARNt libres GGG CGA Chaine protéique en élongation Met Pro Tyr Ala Pro Tyr ARNt portant un acide aminé AUA GGC AUA CGA AUG CCG UAU GCU CCG UAU UAU GCU GCU 5' 3' ARN messager Ribosome Direction du ribosome Codon 19/03/2007 Stéfan Engelen - M2 UPMC 5

L ARN La structure secondaire d ARN L ARN Trois structures : primaire, secondaire et tertiaire...gucgacuagc UAGGCUGGAUGCU AGGGCUCUCUACA CCUCUAGCGUAGC UAGCUACAAACUU UUUAAAAAGGGGG CGUAAACACA... Prédire la structure d un d ARN Trouver les repliements que subit la structure primaire pour former la structure secondaire puis tertiaire. 19/03/2007 Stéfan Engelen - M2 UPMC 6

L ARN La structure secondaire d ARN La structure secondaire des ARN Intermédiaire simple entre structure primaire et la structure tertiaire Identification de motifs structuraux fonctionnels, comparaison de structures secondaires (phylogénétique) Les paires de bases sont presque co-planaires, elles forment des piles avec d autres paires de bases, que l on appelle tiges. En 3D les tiges forment des hélices Ensemble d hélices résultent de l appariement d une succession de paires de bases complémentaires : Appariement de Watson-Crick G C, A U et Wobble G U AACGUUU AAACGUU Simple brin AACGUUU UUGCAAA Hélice Le but de la prédiction est de trouver ces appariements 19/03/2007 Stéfan Engelen - M2 UPMC 7

L ARN La structure secondaire d ARN La structure secondaire des ARN Eléments de structure secondaires: Boucle terminale Boucle multiple Renflement Boucle interne Pseudonoeuds Hélice 19/03/2007 Stéfan Engelen - M2 UPMC 8

Combinatoire Approche thermodynamique Approche comparative Méthodes expérimentales: Cristallographie, RMN (résonance magnétique nucléaire) Résultats fiables Ressources en temps et en argent Insuffisantes pour traiter l ensemble des données sur les séquences d ARN Méthodes automatiques: Approche thermodynamique Approche comparative 19/03/2007 Stéfan Engelen - M2 UPMC 9

Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire 19/03/2007 Stéfan Engelen - M2 UPMC 10

Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire 19/03/2007 Stéfan Engelen - M2 UPMC 11

Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire Pour un ARN de 200 bases il y a ~10 50 structures possibles. Il faut retrouver la structure qui est biologiquement significative. 19/03/2007 Stéfan Engelen - M2 UPMC 12

Combinatoire Approche thermodynamique Approche comparative Approche thermodynamique Postulat: l ARN en se repliant adopte la structure d énergie minimale Une seule séquence Paramètres thermodynamiques (Turner 1999) Principalement basée sur la programmation dynamique Algorithmes: Nussinov 1978, Zuker-Stiegler 1981 (Mfold, RNAfold) Complexité élevée ( O(n 3 )) Qualité des résultats < 60% (Gardner et Giegerich 2004) Recherche des pseudonoeuds avec des complexités très élevées O(n 5 ) (Eddy 1999) Postulat de base discutable : structure réelle structure d énergie minimale 19/03/2007 Stéfan Engelen - M2 UPMC 13

Programmation dynamique Algorithme Nussinov L énergie de l ARN est la somme des énergies de chaque paire de bases ε (n i,n j ): énergie de l appariement (n i,n j ) ε (n i,n j ) < 0 si j-i>3 et n i Rc n j ε (n i,n j ) = 0 si i=j ε (n i,n j ) = + sinon Energie libre de la structure secondaire S: E(S) = ε (n i,n j ) i i+1 i+2 j-2 j-1 j S i, j : Structure secondaire optimale pour la sous-séquence i j n j s apparie n i : E(S i, j ) = E(S i+1, j-1 ) + ε (n i,n j ) n j ne s apparie pas avec la sous-chaine n i n j-1 : E(S i, j ) = E(S i, j-1 ) n j s apparie avec n k pour i<k<j: E(S i, j ) = min{e(s i, k-1 ) + ε (n k,n j ) + E(S k+1, j-1 )} E(S i, j ) = min{cas1, cas 2 et cas 3} Combinatoire Approche thermodynamique Approche comparative On calcule n 2 E(S i, j ) et chacun nécessite O(n) calcul complexité en O(n 3 ) On récupère ensuite la structure optimale par un algorithme de traceback 19/03/2007 Stéfan Engelen - M2 UPMC 14

Combinatoire Approche thermodynamique Approche comparative Programmation dynamique Algorithme Nussinov Idée: il y a seulement 4 façon pour détecter la meilleure structure pour i,j à partir de la meilleure structure de sous-séquences plus courtes: Cas 1 : Ajouter le couple i,j à la meilleure structure pour la sous-sequence i+1,j-1 Cas 2 : Ajouter la position non-appariée i à la meilleure structure pour la sous-séquence i+1,j Cas 2 : Ajouter la position non-appariée j à la meilleure structure pour la sous-séquence i,j+1 Cas 3 : Combiner deux sous-structures optimales i,k et k+1,j. 19/03/2007 Stéfan Engelen - M2 UPMC 15

Combinatoire Approche thermodynamique Approche comparative Algorithme Zuker-Stiegler Basé sur la programmation dynamique Amélioration des paramètres thermodynamiques de Nussinov: Energie des liaisons hydrogènes Energies d empilements des paires de bases Energies des éléments de structure secondaire (longueur hélice, renflement, boucle terminale, interne et multiple) Ces modifications compliquent l algorithme de programmation dynamique 19/03/2007 Stéfan Engelen - M2 UPMC 16

Combinatoire Approche thermodynamique Approche comparative Algorithme Zuker-Stiegler Introduction de la notion d accessibilité pour définir ces différents éléments par l intermédiaire de boucles Définition : Soit une séquence s, le nucléotide s[k] est dit accessible depuis l appariement (s[i],s[j]) avec i<k<j, s il n existe pas d appariement (s[i ],s[j ]) tel que i<i <k<j <j. Une boucle est définie par un appariement (s[i],s[j]) et tous les nucléotides qui lui sont accessibles. Energie totale égale à la somme des énergies de toutes les boucles qui composent la structure secondaire Complexité en O(n 3 ) en temps et O(n 2 ) en espace Amélioration : Algorithme Rivas et Eddy Nouveaux paramètres décrivant la stabilité thermodynamique des pseudonœuds Ajout de contraintes géométriques entre double hélices et brins simples ne permet pas une division en bloques de poids statistiques indépendants Complexité de O(n 6 ), où n est la taille de la séquence. 19/03/2007 Stéfan Engelen - M2 UPMC 17

Combinatoire Approche thermodynamique Approche comparative Approche comparative Postulat : structure conservée entre les espèces afin de maintenir la fonction Comparer des séquences homologues alignées pour rechercher les appariements conservés et calculer une structure consensus Paramètres de covariation (information mutuelle H(i,j) (Chiu et Kolodziejczak 1991)) Qualité des résultats montrée manuellement (Gutell 1985, Woese 1993) et obtenue par des méthodes automatiques (RNAalifold (Hofacker 2002), O(n 3 ), efficacité 80%) Modèle très informatif permettant de s abstraire du calcul de toutes les structures en élaguant à priori les fausses pistes complexité O(n 3 ) Pseudonoeuds non recherchés ou avec des complexité élevées Dépendante de la qualité de l alignement repliement et alignement simultané : algorithme de Sankoff O(n 6 ) (Sankoff 1985), dynalign (Mathews 2002), carnac (Perriquet 2003) O(n 3 ) 19/03/2007 Stéfan Engelen - M2 UPMC 18

Combinatoire Approche thermodynamique Approche comparative Approche comparative Séquences homologues non identiques dont les structures secondaires sont identiques. Rechercher les appariements conservés dans des séquences homologues Séléctionner parmis ces appariements ceux qui présentent des mutations corrélées dans des séquences homologues 19/03/2007 Stéfan Engelen - M2 UPMC 19

Démarche P-DCFold (Pseudoknots Divide and Conquer Folding) Automatisation de l approche comparative en O(n 2 ) Recherche de tous les types de pseudonoeuds Principe diviser pour régner Utilisation de critères thermodynamiques et de covariation : (Sequence Selection for the Approach) Sélection automatique des séquences homologues intéressantes Intégration efficace de à comparative AAA-CC-UUU- AAA-CC-UUUU AAAACCCUUU- AAA-C -UUU- AAU-CA-UUU- UAAGCC-UUU- -AAGCC-UUCU AAA-CC-UUU- AAA-CC-UUUU AAAACCCUUU- AAU-CA-UUU- R 0 14 [AAA]-CC-[UUU]- --1--------1 -- 19/03/2007 Stéfan Engelen - M2 UPMC 20

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations recherche des hélices plutôt que des appariements On appelle abusivement palindrome, les deux répétitions complémentaires et inversées ( Ex :... AACGUUU... AAACGUU... ) constituant les hélices Un palindrome est défini par un triplet d entiers (début, fin, longueur): longueur Séquence AACGUUU AAACGUU début fin Réprésentation graphique des palindromes : 19/03/2007 Stéfan Engelen - M2 UPMC 21

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations La structure secondaire est formée de palindromes comparables deux à deux Définition: deux palindromes sont comparables si les mots qui les composent sont disjoints Trois types de relations existent entre deux palindromes comparables: Disjointure Inclusion Entrelacement Définition: deux palindromes comparables vérifiant les relations de disjointure ou d inclusion sont dits compatibles. Les autres sont dits incompatibles, et s ils sont comparables, ils vérifient la relation d entrelacement et forment un pseudonoeud. On peut généraliser la notion de pseudonoeud Définition: un P-pseudonoeud est composé de P palindromes vérifiant la relation d entrelacement avec chacun des autres palindromes composant le P-pseudonoeud. 19/03/2007 Stéfan Engelen - M2 UPMC 22

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations Notion de complexité de structure Définition: Une structure secondaire d ARN a une complexité de C, avec C>0, si elle contient au moins un C-pseudonoeud et aucun (C+k)-pseudonoeud, avec k>0 Le nombre de plans nécessaires pour représenter la structure secondaire sans croisement correspond à la complexité de la structure 19/03/2007 Stéfan Engelen - M2 UPMC 23

Sélection des palindromes Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection dans une séquence cible des palindromes selon des critères de longueur et thermodynamiques Séquence cible Vérification de leur conservation dans les séquences tests Séquence cible Séquences tests Sélection des palindromes en fonction de critères de covariation calculés pour l ensemble des séquences tests 19/03/2007 Stéfan Engelen - M2 UPMC 24

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans la séquence cible Longueur > log 4 n : Dans une séquence de longueur n presque tous les mots de longueur inférieure à log k n apparaissent, avec k la taille de l alphabet (Flajolet et al 1988) Modèle thermodynamique: types d appariements, configurations des appariements, types de boucles 19/03/2007 Stéfan Engelen - M2 UPMC 25

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans la séquence cible Algorithme de recherche de répétitions Contruction de la matrice d appariements +2 pour R5 GU et B5 GU +1 pour Y5 GU et B3 GU +2 pour AU +3 pour GC +1 pour H5 GA et H5 AA +0 pour H3 GA et H3 AA +2 pour les tetraboucles GNRA Recherche des scores > 2*log 4 n Récupération des palindromes Complexité construction en O(n 2 /2) Complexité recherche en O(n 2 /2) 19/03/2007 Stéfan Engelen - M2 UPMC 26

Conservation dans les séquences tests Palindrome défini par le triplet d entier (x,y,l) trouvé dans la séquence cible Pour chaque séquence test: alignement complémentaire inversé des sous séquences S t [(x-d) (x+l+d)] et S t [(y-l-d) (y+d)] Scores d appariements: Scores du modèle thermodynamique -2 pour les mésappariements -1 pour les renflements Récupération des alignements locaux de scores maximums Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Le palindrome est conservé si chacun des scores maximums est supérieur à 2*log 4 n Séquence cible S x y Score max 1 Séquences tests S t Score max 2 Score max 3 >2*log 4 n d l d d l d Score max 4 19/03/2007 Stéfan Engelen - M2 UPMC 27

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans les séquences tests Critère de taux de mutation : N = 2 * N comp + N cons N err Taux= N / Long Taux 1 AACGUUU AAGGUGU AACGUUU AAGGUUU AACGUUU AAACGUU AUACCUU AAGCGUU AUACCUU AAACGUU A défaut critère LongMut : LongMut = N + Long Taux=(2*2+1-1)/7=4/7<1 LongMut=(2*2+1-1)+7 2 * log 4 n vrai si log 4 n 5,5 LongMut 2 * log 4 n 19/03/2007 Stéfan Engelen - M2 UPMC 28

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Basé sur le principe diviser pour régner qui permet de segmenter le problème de départ en sous-problèmes moins complexes Un palindrome trouvé subdivise la séquence en sous-séquences de plus petites tailles S2 S1 S2 S1 S2 S2 La recherche est relancée sur chacune des deux sous-séquences Ce découpage ne permet pas de rechercher des pseudonoeuds 19/03/2007 Stéfan Engelen - M2 UPMC 29

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Les palindromes sont ordonnés selon leurs positions de fin puis leurs séquences internes sont traitées consécutivement. Celles-ci peuvent résulter d une concaténation de sous-séquences S1 S2 S3 S4 S5 S6 S7 S3 S2 S4 S6 S1 S5 S7 19/03/2007 Stéfan Engelen - M2 UPMC 30

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Lg = Séquence cible S Si = S Recherche dans Si des palindromes vérifiant les critères de longueur et thermodynamiques Liste L1 des palindromes de Si Jeu de séquences tests Sélection dans L1 des palindromes conservés vérifiant les critères de covariation Liste L2 des palindromes conservés Sélection dans L2 des palindromes compatibles Complexité: O(k*m*n 2 ) k: nb max d étapes de récursivité m: nb séquences tests n: taille de la séquence cible Liste L3 des palindromes conservés et compatibles Séquence Si Lg = Lg U L3 Déduction d un ensemble de sous-séquences de Si à partir de Lg Si=S1 Si=S2 Si=Sn S1 S2 Sn 19/03/2007 Stéfan Engelen - M2 UPMC 31

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des pseudonoeuds Soit une séquence S, DCfold trouve une liste L1 de palindromes compatibles S S1 S2 S3 S4 S5 S6 S7 DCfold est relancé sur S privée des palindromes de L1 (S ) S S1 S2 S3 S4 S5 S6 S7 Ceci permet de trouver une liste L2 de palindromes compatibles entres eux mais tous incompatibles avec au moins un palindrome de la liste L1 S Un palindrome de L2 forme un 2-pseudonoeud avec au moins un palindrome de L1 19/03/2007 Stéfan Engelen - M2 UPMC 32

Algorithme de recherche des pseudonoeuds On relance DCfold sur S privée des palindromes de L2 (S ) ce qui permet de trouver une liste L3 de palindromes incompatible avec au moins un palindrome de L1 et au moins un palindrome de L2 Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds S Ceci se poursuit tant que des palindromes sont trouvés Si la recherche est lancée C+1 fois, alors des C-pseudonoeuds sont trouvés La structure secondaire est prédite avec une complexité de C 19/03/2007 Stéfan Engelen - M2 UPMC 33

Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des pseudonoeuds C=0 La = Séquence cible S Si = S Jeu de séquences tests Recherche des palindromes compatibles dans Si (DCFold) Liste La de palindromes compatibles Si Lg La = La U Lg C=C+1 Séquence S Complexité: O(C*k*m*n 2 ) k: nb max d étapes de récursivité m: nb séquences tests n: taille de la séquence cible C: complexité de la structure Déduction d une nouvelle séquence Si ne contenant pas les palindromes de La Si 19/03/2007 Stéfan Engelen - M2 UPMC 34

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats : ARNt Haemophilus influenzae Séquences tests: Aquifex aeolicus, Mycoplasma genitali, Bacilus subtilis et Helicobacter pylori 19/03/2007 Stéfan Engelen - M2 UPMC 35

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN u1 Echinococcus multilocularis 19/03/2007 Stéfan Engelen - M2 UPMC 36

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN srp Halobacterium halobium Séquences tests: Haloferax volcanii, Methanococcus jannaschii, Methanococcus fervidus et Staphilococcus epidermidis 19/03/2007 Stéfan Engelen - M2 UPMC 37

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARNtm Escherichia coli Séquences tests : Vibrio cholerae ( 80%) Pseudomonas putrefaciens ( 55%) Streptococcus pyogenes ( 80%) Actinobacillus actinomycetemcomitans ( 40%) 19/03/2007 Stéfan Engelen - M2 UPMC 38

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: RNAse P Escherichia coli Séquences tests : Thiobacillus ferrooxidans ( 60%) Salmonella typhimurium ( 98%) Rhodobacter capsulatus ( 57%) Yersinia pestis ( 90%) 19/03/2007 Stéfan Engelen - M2 UPMC 39

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN 16S Escherichia coli Séquences tests: Neisseria gonrrhoeae, Chlamydia psittacis, Mycoplasma capricolum et Afipia genosp 19/03/2007 Stéfan Engelen - M2 UPMC 40

Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN 23S Escherichia coli 19/03/2007 Stéfan Engelen - M2 UPMC 41

Résultats: Alignements de l ARNtm et de la RNaseP Alignement de l ARN tm Score moyen dévié de 57 à -5 Prédictions > Q B (31): dévié de 0,1 à 4% Alignement de RNAse P Score moyen dévié de 80 à 16 Prédictions > Q B (36): dévié de 0,06 à 5% Le classement obtenu est globalement correct car a permis de récupérer des combinaisons de séquences tests donnant de bonnes prédictions Inconvénient : erreurs ponctuelles dans le classement Solution : considérer le classement globalement en effectuant plusieurs prédictions à partir des séquences les mieux classées 19/03/2007 Stéfan Engelen - M2 UPMC 42

Prédictions multiples et structure consensus Une prédiction: appariements vrai positifs et faux positifs Plusieurs prédictions (jeux de séquences homologues différents) : vrai positifs identiques et faux positifs différents Idée: calcul d une structure consensus à partir de plusieurs prédictions Une hélice apparait sous différentes formes équivalentes dans différentes prédictions Prédiction 1 Prédiction 2 Prédiction 3 Appariements communs Une hélice appartient à la structure consensus si son nombre d apparitions A sous différentes formes équivalente vérifie : E A > Avec E le nombre de prédictions 2 La structure consensus obtenue ne contient que des palindromes comparables Seules les hélices majoritaires sont sélectionnées, les autres sont éliminées 19/03/2007 Stéfan Engelen - M2 UPMC 43

Plateforme logicielle Séq cible Séq cible alignée Séquence 1 Séquence 2 Séquence 3 Séquence 4 Séquence 5 Séquence 6 Séquence 7 Séquence 8 ClustalW Séq alignée 1 Séq alignée 2 Séq alignée 3 Séq alignée 4 Séq alignée 5 Séq alignée 6 Séq alignée 7 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 4 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 4 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 4 Séq alignée 8 RNAviz R 0 14 [aaa]-cc-[uuu]- --1--------1 -- 19/03/2007 Stéfan Engelen - M2 UPMC 44

Première étude comparative Logiciel de différents types: Mfold (O(n 3 )): approche thermodynamique, programmation dynamique RNAalifold (O(n 3 )): approche comparative, programmation dynamique Pfold (O(n 3 )): grammaires stockastiques intégrant des informations de covariation ILM (O(n 3 )): approche comparative, programmation dynamique, recherche des d hélices et des pseudonoeuds, information mutuelle Carnac (O(n 3 )): Alignement et co-repliement de deux séquences homologues en utilisant des critères thermodynamiques et de covariation ARN de tailles variées (76 à 2904): ARNt, ARN5s, ARNu1, ARNsrp, ARNtm, RNaseP, ARN16s et ARN23s 19/03/2007 Stéfan Engelen - M2 UPMC 45

Mesures de qualité sensibilité : sélectivité : Y = VP X = VP + FN VP VP+ (FP ε) VP = vrais positifs VN = vrais négatifs FP = faux positifs FN = faux négatifs corrélation : MCC= ((VP VN)-(FP-ε) FN) (VP+(FP-ε))(VP+ FN)(VN+ (FP-ε))(VN+ FN) 19/03/2007 Stéfan Engelen - M2 UPMC 46

Sensibilité 19/03/2007 Stéfan Engelen - M2 UPMC 47

Sélectivité 19/03/2007 Stéfan Engelen - M2 UPMC 48

Corrélation 19/03/2007 Stéfan Engelen - M2 UPMC 49

Première analyse comparative Deuxième analyse comparative Deuxième étude comparative Cadre : comparaison de Garner et Giegerich (Bioinformatics 2004) Logiciels : Mfold pour l approche thermodynamique RNAalifold, Pfold, ILM, Carnac, Foldalign, Dynalign et pour l approche comparative Un jeu de séquences à homologie forte (80%-90%) et un autre à homologie moyenne (60%-80%) pour chaque ARN (ARN t, RNaseP, ARN 16S et ARN 23S) Mesures de corrélation Structures de références différentes en fonction : Des logiciels (types d appariements recherchés) Des séquences (hélices conservées dans moins de 50% des séquences) Structure de référence de la RNase P: 110 appariements pour, 71 pour RNAfold et 54 pour Pfold A corrélation identique trouve plus d appariements de la structure de référence 19/03/2007 Stéfan Engelen - M2 UPMC 50

Première analyse comparative Deuxième analyse comparative Corrélation: séquences à homologie forte 19/03/2007 Stéfan Engelen - M2 UPMC 51

Première analyse comparative Deuxième analyse comparative Corrélation: séquences à homologie moyenne 19/03/2007 Stéfan Engelen - M2 UPMC 52

Méthode rapide (complexité en O(n 2 )) Recherche d hélices plutôt que d appariements Principe «diviser pour régner» permettant de contraindre l espace et de placer les hélices par pertinence décroissante Temps d exécution inférieurs à 5 secondes pour l ARN 23S (2904) Qualité des résultats (sensibilité de 0,85 et sélectivité 0,95) Prédictions incluant la recherche de tous les types de pseudonoeuds Modèle intégrant des notions thermodynamiques et de covariation Phase de comparaison flexible Algorithme novateur de sélection des séquences () 19/03/2007 Stéfan Engelen - M2 UPMC 53

Améliorations: Modèle thermodynamique Calcul des structures consensus Choix des séquences tests : arbre phylogénétique : Alignement et prédiction de structures simultanément : Aller - retour entre prédiction et alignement Recherche d interactions tertiaires Analyse de covariation Nouveau modèle thermodynamique Postérieure à la recherche des interactions secondaires 19/03/2007 Stéfan Engelen - M2 UPMC 54