Algorithmes pour la prédiction de structures secondaires des ARN 19/03/2007 Stéfan Engelen - M2 UPMC 1
L ARN La structure secondaire d ARN L ARN Acide Ribo Nucléique Polymère constitué de 4 nucléotides A,C, G, U (adénine, cytosine, guanine et uracile) : Uracile remplace la thymine de l ADN : moins couteuse / moins stable ADN Support de l information génétique (conservé) Produit rarement (division cellulaire) stabilité > cout de production ARN Transfert de l information (non conservé) Produit souvent (en continu) stabilité < cout de production Groupement hydroxy supplémentaire du ribose : Possibilités de repliements et d interaction plus nombreuses grande diversité de fonctions : Expression de l information génétique Hypothèse d un monde des ARN à l origine de la vie et d un ADN crée à partir de l ARN : Seule macromolécule capable à la fois de transmettre et de porter l information génétique mais également d effectuer des réactions de catalyse. 19/03/2007 Stéfan Engelen - M2 UPMC 2
L ARN La structure secondaire d ARN L ARN La fonction s exprime par deux voies : protéines et ARN Les ARN et les protéines possèdent la variabilité structurale nécessaire à l apparition d une fonction Structure Fonction 19/03/2007 Stéfan Engelen - M2 UPMC 3
L ARN La structure secondaire d ARN La transcription 19/03/2007 Stéfan Engelen - M2 UPMC 4
L ARN La structure secondaire d ARN La traduction Acides aminés libres Met Gly Ala ARNt libres GGG CGA Chaine protéique en élongation Met Pro Tyr Ala Pro Tyr ARNt portant un acide aminé AUA GGC AUA CGA AUG CCG UAU GCU CCG UAU UAU GCU GCU 5' 3' ARN messager Ribosome Direction du ribosome Codon 19/03/2007 Stéfan Engelen - M2 UPMC 5
L ARN La structure secondaire d ARN L ARN Trois structures : primaire, secondaire et tertiaire...gucgacuagc UAGGCUGGAUGCU AGGGCUCUCUACA CCUCUAGCGUAGC UAGCUACAAACUU UUUAAAAAGGGGG CGUAAACACA... Prédire la structure d un d ARN Trouver les repliements que subit la structure primaire pour former la structure secondaire puis tertiaire. 19/03/2007 Stéfan Engelen - M2 UPMC 6
L ARN La structure secondaire d ARN La structure secondaire des ARN Intermédiaire simple entre structure primaire et la structure tertiaire Identification de motifs structuraux fonctionnels, comparaison de structures secondaires (phylogénétique) Les paires de bases sont presque co-planaires, elles forment des piles avec d autres paires de bases, que l on appelle tiges. En 3D les tiges forment des hélices Ensemble d hélices résultent de l appariement d une succession de paires de bases complémentaires : Appariement de Watson-Crick G C, A U et Wobble G U AACGUUU AAACGUU Simple brin AACGUUU UUGCAAA Hélice Le but de la prédiction est de trouver ces appariements 19/03/2007 Stéfan Engelen - M2 UPMC 7
L ARN La structure secondaire d ARN La structure secondaire des ARN Eléments de structure secondaires: Boucle terminale Boucle multiple Renflement Boucle interne Pseudonoeuds Hélice 19/03/2007 Stéfan Engelen - M2 UPMC 8
Combinatoire Approche thermodynamique Approche comparative Méthodes expérimentales: Cristallographie, RMN (résonance magnétique nucléaire) Résultats fiables Ressources en temps et en argent Insuffisantes pour traiter l ensemble des données sur les séquences d ARN Méthodes automatiques: Approche thermodynamique Approche comparative 19/03/2007 Stéfan Engelen - M2 UPMC 9
Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire 19/03/2007 Stéfan Engelen - M2 UPMC 10
Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire 19/03/2007 Stéfan Engelen - M2 UPMC 11
Combinatoire Approche thermodynamique Approche comparative Prédiction de structure secondaire Pour un ARN de 200 bases il y a ~10 50 structures possibles. Il faut retrouver la structure qui est biologiquement significative. 19/03/2007 Stéfan Engelen - M2 UPMC 12
Combinatoire Approche thermodynamique Approche comparative Approche thermodynamique Postulat: l ARN en se repliant adopte la structure d énergie minimale Une seule séquence Paramètres thermodynamiques (Turner 1999) Principalement basée sur la programmation dynamique Algorithmes: Nussinov 1978, Zuker-Stiegler 1981 (Mfold, RNAfold) Complexité élevée ( O(n 3 )) Qualité des résultats < 60% (Gardner et Giegerich 2004) Recherche des pseudonoeuds avec des complexités très élevées O(n 5 ) (Eddy 1999) Postulat de base discutable : structure réelle structure d énergie minimale 19/03/2007 Stéfan Engelen - M2 UPMC 13
Programmation dynamique Algorithme Nussinov L énergie de l ARN est la somme des énergies de chaque paire de bases ε (n i,n j ): énergie de l appariement (n i,n j ) ε (n i,n j ) < 0 si j-i>3 et n i Rc n j ε (n i,n j ) = 0 si i=j ε (n i,n j ) = + sinon Energie libre de la structure secondaire S: E(S) = ε (n i,n j ) i i+1 i+2 j-2 j-1 j S i, j : Structure secondaire optimale pour la sous-séquence i j n j s apparie n i : E(S i, j ) = E(S i+1, j-1 ) + ε (n i,n j ) n j ne s apparie pas avec la sous-chaine n i n j-1 : E(S i, j ) = E(S i, j-1 ) n j s apparie avec n k pour i<k<j: E(S i, j ) = min{e(s i, k-1 ) + ε (n k,n j ) + E(S k+1, j-1 )} E(S i, j ) = min{cas1, cas 2 et cas 3} Combinatoire Approche thermodynamique Approche comparative On calcule n 2 E(S i, j ) et chacun nécessite O(n) calcul complexité en O(n 3 ) On récupère ensuite la structure optimale par un algorithme de traceback 19/03/2007 Stéfan Engelen - M2 UPMC 14
Combinatoire Approche thermodynamique Approche comparative Programmation dynamique Algorithme Nussinov Idée: il y a seulement 4 façon pour détecter la meilleure structure pour i,j à partir de la meilleure structure de sous-séquences plus courtes: Cas 1 : Ajouter le couple i,j à la meilleure structure pour la sous-sequence i+1,j-1 Cas 2 : Ajouter la position non-appariée i à la meilleure structure pour la sous-séquence i+1,j Cas 2 : Ajouter la position non-appariée j à la meilleure structure pour la sous-séquence i,j+1 Cas 3 : Combiner deux sous-structures optimales i,k et k+1,j. 19/03/2007 Stéfan Engelen - M2 UPMC 15
Combinatoire Approche thermodynamique Approche comparative Algorithme Zuker-Stiegler Basé sur la programmation dynamique Amélioration des paramètres thermodynamiques de Nussinov: Energie des liaisons hydrogènes Energies d empilements des paires de bases Energies des éléments de structure secondaire (longueur hélice, renflement, boucle terminale, interne et multiple) Ces modifications compliquent l algorithme de programmation dynamique 19/03/2007 Stéfan Engelen - M2 UPMC 16
Combinatoire Approche thermodynamique Approche comparative Algorithme Zuker-Stiegler Introduction de la notion d accessibilité pour définir ces différents éléments par l intermédiaire de boucles Définition : Soit une séquence s, le nucléotide s[k] est dit accessible depuis l appariement (s[i],s[j]) avec i<k<j, s il n existe pas d appariement (s[i ],s[j ]) tel que i<i <k<j <j. Une boucle est définie par un appariement (s[i],s[j]) et tous les nucléotides qui lui sont accessibles. Energie totale égale à la somme des énergies de toutes les boucles qui composent la structure secondaire Complexité en O(n 3 ) en temps et O(n 2 ) en espace Amélioration : Algorithme Rivas et Eddy Nouveaux paramètres décrivant la stabilité thermodynamique des pseudonœuds Ajout de contraintes géométriques entre double hélices et brins simples ne permet pas une division en bloques de poids statistiques indépendants Complexité de O(n 6 ), où n est la taille de la séquence. 19/03/2007 Stéfan Engelen - M2 UPMC 17
Combinatoire Approche thermodynamique Approche comparative Approche comparative Postulat : structure conservée entre les espèces afin de maintenir la fonction Comparer des séquences homologues alignées pour rechercher les appariements conservés et calculer une structure consensus Paramètres de covariation (information mutuelle H(i,j) (Chiu et Kolodziejczak 1991)) Qualité des résultats montrée manuellement (Gutell 1985, Woese 1993) et obtenue par des méthodes automatiques (RNAalifold (Hofacker 2002), O(n 3 ), efficacité 80%) Modèle très informatif permettant de s abstraire du calcul de toutes les structures en élaguant à priori les fausses pistes complexité O(n 3 ) Pseudonoeuds non recherchés ou avec des complexité élevées Dépendante de la qualité de l alignement repliement et alignement simultané : algorithme de Sankoff O(n 6 ) (Sankoff 1985), dynalign (Mathews 2002), carnac (Perriquet 2003) O(n 3 ) 19/03/2007 Stéfan Engelen - M2 UPMC 18
Combinatoire Approche thermodynamique Approche comparative Approche comparative Séquences homologues non identiques dont les structures secondaires sont identiques. Rechercher les appariements conservés dans des séquences homologues Séléctionner parmis ces appariements ceux qui présentent des mutations corrélées dans des séquences homologues 19/03/2007 Stéfan Engelen - M2 UPMC 19
Démarche P-DCFold (Pseudoknots Divide and Conquer Folding) Automatisation de l approche comparative en O(n 2 ) Recherche de tous les types de pseudonoeuds Principe diviser pour régner Utilisation de critères thermodynamiques et de covariation : (Sequence Selection for the Approach) Sélection automatique des séquences homologues intéressantes Intégration efficace de à comparative AAA-CC-UUU- AAA-CC-UUUU AAAACCCUUU- AAA-C -UUU- AAU-CA-UUU- UAAGCC-UUU- -AAGCC-UUCU AAA-CC-UUU- AAA-CC-UUUU AAAACCCUUU- AAU-CA-UUU- R 0 14 [AAA]-CC-[UUU]- --1--------1 -- 19/03/2007 Stéfan Engelen - M2 UPMC 20
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations recherche des hélices plutôt que des appariements On appelle abusivement palindrome, les deux répétitions complémentaires et inversées ( Ex :... AACGUUU... AAACGUU... ) constituant les hélices Un palindrome est défini par un triplet d entiers (début, fin, longueur): longueur Séquence AACGUUU AAACGUU début fin Réprésentation graphique des palindromes : 19/03/2007 Stéfan Engelen - M2 UPMC 21
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations La structure secondaire est formée de palindromes comparables deux à deux Définition: deux palindromes sont comparables si les mots qui les composent sont disjoints Trois types de relations existent entre deux palindromes comparables: Disjointure Inclusion Entrelacement Définition: deux palindromes comparables vérifiant les relations de disjointure ou d inclusion sont dits compatibles. Les autres sont dits incompatibles, et s ils sont comparables, ils vérifient la relation d entrelacement et forment un pseudonoeud. On peut généraliser la notion de pseudonoeud Définition: un P-pseudonoeud est composé de P palindromes vérifiant la relation d entrelacement avec chacun des autres palindromes composant le P-pseudonoeud. 19/03/2007 Stéfan Engelen - M2 UPMC 22
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Structure secondaire: définitions et représentations Notion de complexité de structure Définition: Une structure secondaire d ARN a une complexité de C, avec C>0, si elle contient au moins un C-pseudonoeud et aucun (C+k)-pseudonoeud, avec k>0 Le nombre de plans nécessaires pour représenter la structure secondaire sans croisement correspond à la complexité de la structure 19/03/2007 Stéfan Engelen - M2 UPMC 23
Sélection des palindromes Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection dans une séquence cible des palindromes selon des critères de longueur et thermodynamiques Séquence cible Vérification de leur conservation dans les séquences tests Séquence cible Séquences tests Sélection des palindromes en fonction de critères de covariation calculés pour l ensemble des séquences tests 19/03/2007 Stéfan Engelen - M2 UPMC 24
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans la séquence cible Longueur > log 4 n : Dans une séquence de longueur n presque tous les mots de longueur inférieure à log k n apparaissent, avec k la taille de l alphabet (Flajolet et al 1988) Modèle thermodynamique: types d appariements, configurations des appariements, types de boucles 19/03/2007 Stéfan Engelen - M2 UPMC 25
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans la séquence cible Algorithme de recherche de répétitions Contruction de la matrice d appariements +2 pour R5 GU et B5 GU +1 pour Y5 GU et B3 GU +2 pour AU +3 pour GC +1 pour H5 GA et H5 AA +0 pour H3 GA et H3 AA +2 pour les tetraboucles GNRA Recherche des scores > 2*log 4 n Récupération des palindromes Complexité construction en O(n 2 /2) Complexité recherche en O(n 2 /2) 19/03/2007 Stéfan Engelen - M2 UPMC 26
Conservation dans les séquences tests Palindrome défini par le triplet d entier (x,y,l) trouvé dans la séquence cible Pour chaque séquence test: alignement complémentaire inversé des sous séquences S t [(x-d) (x+l+d)] et S t [(y-l-d) (y+d)] Scores d appariements: Scores du modèle thermodynamique -2 pour les mésappariements -1 pour les renflements Récupération des alignements locaux de scores maximums Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Le palindrome est conservé si chacun des scores maximums est supérieur à 2*log 4 n Séquence cible S x y Score max 1 Séquences tests S t Score max 2 Score max 3 >2*log 4 n d l d d l d Score max 4 19/03/2007 Stéfan Engelen - M2 UPMC 27
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Sélection des palindromes dans les séquences tests Critère de taux de mutation : N = 2 * N comp + N cons N err Taux= N / Long Taux 1 AACGUUU AAGGUGU AACGUUU AAGGUUU AACGUUU AAACGUU AUACCUU AAGCGUU AUACCUU AAACGUU A défaut critère LongMut : LongMut = N + Long Taux=(2*2+1-1)/7=4/7<1 LongMut=(2*2+1-1)+7 2 * log 4 n vrai si log 4 n 5,5 LongMut 2 * log 4 n 19/03/2007 Stéfan Engelen - M2 UPMC 28
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Basé sur le principe diviser pour régner qui permet de segmenter le problème de départ en sous-problèmes moins complexes Un palindrome trouvé subdivise la séquence en sous-séquences de plus petites tailles S2 S1 S2 S1 S2 S2 La recherche est relancée sur chacune des deux sous-séquences Ce découpage ne permet pas de rechercher des pseudonoeuds 19/03/2007 Stéfan Engelen - M2 UPMC 29
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Les palindromes sont ordonnés selon leurs positions de fin puis leurs séquences internes sont traitées consécutivement. Celles-ci peuvent résulter d une concaténation de sous-séquences S1 S2 S3 S4 S5 S6 S7 S3 S2 S4 S6 S1 S5 S7 19/03/2007 Stéfan Engelen - M2 UPMC 30
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des hélices compatibles Lg = Séquence cible S Si = S Recherche dans Si des palindromes vérifiant les critères de longueur et thermodynamiques Liste L1 des palindromes de Si Jeu de séquences tests Sélection dans L1 des palindromes conservés vérifiant les critères de covariation Liste L2 des palindromes conservés Sélection dans L2 des palindromes compatibles Complexité: O(k*m*n 2 ) k: nb max d étapes de récursivité m: nb séquences tests n: taille de la séquence cible Liste L3 des palindromes conservés et compatibles Séquence Si Lg = Lg U L3 Déduction d un ensemble de sous-séquences de Si à partir de Lg Si=S1 Si=S2 Si=Sn S1 S2 Sn 19/03/2007 Stéfan Engelen - M2 UPMC 31
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des pseudonoeuds Soit une séquence S, DCfold trouve une liste L1 de palindromes compatibles S S1 S2 S3 S4 S5 S6 S7 DCfold est relancé sur S privée des palindromes de L1 (S ) S S1 S2 S3 S4 S5 S6 S7 Ceci permet de trouver une liste L2 de palindromes compatibles entres eux mais tous incompatibles avec au moins un palindrome de la liste L1 S Un palindrome de L2 forme un 2-pseudonoeud avec au moins un palindrome de L1 19/03/2007 Stéfan Engelen - M2 UPMC 32
Algorithme de recherche des pseudonoeuds On relance DCfold sur S privée des palindromes de L2 (S ) ce qui permet de trouver une liste L3 de palindromes incompatible avec au moins un palindrome de L1 et au moins un palindrome de L2 Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds S Ceci se poursuit tant que des palindromes sont trouvés Si la recherche est lancée C+1 fois, alors des C-pseudonoeuds sont trouvés La structure secondaire est prédite avec une complexité de C 19/03/2007 Stéfan Engelen - M2 UPMC 33
Structure secondaire: définitions et représentations Critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Algorithme de recherche des pseudonoeuds C=0 La = Séquence cible S Si = S Jeu de séquences tests Recherche des palindromes compatibles dans Si (DCFold) Liste La de palindromes compatibles Si Lg La = La U Lg C=C+1 Séquence S Complexité: O(C*k*m*n 2 ) k: nb max d étapes de récursivité m: nb séquences tests n: taille de la séquence cible C: complexité de la structure Déduction d une nouvelle séquence Si ne contenant pas les palindromes de La Si 19/03/2007 Stéfan Engelen - M2 UPMC 34
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats : ARNt Haemophilus influenzae Séquences tests: Aquifex aeolicus, Mycoplasma genitali, Bacilus subtilis et Helicobacter pylori 19/03/2007 Stéfan Engelen - M2 UPMC 35
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN u1 Echinococcus multilocularis 19/03/2007 Stéfan Engelen - M2 UPMC 36
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN srp Halobacterium halobium Séquences tests: Haloferax volcanii, Methanococcus jannaschii, Methanococcus fervidus et Staphilococcus epidermidis 19/03/2007 Stéfan Engelen - M2 UPMC 37
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARNtm Escherichia coli Séquences tests : Vibrio cholerae ( 80%) Pseudomonas putrefaciens ( 55%) Streptococcus pyogenes ( 80%) Actinobacillus actinomycetemcomitans ( 40%) 19/03/2007 Stéfan Engelen - M2 UPMC 38
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: RNAse P Escherichia coli Séquences tests : Thiobacillus ferrooxidans ( 60%) Salmonella typhimurium ( 98%) Rhodobacter capsulatus ( 57%) Yersinia pestis ( 90%) 19/03/2007 Stéfan Engelen - M2 UPMC 39
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN 16S Escherichia coli Séquences tests: Neisseria gonrrhoeae, Chlamydia psittacis, Mycoplasma capricolum et Afipia genosp 19/03/2007 Stéfan Engelen - M2 UPMC 40
Structure secondaire: définitions et représentations Modélisation et critères de sélection de hélices Algorithme de recherche des hélices compatibles Algorithme de recherche des pseudonoeuds Résultats Résultats: ARN 23S Escherichia coli 19/03/2007 Stéfan Engelen - M2 UPMC 41
Résultats: Alignements de l ARNtm et de la RNaseP Alignement de l ARN tm Score moyen dévié de 57 à -5 Prédictions > Q B (31): dévié de 0,1 à 4% Alignement de RNAse P Score moyen dévié de 80 à 16 Prédictions > Q B (36): dévié de 0,06 à 5% Le classement obtenu est globalement correct car a permis de récupérer des combinaisons de séquences tests donnant de bonnes prédictions Inconvénient : erreurs ponctuelles dans le classement Solution : considérer le classement globalement en effectuant plusieurs prédictions à partir des séquences les mieux classées 19/03/2007 Stéfan Engelen - M2 UPMC 42
Prédictions multiples et structure consensus Une prédiction: appariements vrai positifs et faux positifs Plusieurs prédictions (jeux de séquences homologues différents) : vrai positifs identiques et faux positifs différents Idée: calcul d une structure consensus à partir de plusieurs prédictions Une hélice apparait sous différentes formes équivalentes dans différentes prédictions Prédiction 1 Prédiction 2 Prédiction 3 Appariements communs Une hélice appartient à la structure consensus si son nombre d apparitions A sous différentes formes équivalente vérifie : E A > Avec E le nombre de prédictions 2 La structure consensus obtenue ne contient que des palindromes comparables Seules les hélices majoritaires sont sélectionnées, les autres sont éliminées 19/03/2007 Stéfan Engelen - M2 UPMC 43
Plateforme logicielle Séq cible Séq cible alignée Séquence 1 Séquence 2 Séquence 3 Séquence 4 Séquence 5 Séquence 6 Séquence 7 Séquence 8 ClustalW Séq alignée 1 Séq alignée 2 Séq alignée 3 Séq alignée 4 Séq alignée 5 Séq alignée 6 Séq alignée 7 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 4 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 4 Séq cible alignée Séq alignée 1 Séq alignée 3 Séq alignée 8 Séq cible alignée Séq alignée 1 Séq alignée 4 Séq alignée 8 RNAviz R 0 14 [aaa]-cc-[uuu]- --1--------1 -- 19/03/2007 Stéfan Engelen - M2 UPMC 44
Première étude comparative Logiciel de différents types: Mfold (O(n 3 )): approche thermodynamique, programmation dynamique RNAalifold (O(n 3 )): approche comparative, programmation dynamique Pfold (O(n 3 )): grammaires stockastiques intégrant des informations de covariation ILM (O(n 3 )): approche comparative, programmation dynamique, recherche des d hélices et des pseudonoeuds, information mutuelle Carnac (O(n 3 )): Alignement et co-repliement de deux séquences homologues en utilisant des critères thermodynamiques et de covariation ARN de tailles variées (76 à 2904): ARNt, ARN5s, ARNu1, ARNsrp, ARNtm, RNaseP, ARN16s et ARN23s 19/03/2007 Stéfan Engelen - M2 UPMC 45
Mesures de qualité sensibilité : sélectivité : Y = VP X = VP + FN VP VP+ (FP ε) VP = vrais positifs VN = vrais négatifs FP = faux positifs FN = faux négatifs corrélation : MCC= ((VP VN)-(FP-ε) FN) (VP+(FP-ε))(VP+ FN)(VN+ (FP-ε))(VN+ FN) 19/03/2007 Stéfan Engelen - M2 UPMC 46
Sensibilité 19/03/2007 Stéfan Engelen - M2 UPMC 47
Sélectivité 19/03/2007 Stéfan Engelen - M2 UPMC 48
Corrélation 19/03/2007 Stéfan Engelen - M2 UPMC 49
Première analyse comparative Deuxième analyse comparative Deuxième étude comparative Cadre : comparaison de Garner et Giegerich (Bioinformatics 2004) Logiciels : Mfold pour l approche thermodynamique RNAalifold, Pfold, ILM, Carnac, Foldalign, Dynalign et pour l approche comparative Un jeu de séquences à homologie forte (80%-90%) et un autre à homologie moyenne (60%-80%) pour chaque ARN (ARN t, RNaseP, ARN 16S et ARN 23S) Mesures de corrélation Structures de références différentes en fonction : Des logiciels (types d appariements recherchés) Des séquences (hélices conservées dans moins de 50% des séquences) Structure de référence de la RNase P: 110 appariements pour, 71 pour RNAfold et 54 pour Pfold A corrélation identique trouve plus d appariements de la structure de référence 19/03/2007 Stéfan Engelen - M2 UPMC 50
Première analyse comparative Deuxième analyse comparative Corrélation: séquences à homologie forte 19/03/2007 Stéfan Engelen - M2 UPMC 51
Première analyse comparative Deuxième analyse comparative Corrélation: séquences à homologie moyenne 19/03/2007 Stéfan Engelen - M2 UPMC 52
Méthode rapide (complexité en O(n 2 )) Recherche d hélices plutôt que d appariements Principe «diviser pour régner» permettant de contraindre l espace et de placer les hélices par pertinence décroissante Temps d exécution inférieurs à 5 secondes pour l ARN 23S (2904) Qualité des résultats (sensibilité de 0,85 et sélectivité 0,95) Prédictions incluant la recherche de tous les types de pseudonoeuds Modèle intégrant des notions thermodynamiques et de covariation Phase de comparaison flexible Algorithme novateur de sélection des séquences () 19/03/2007 Stéfan Engelen - M2 UPMC 53
Améliorations: Modèle thermodynamique Calcul des structures consensus Choix des séquences tests : arbre phylogénétique : Alignement et prédiction de structures simultanément : Aller - retour entre prédiction et alignement Recherche d interactions tertiaires Analyse de covariation Nouveau modèle thermodynamique Postérieure à la recherche des interactions secondaires 19/03/2007 Stéfan Engelen - M2 UPMC 54