Analyse comparative pour l étude des gènes d ARN

Documents pareils

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Identification de nouveaux membres dans des familles d'interleukines

MABioVis. Bio-informatique et la

Jean-Philippe Préaux

CHAPITRE 3 LA SYNTHESE DES PROTEINES

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Optimisation des ressources des produits automobile première

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Resolution limit in community detection

Logiciel XLSTAT version rue Damrémont PARIS

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Introduction au datamining

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Modélisation du comportement habituel de la personne en smarthome

Les probabilités. Chapitre 18. Tester ses connaissances

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

INF6304 Interfaces Intelligentes

1 Modélisation d être mauvais payeur

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Introduction aux bases de données: application en biologie

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Sujet 4: Programmation stochastique propriétés de fonction de recours

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Big data et sciences du Vivant L'exemple du séquençage haut débit

Introduction à l approche bootstrap

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Systèmes Multi-Agents : Modélisation et simulation informatique de comportements collectifs. Chapitre III

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Découverte et analyse de dépendances dans des réseaux d entreprise

Modélisation multi-agents - Agents réactifs

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Exemple PLS avec SAS

Quantification Scalaire et Prédictive

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

TP N 57. Déploiement et renouvellement d une constellation de satellites

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Bases de données des mutations

Voie SIS (2A M1) Signal, Informatique 05/06/2014

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Echantillonnage Non uniforme

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Laboratoire 4 Développement d un système intelligent

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

4.2 Unités d enseignement du M1

FIMA, 7 juillet 2005

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Chaînes de Markov au lycée

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

23. Interprétation clinique des mesures de l effet traitement

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM TUNISIE MAROC ALGERIE

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Perl Orienté Objet BioPerl There is more than one way to do it

L IMPACT ATTENDU DE DMARC SUR LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Introduction au pricing d option en finance

Introduction au Data-Mining

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Partenaires: w w w. c o g m a s t e r. n e t

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

LES MÉTA-HEURISTIQUES : quelques conseils pour en faire bon usage

Analyse des données de séquençage massif par des méthodes phylogénétiques

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

FONCTION DE DEMANDE : REVENU ET PRIX

Pourquoi l apprentissage?

Apprentissage Automatique

Cours de Master Recherche

4. Résultats et discussion

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Introduction au Data-Mining

Eléments de statistique

L apport des logiciels d optimisation des stocks multi-échelons

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Modélisation géostatistique des débits le long des cours d eau.

Etude comparative de différents motifs utilisés pour le lancé de rayon

Modèles et simulations informatiques des problèmes de coopération entre agents

Transcription:

nalyse comparative pour l étude des gènes d RN Hélène Touzet Équipe Bioinfo LIFL STL http://www.lifl.fr/bioinfo

modèle thermodynamique MFOLD RNfold prédiction de structures prédiction de gènes analyse comparative pure mutations compensatoires RNalifold carnc QRN RNz

pproche thermodynamique Postulat fondateur: à l équilibre, la molécule se replie dans une configuration qui minimise son énergie libre pplication: prédiction de structure (secondaire) oeur algorithmique: dénombrement des appariements Déclinaisons: Mfold, RNfold How do RN folding algorithms work? Eddy SR Nat Biotechnol. 2004 Nov ; 22(11): 1457-8

Modèle école Modèle énergétique additif On néglige les contributions énergétiques entre appariements voisins Plusieurs déclinaisons Optimisation par programmation dynamique (Nussinov - 1978) Modélisation par des grammaires stochastiques hors-contextes Modélisation en terme de filtrage maximal sans croisement dans un cercle

as 1 : est libre

as 1 : est libre as 2 : est apparié avec

as 1 : est libre as 2 : est apparié avec as 3 : est apparié avec une autre base en 5

as 1 : est libre as 2 : est apparié avec as 3 : est apparié avec une autre base en 5

as 1 : est libre as 2 : est apparié avec as 3 : est apparié avec une autre base en 5

i j 1 j i i +1 j 1 j i k 1 k k +1j 1 j E(i, j 1) E(i, j) = min E(i + 1, j 1) + α(i, j) min{e(i, k 1) + α(k, j) + E(k + 1, j 1), i + 1 k j 1} E(i, j): énergie optimale pour la sous-séquence entre les positions E(i, j): i et j α(k, j): paramètre d énergie pour la formation de l appariement α(k, j): entre la base k et la base j Mise en œuvre par programmation dynamique

0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

. 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

. 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( ( ) ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( ( ) ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( (... ) ( ) ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( (... ) (. (... ) ) ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

( ( (... ) (. (... ) ) ) ). 0 0 0 0 0 0 3 4 4 6 6 6 6 9 9 11 14 14 0 0 0 0 0 3 4 4 6 6 6 6 7 9 11 11 11 0 0 0 0 3 3 3 5 5 5 5 7 8 10 10 10 0 0 0 0 2 2 2 2 4 4 5 7 7 8 10 0 0 0 0 0 0 2 2 4 5 7 7 8 10 0 0 0 0 0 2 2 2 5 5 5 8 8 0 0 0 0 0 0 2 5 5 5 8 8 0 0 0 0 0 2 3 5 5 6 7 0 0 0 0 2 3 5 5 5 7 0 0 0 0 3 3 3 5 5 0 0 0 0 2 2 2 3 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 =: 2 :1 :3

Modèle complet Motifs structuraux Energie d empilement (Turner) MFOLD - Zuker http://www.bioinfo.rpi.edu/applications/mfold/ RNfold - Vienna Package - Hofacker http://http://www.tbi.univie.ac.at/~ivo/rn/

Nombreuses structures potentielles dont l énergie libre est proche de l optimum Ecueil des pseudo-nœuds

pproche comparative Famille de séquences homologues alignées Phénomène de changement de base compensatoire Résolution de structure pour l RN de transfert, les RN ribosomiques,...

- - I(i, j) = f i,j x,y log 2 f i,j x,y fx i f x j fx i : fréquence de la base x dans la colonne i fx,y i,j : fréquence du couple (x, y) dans les colonnes i et j Information mutuelle moyenne entre deux colonnes i et j: Quantité d information révélée par la colonne j, la colonne i étant connue (valeur comprise entre 0 et 2) I(i, j) est maximale quand les colonnes i et j individuellement paraissent aléatoires et que les positions sont parfaitement corrélées Plus l information mutuelle est élevée, plus la présomption d appariement est forte

pproche thermodynamique pproche comparative Méthodes hybrides ne séquence + ne famille de séquences alignées = Quelques séquences Information intrinsèque Informations transverses Informations transverses et intrinsèques

À partir d un alignment multiple - - ppariement: couple de colonnes RNalifold (Hofacker et al. - 2002) algorithme de Nussinov modèle d énergie modifié: moyenne des énergies d appariement avec un bonus pour les mutations compensatoires Pfold (Knudsen et al. - 2003) grammaires stochastiques hors contexte poids obtenus par apprentissage

80 100 1 360 120 200 140 60 40 Desulfovibrio desulfuricans 20 220 340 180 260 280 160 320 240 80 1 120 100 60 200 40 20 140 180 160 240 280 300 220 260 RNase P RN 300 ampylobacter jejuni RNase P RN <<<<<<<<<<<[[[[[[[ << <<<<< >>>> >> <<<< <<<<<[[[[[ ]] ]]] [[...... <<<<<<<<< <[[[[[[ <<<<< >>>>> <<<< << <<<[[[[[ ]]]]] [[[ ] ] ]]<< << [ [[[[[[[[ ]]]]]]] ]] [[[[[[ ]]]]]] [[[[[[ [...... [[[[[ ]]]] ]<< << [[ [[[[ ] ]]] ]] [[ [[[ ]]] ]] [[[ [[ [ ]] ]]]] ]] >>>>>>>>>>>>> <<<< <<<<<< <<<<< >>>>> >>>>>> >>>>...... [ ]]] ]]] >>>>>>>>>>>>> << <<<< <<<< >>>>>>>>>> <<<<<<<< >>>>>>>> ]]]]]]] <<<<<< >>>>>> > >>>>>>>>>>...... <<<<<<<< >>>>>>>> ]] ]]]] > >>>>>>>>>

Inférence de structure sans alignement ligner pour connaitre la structure La connaissance de la structure est nécessaire pour un bon alignement

Inférence de structure sans alignement lgorithme de Sankoff: ligner et replier un couple de séquences simultanément Extension de l approche Nussinov à deux séquences, en ajoutant des possibilités d insertion, de délétion Les poids peuvent tenir compte de l énergie et des informations phylogénétiques Simultaneous solution of the RN folding, alignment and protosequence problems D. Sankoff, SIM J. ppl. Math., 45-5, p. 810-825, 1985

Problème de coût de calcul Sensible à la longueur et au nombre de séquences Recours à des stratégies heuristiques

Mise en pratique 1 Dynalign Implémentation de l algorithme de Sankoff pour 2 séquences Foldalign Recherche uniquement de la structure sans ramification la plus stable Dynalign: n lgorithm for Finding the Secondary Structure ommon to Two RN Sequences D.H. Mathews & D.H. Turner, Journal of Molecular Biology,317,p 191-203, 2002 Finding the most significant common sequence and structure motifs in a set of RN sequences J. orodkin and L.J. Heyer and.d. Stormo, Nucleic cids Research, 25,3724-3732, 1997

Mise en pratique 2 Modélisation macroscopique: tiges carnc algorithme de Sankoff + théorie des graphes longues séquences comrn théorie des graphes pseudo-noeuds courtes séquences arnac : folding families of related RNs Hélène Touzet, Olivier Perriquet, Nucleic cid Research 2004, 32, pages 142-145 graph theoretical approach for predicting common RN secondary structure motifs including pseudoknots in unaligned sequences Y. Ji and X. Xu and.d. Stormo Bioinformatics 2004, 20(10), 1591-1602

omparaison des performances : BRliBase Sensibilité - sélectivité - coefficient de Matthews Jeux de données trn-phe (S. cerevisiae) 73 nt RNase P (E. coli) 377 nt SS rrn (E. coli) 1542 nt LS rrn (E. coli) 2904 nt Similitude : de 60% à 80% lignements multiples corrects www.binf.ku.dk/~pgardner/bralibase/bralibase1.html comprehensive comparison of comparative RN structure prediction approaches P. ardner & R. iegerich, BM Bioinformatics, 2004, 5(140)

Matthews orrelation 1 RNalifold carnc Méthodes avec alignement RNalifold Pfold 0.5 Pfold Sans alignement préalable Dynalign Foldalign carnc carnc refolded Dynalign Foldalign 1.8 2.2 2.6 3 log 10 (seq length)

Sensibilité versus spécificité arnac arnac refolded Dynalign Foldalign Pfold RNalifold X Mfold - RNfold carnc refolded RNalifold Pfold Sensibilité (%) X carnc Foldalign Spécificité (%)

Prédiction de gène d RN ènes à protéine RN messager +1 Séquence codante 5 Boîte -35 Boîte -10 TT TTT RBS T STRT T STOP T T T 3 ènes d RN Niveau de l énergie libre (lote 2005) Biais de composition en di-nucléotides (Schattner 2002) nicité du repliement (S.Y. Le & K. Zhang 2002) Variabilité suivant le type d RN, suivant l organisme Signal insuffisant pour une détection fiable? comparison of RN folding measures E. Freyhult, P. ardner & V. Moulton, BM Bioinformatics, octobre 2005

Prédiction de gènes pour une famille de séquences Est-ce que les séquences font partie d une même famille d RN non-codants? Schéma général recherche d une structure commune conservée informations thermo-dynamiques et évolutives critères pour évaluer la significativité de la structure Deux exemples: QRN (Rivas et al. - 2001) RNz (Hofacker et al. - 2004)

QRN Noncoding RN genes detection using comparative sequence analysis E. Rivas and S. Eddy - BM Bioinformatics 2001, 2:8

QRN Noncoding RN genes detection using comparative sequence analysis E. Rivas and S. Eddy - BM Bioinformatics 2001, 2:8

QRN Q K V L Modèle codant favorise les mutations silencieuses pour le code génétique Noncoding RN genes detection using comparative sequence analysis E. Rivas and S. Eddy - BM Bioinformatics 2001, 2:8

QRN Q K V L Modèle codant favorise les mutations silencieuses pour le code génétique Modèle RN favorise les mutations compensatoires Noncoding RN genes detection using comparative sequence analysis E. Rivas and S. Eddy - BM Bioinformatics 2001, 2:8

QRN Q K V L Modèle codant favorise les mutations silencieuses pour le code génétique Modèle RN favorise les mutations compensatoires Modèle par défaut Noncoding RN genes detection using comparative sequence analysis E. Rivas and S. Eddy - BM Bioinformatics 2001, 2:8

QRN lignement de 2 séquences Modèle codant HMM sur les codons BLOSM Modèle RN grammaire stochastique Modèle par défaut HMM Sélection de la meilleure vraisemblance

RNz Séquences lignement multiple Prédiction des structures individuelles - RNfold Prédiction de la structure consensus - RNalifold omparaison des énergies de la structure consensus et des structures individuelles alcul du Z-score de l énergie de la structure consensus lassification ( SVM ) Fast and reliable prediction of noncoding RNs Washietl S., Hofacker I.L., Stadler P.F Proc. Natl. cad. Sci..S.. 102, 2454-2459, 2005

Évaluation des performances Stage de Master Recherche de. Fontaine Propriétés évaluées influence de la conservation entre les séquences influence de la méthode d alignement: Blast, Needle, lustalw, Dialign2, T-coffee influence du nombre de séquences: 2, 3, 5 et 10 Evaluation selon trois critères Sensibilité: proportion de gènes d RN bien classés Spécificité: proportion de données négatives bien classées œfficient de corrélation de Matthews Résultats disponibles à http://bioinfo.lifl.fr/rna

Jeux de données Positifs: 21 familles d RN non-codants sources: RFM, MicroRN Registry 10 à 13 séquences par famille longueur moyenne entre 20 et 370nt identité moyenne entre 44 et 97% Négatifs: 15 familles d RN messagers (sans intron) sources: Homoloene, TIR, Ensembl 4 à 13 séquences par famille longueur moyenne entre 63 et 300nt identité moyenne entre 40 et 90% Négatifs: shuffles des alignements positifs permutations de positions qui détruisent la structure mais préservent l identité locale et globale

1 0.8 Spécificité 1 0.8 Sensibilité RNz 0.6 0.6 QRN 0.4 0.4 0.2 QRN RNz 0 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité 0.2 0 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité vantage à lustalw parmi toutes les méthodes d alignement Bonne spécificité (> 90%): prédictions positives fiables Sensibilité variable: prédictions négatives moins fiables

œfficient de corrélation de Matthews 2 séquences 1 0.8 RNz 0.6 QRN 0.4 0.2 0-0.2-0.4 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité œfficient de corrélation de Matthews 3 séquences 1 0.8 RNz 0.6 0.4 0.2 0-0.2-0.4 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité 1 5 séquences 1 10 séquences œfficient de corrélation de Matthews 0.8 0.6 0.4 0.2 0-0.2-0.4 RNz œfficient de corrélation de Matthews 0.8 0.6 0.4 0.2 0-0.2-0.4 MSRi RNz 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité Dégradation des résultats avec le nombre de séquences: conséquence de la difficulté à produire un alignement correct Msari sait traiter plus de 10 séquences, car l alignement est corrigé

Spécificité (RN messagers vs shuffles) 1 0.98 0.96 0.94 0.92 0.9 0.88 0.86 0.84 0.82 Shuffles Spécificité QRN RNz 0.8 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité 1 0.98 0.96 0.94 0.92 0.9 0.88 0.86 0.84 0.82 RN messagers Spécificité QRN RNz 0.8 50 55 60 65 70 75 80 85 90 95 Pourcentage d identité Excellente spécificité de QRN sur les RN messagers: avantage du modèle codant

nnotation à grande échelle ible: génome humain Régions conservées entre vertébrés : 4,81 % S enome Browser + Phastons nalyse exhaustive avec RNz : 30 000 RN non-codants potentiels Phastons RNz mirn 75% 97% 73% H/ box 75% 86 % 65% /D box 50% 40% 20% Mapping of conserved RN secondary structures predicts thousands of functional noncoding RNs in the human genome Washietl S, Hofacker IL, Lukasser M, Huttenhofer, Stadler PF. Nat Biotechnol. 2005:1383-90.