ARN non codant et bioinformatique

Documents pareils
MABioVis. Bio-informatique et la

Evalua&on tests diagnos&ques. Arnaud Fontanet

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Resolution limit in community detection

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Identification de nouveaux membres dans des familles d'interleukines

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

TD de Biochimie 4 : Coloration.

VI- Expression du génome

Gènes Diffusion - EPIC 2010

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ DES CONSEILS DE DÉVELOPPEMENT FONDÉS

Big data et sciences du Vivant L'exemple du séquençage haut débit

Algorithmique et structures de données I

Bases de données des mutations

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

Recherche bibliographique

Analyse des données de séquençage massif par des méthodes phylogénétiques

Perl Orienté Objet BioPerl There is more than one way to do it

Bases de données documentaires et distribuées Cours NFE04

Chapitre 7 : Structure de la cellule Le noyau cellulaire

CHAPITRE 3 LES TASQ COMME PLATEFORME POUR LA CATALYSE PSEUDO-ENZYMATIQUE

Plan d action de l ISO pour les pays en développement

Le passage d un ordre de bourse, sa comptabilisation et la gestion des conflits d intérêts

Tableau 1. Liste (non exhaustive) des protéines se localisant dans les P-Bodies

Dépistage du cancer colorectal :

Base de données bibliographiques Pubmed-Medline

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modélisation du comportement habituel de la personne en smarthome

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

Entraînement au concours ACM-ICPC

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

LES DIFFERENTS SYSTEMES DE MARQUAGE DES INSTRUMENTS. Atelier n 2

Système immunitaire artificiel

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Gestion mémoire et Représentation intermédiaire

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Relever les défis des véhicules autonomes

AMÉNAGER UN COMPTOIR DE SERVICE POUR PERMETTRE LA POSITION ASSISE

RESPONSABLE SUPPLY-CHAIN CHEF DE PROJET INDUSTRIEL CONSULTANT EN ORGANISATION RESPONSABLE SYSTÈMES D'INFORMATION. Objectifs de l option :

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

la Direction des ressources humaines et des relations de travail (langue du travail ; maîtrise du français par les employé(e)s)

Apprentissage Automatique

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

FOIRE AUX QUESTIONS:

RÉGLEMENT INTÉRIEUR. Approuvé par l Assemblée Générale du 7 Décembre 2010 TITRE 2 - FORMATION ET COMPOSITION DE LA MUTUELLE

MEAD : temps réel et tolérance aux pannes pour CORBA

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Introduction au Data-Mining

Contrôle de l'expression génétique :

Bases de données et outils bioinformatiques utiles en génétique

Sorties définitives de l emploi. Quels liens avec la santé, le parcours professionnel et les conditions de travail? Nicolas de Riccardis

IMO - Informatique, modélisation et optimisation

Ingénieur R&D en bio-informatique

LES SOURCES DU DROIT

POP-Java : Parallélisme et distribution orienté objet

Gestion des Clés Publiques (PKI)

Hospital Anxiety and Depression Scale (HADS)

Chapitre 2. Eléments pour comprendre un énoncé

Appel d'offre n 2 Equipe n 08, le 04 / 02 / 2014

Embaucher un coach pour accompagner le changement : analyse d une tendance dans le développement des gestionnaires

We make your. Data Smart. Data Smart

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Efficacité énergétique des réseaux de cœur et d accès

Pourquoi l apprentissage?

Dans la fonction de maître de formation pratique. Dans la fonction de maître assistant

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

4D v11 SQL Release 5 (11.5) ADDENDUM

Détection et prise en charge de la résistance aux antirétroviraux

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

INF6304 Interfaces Intelligentes

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Plus courts chemins, programmation dynamique

Plan du cours. Autres modèles pour les applications réparties Introduction. Mode de travail. Introduction

UE 8 Systèmes d information de gestion Le programme

Biomarqueurs en Cancérologie


4.2 Unités d enseignement du M1

DÉCISION DU TRIBUNAL DE LA SÉCURITÉ SOCIALE Division d appel Décision d appel

Formation à l utilisation des Systèmes de Gestion de Bases de Données Relationnelles. organisée avec la collaboration du

Prédiction de la structure d une

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

données en connaissance et en actions?

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Projet de loi n o 491

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Traitement de l hépatite C: données récentes

Plan. Définitions Objectifs Historique Etapes Avantages et Limites

GPA770 Microélectronique appliquée Exercices série A

Le Collège de France crée une chaire pérenne d Informatique, Algorithmes, machines et langages, et nomme le Pr Gérard BERRY titulaire

Une empreinte audio à base d ALISP appliquée à l identification audio dans un flux radiophonique

Transcription:

ARN non codant et bioinformatique

Gènes? Deux types de gènes: gènes codant pour des protèines gènes à ARN

Les familles d ARNs ARN ARNs codant ARNs non codants ARNm Ribozymes ARNs traduction Petits ARNs ARNt ARNr siarn miarn (starn) snoarn snarn

Qu est qu un ARN? Molécule simple brin CCAGGAAUCCUGG Appariement entre bases par des liaisons hydrogènes Watson-Crick: (C,G) et (A,U) de type Wobble: (G,U)

Qu est qu un ARN? Possibilité de former des duplex avec d autres ligands: ADN ARN Protéines Les ARN adoptent une structure essentielle à leur fonction Repliement intra-moléculaire

Exemple : snoarns

Exemple: ARN 16S

Exemple : RNAIII

Exemple : miarn (1)

Structure des ARNs Structure primaire Structure secondaire Structure tertiaire

Structure secondaire Mise en évidence de la plupart des liaisons Repliement dans un plan

Structure tertiaire Détermine activité biochimique Repliement dans l espace

Signature d une famille Elément de structure II : motif

Motifs de structure III

ARN et bioinformatique Inférence de signature d ARN Le motif est inconnu Plusieurs séquences Motif commun? Recherche de gènes d ARN Le motif est connu Une ou plusieurs séquences Toutes les positions où une occurrence du motif apparait

Inférence (prédire) les ARNs À partir d une séquence Recherche de similarité dans les banques? Biais de composition Structure d énergie optimale À partir de plusieurs séquences Analyse comparative Structure primaire Structure secondaire

Inférence (structure I)

Inférence (structure I) Mot Alignement Multiple Consensus Expression Régulière

Inférence (structure I) Profil de poids Chaine de Markov Cachées (HMM)

Inférence (structure II) Principe de la Covariation

L exemple de l ARNt

Exemples (Inférence) QRNA examine les motifs conservés entre plusieurs espèces : Il distingue protéine et ARNnc MSARi évalue la significativité d un nombre de mutations compensatoires observées RNAz évalue la significativité de l énergie libre de structure individuelles entre elles et avec une structure consensus

ARN et bioinformatique Inférence de signature d ARN Le motif est inconnu Plusieurs séquences Motif commun? Recherche de gènes d ARN Le motif est connu Une ou plusieurs séquences Toutes les positions où une occurrence du motif apparait

Recherche de motif Logiciels (outils) spécifiques La signature du motif est définie dans le logiciel Ne s appliquent qu à un seul type de famille Nécessite des programmeurs pour modifier les caractéristiques du motif recherché Logiciels généralistes La signature du motif est donné par l utilisateur Le logiciel propose un langage Selon la flexibilité du langage, l utilisateur peut décrire les caractéristiques qu il souhaite

Généraliste Spécifique Entrée Outil Sortie Séquence ou génome Motif candidat candidat candidat candidat Motif Séquence ou génome candidat candidat candidat candidat

Logiciels spécifiques Les ingrédients? Une signature de la famille Un score pondérant la présence de chaque élément du motif Algorithme de recherche efficace Identification d éléments dont la présence est discriminante

Logiciels spécifiques Les avantages/inconvénients? Avantage Efficacité Confiance élevée dans les scores Inconvénients Programmeur indépendant Difficile de modifier l algorithmes

Logiciels spécifiques La signature est définie dans le logiciel Group I introns I: CITRON (Lisacek et al., 1994) trna : (Staden, 1980), (Marvel, 1986), trnascan (Fichant et Burks, 1991), (Pavesi et al., 1994), FASTtRNA (El-Mabrouk et Lisacek, 1996), trnascan-se (Lowe et Eddy, 1007) snorna : SNOscan (Lowe et Eddy, 1997) IRE motifs : (Dandekar et al., 1991)

l ARNt avec trnascan-se Travaille en trois étapes: 1) Recherche avec trnascan (Fichant & Burks, 1991) et EutfindtRNA (Pavesi et al, A994) 2) Evaluation des candidats avec COVELS (Eddy & Durbin, 1994) 3) Localisation des éléments de structure dans les candidats Excellent compromis entre efficacité, sensibilité et spécificité Classiquement utilisé pour les ARNT dans les programmes d annotation de génome

Logiciels généralistes Les ingrédients? Une signature de la famille Un langage permettant de traduire l ensemble des éléments et leurs caractéristiques Algorithme de recherche efficace Identification d éléments dont la présence est discriminante (éventuellement)

Logiciels généralistes Les avantages/inconvénients? Avantage Programmeur indépendant Généralement facile de décrire un motif structuré Inconvénients Ne permet pas toujours de décrire l ensemble des caractéristiques du motif Moins efficace Difficile de construire des scores pertinents

Logiciels généralistes La signature est à définir par l utilisateur Séquence seulement ANREP (Mehldau et Myers, 1993) FindPattern (Devereux et al, 1984) Séquence et structure RNAMOT (Gautheret et al, 1990, Laferriere et al, 1994) PALINGOL (Billoud et al., 1996) PATSCAN (DSOUZA er al., 1997), PATSEARCH (Pesole et alm., 2000)

l ARNt avec RnaMot

Evaluation des outils (1) Exemples = Séquences qui correspondent au motif Contre exemples = Séquences qui ne correspondent pas au motif OUTIL DE PREDICTION candidats

Evaluation des outils (2) Positifs Négatifs Exemples Vrais Faux Positifs Négatifs Contre Faux Vrais Exemples Positifs Négatifs

Evaluation des outils (3) Sensibilité : un programme est d autant plus sensible qu il va proposer des vrais positifs SE = VP / (VP +FN) Spécificité : un programme est d autant plus spécifique qu il ne va pas trouver des faux positifs SP = VP /(VP + FP)

Evaluation des outils (4) Exemple : Prédiction des ARNts dans une séquence 5 candidats sont prédits 3 correspondent à de vrais gènes : VP = 3 1 vrai gène n a pas été trouvé : FN = 1 2 ne sont pas de vrais gènes : FP = 2 SE = 3/(3+1) = 3/4 75 % SP = 3/(3+2) = 3/5 60 %

RFAM stats 503 familles Une famille : groupe d ARN homologues et alignables (structure II ou I) miarn: > 20 familles Humain 100 familles 3000 ARN différents annotés E. Coli 40 familles