Modélisation et recherche de motifs biologiques

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction aux bases de données: application en biologie

Big data et sciences du Vivant L'exemple du séquençage haut débit

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Identification de nouveaux membres dans des familles d'interleukines

Perl Orienté Objet BioPerl There is more than one way to do it

Les bases de données transcriptionnelles en ligne

MABioVis. Bio-informatique et la

Bibliographie Introduction à la bioinformatique

Analyse de performance, monitoring

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Base de données bibliographiques Pubmed-Medline

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

TD de Biochimie 4 : Coloration.

Spectrophotomètre double faisceau modèle 6800

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Gestion des Clés Publiques (PKI)

Plus courts chemins, programmation dynamique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

1 Modélisation d être mauvais payeur

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Académie Google AdWords. Lille le 19 janvier 2012

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Journée_: Modules HoraireEpreuve

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Problème 1 : applications du plan affine

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Préleveur d'échantillons d eau automatique ELECTRO-MAGNUM /AQUAMAX 1 & 2 / SERVOTOP

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

MIS 102 Initiation à l Informatique

Conférence technique internationale de la FAO

Introduction à MATLAB R

Modèles et algorithmes pour le conseil et la gestion des préférences en configuration de produit


Algorithmes sur les mots (séquences)

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Algorithmique des Systèmes Répartis Protocoles de Communications

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Définitions. Numéro à préciser. (Durée : )

Gènes Diffusion - EPIC 2010

Compteurs d Energie Thermique & Systèmes associés

CORRECTION EXERCICES ALGORITHME 1

Algorithmes de recherche d itinéraires en transport multimodal

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

DPGF - LOT 3 - CVC / PLOMBERIE

Conception de réseaux de télécommunications : optimisation et expérimentations

Contrôle de l'expression génétique :

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

Continuité et dérivabilité d une fonction

Entraînement au concours ACM-ICPC

TRAVAUX PRATIQUESDE BIOCHIMIE L1

SQL Server 2012 et SQL Server 2014

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Christian TREPO, MD, PhD

Génétique et génomique Pierre Martin

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Résonance Magnétique Nucléaire : RMN

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Application 1- VBA : Test de comportements d'investissements

Dérivation : cours. Dérivation dans R

UE Programmation Impérative Licence 2ème Année

L EQUIPE ÉTUDES ENQUÊTES: Georgeta BOARESCU psychologue coordonateur études enquêtes Florin CIOTEA sociologue

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

CONFIGURATION DE L AUTOMATE SIEMENS

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Analyse des données de séquençage massif par des méthodes phylogénétiques

Chaînes de Markov au lycée

Administration des bases de données. Jean-Yves Antoine

CATALOGUE DES PRESTATIONS DE LA

4.2 Unités d enseignement du M1

Audit activité base Oracle / SAP

SERVICES DE SEQUENÇAGE

Tableau récapitulatif : composition nutritionnelle de la spiruline

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Blueprint OneWorld v8.2a Configuration Recommandée

Mesures d antennes en TNT

!" #$#% #"& ' ( &)(*"% * $*' )#""*(+#%(' $#),")- '(*+.%#"'#/* "'") $'

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Note de cours. Introduction à Excel 2007

WEBANALYTICS Sur le chemin de l excellence

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Cours d algorithmique pour la classe de 2nde

Transcription:

Modélisation et recherche de motifs biologiques Hélène Touzet Équipe Bioinfo LIFL USTL Licence Master

Motifs biologiques Motifs approchés décrits par un modèle ADN : sites de fixation de facteurs de transcription,... Protéines : domaines enzymatiques, sites d interaction ADN-protéines, protéines-protéines,... Motifs exacts décrits par un mot ADN : codons START, STOP, sites de clivage d enzymes de restriction,... Protéines : signatures (moins courant)

1 2 7 8 9 Motifs approchés Transfac motifs ADN C 3ACTA 4G 5G 6A AGT CT CA AC 10 ADN facteurs de transcription 700 motifs, construits à partir de plus de 15 000 séquences Prosite motifs protéiques Créé en 1993 Environ 1400 motifs Pfam motifs protéiques 8153 familles de protéines (décembre 2005) Taux de couverture Pfma-A: 75% (vérifiés) Taux de couverture Pfam-B:19%

Motifs approchés Fonction Jeu de Séquences Alignement multiple? Localisation dans de nouvelles séquences Banques de données de motifs Modélisation: motif

Motifs approchés Fonction Jeu de Séquences Alignement multiple Localisation dans de nouvelles séquences Banques de données de motifs Modélisation: motif Problème 1: trouver une représentation des motifs à partir des alignements multiples Problème 2: concevoir des algorithmes pour localiser les occurrences des motifs dans une nouvelle séquence

Exemple : doigt de zinc Motifs Prosite YKCT--VCR---KDISSSESLRTHMFKQ-HH LKCSVPGCK---RSFRKKRALRIHVSE---H FECN--MCG---YHSQDRYEFSSHITRG-EH YTCG--YCTEDSPSFPRPSLLESHISL--MH YKCEFADCE---KAFSNASDRAKHQNR--TH FVCHWQDCSRELRPFKAQYMLVVHMRR---H FRCS--ECS---RSFTHNSDLTAHMRK---H CKCETENCN---LAFTTASNMRLHFKR--AH YRCSYEDCQ---TVSPTWTALQTHLKK---H FRCV--WCK---QSFPTLEALTTHMKDS-KH C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H Syntaxe d une expression Prosite - : séparation des éléments x : n importe quel acide aminé (3,5) : nombre d occurrences (entre 3 et 5) [FY] : alternative (F ou Y)

Motifs Prosite - rappel TP 1 Comparaison de deux protéines kinases Apparition d une région conservée : domaine kinase 2215-2242 : LGSGAFGEVYeGqlktedseepqr...VAIK 862-891 : LGEGNFGQVWkAeaddlsghfgatri...VAVK [LIV]-G-{P}-G-{P}-[FYWMGSTNH]-[SGA]-{PW}-[LIVCAT]-{PD}-x-[GSTACLIVMFY] -x(5,18)-[livmfywcstar]-[aivp]-[livmfagckr]-k sp P13368 7L (horizontal) vs. sp P03949 AB (vertical) 0 0 500 1000 1500 2000 2500 200 400 600 800 1000

Motifs Prosite

Recherche d un motif Prosite Expression Prosite C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H Construction d un automate non déterministe C C H Déterminisation de l automate

Limite des motifs Prosite Absence de prise quantitative en compte des erreurs Composition des colonnes Probabilité d une insertion Compromis difficile entre la sensibilité et la sélectivité Modèle enrichi, sous forme de profil Modèle de base : automate Ajout d informations statistiques sur la composition Fondement théorique : apprentissage, algorithme de Baum Welch

V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - Description par profil

Description par profil V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - Création d un état par colonne début fin

Description par profil V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - Prise en compte des insertions début fin

Description par profil V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - Prise en compte des délétions début fin

V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - Description par profil début fin

Description par profil V E D - - L I R Y V E D - - L R R Y P N E - - L R R F D N K A A L R R F A E E - - L A - - émissions fréquences des acides aminés transitions circulation dans le modèle indels 1 0.5 A:1 1/5 1 1/5 0.5 début 1 1 1 4/5 1 4/5 1 1 fin V: 2/5 P: 1/5 D:1/5 A: 1/5 E: 3/5 H: 2/5 D: 2/5 E: 2/5 K: 1/5 L: 1 R: 3/5 A: 1/5 I: 1/5 R:1 F: 1/2 Y: 1/2

En résumé Etats matchants : colonnes avec moins de 50% de - Etats d insertion : majorité de - Etats de délétion : minorité de - Probabilités d émission : on compte le nombre d occurrences de chaque acide aminé Probabilités de transition : on compte le nombre de séquences empruntant la transition Correction avec les pseudo-poids : +1 à chaque compte (loi de Laplace apprentissage)

Modèle complet begin end

Recherche avec un profil Score : probabilité maximale d un mot dans le modèle 1 0.5 A:1 1/5 1 1/5 0.5 début 1 1 1 4/5 1 4/5 1 1 fin V: 2/5 P: 1/5 D:1/5 A: 1/5 E: 3/5 H: 2/5 D: 2/5 E: 2/5 K: 1/5 L: 1 R: 3/5 A: 1/5 I: 1/5 R:1 F: 1/2 Y: 1/2 Score de VHKALARY 1 2 5 1 2 5 1 1 5 1 5 1 0.5 1 1 1 5 1 1 1 2 1 Algorithme de Viterbi : trouver le chemin de probabilité maximale Recherche d un chemin optimal dans un graphe

Motifs exacts Données un texte T de longueur n : T(0..n 1) un motif M de longueur m : M(0..m 1) Problème Trouver toutes les occurrences de M dans T

Algorithme par force brute Texte T Motif M Balayage du texte, du début à la fin

Algorithme par force brute X Texte T Motif M Balayage du texte, du début à la fin À chaque position du texte, comparaison du motif et du texte, jusqu à rencontrer une erreur, ou épuiser le motif

Algorithme par force brute Texte T Motif M +1 Balayage du texte, du début à la fin À chaque position du texte, comparaison du motif et du texte, jusqu à rencontrer une erreur, ou épuiser le motif Décalage du motif vers la droite, de position en position

Amélioration de l approche par force brute Faire des décalages de plus de une position Condition pour que les décalages restent corrects ne pas rater une occurrence du motif Pré-traitement du motif M

Algorithme de Morris et Pratt k i 0 k X i Texte T Motif M Information exploitée T(k i..k 1) = M(0..i 1) Quand une erreur intervient en position i, on décale le motif le long du texte directement à la prochaine position où peut démarrer M

Algorithme de Knuth, Morris et Pratt k i 0 k X i Texte T Motif M Deux informations sont exploitées 1. T(k i..k 1) = M(0..i 1) (Morris-Pratt) 2. T(k) M(i)

Exemple 1: le motif tactaga... t a c t a a... Texte t a c t a g a motif + 3 t a c t a g a... t a g... Texte t a c t a g a motif + 2 t a c t a g a

Exemple 2: le motif tagtaga... t a g t a a... Texte t a g t a g a motif +5 t a g t a g a

KMP: Mise en œuvre Algorithme en deux phases Phase 1: Prétraitement du motif avec le calcul du tableau Next i : Next(i) : position dans le motif longueur du plus long mot u tel que u est un préfixe de M u est un suffixe de M(0..i 1) um(i) n est pas un préfixe de M ou -1 si u n existe pas

tactaga tagtaga i 0 1 2 3 4 5 6 7 Next(i) 1 0 0 1 0 2 0 0 i 0 1 2 3 4 5 6 7 Next(i) 1 0 0 1 0 0 3 0

KMP: Mise en œuvre Phase 2 : Recherche du ùotif dans le texte Quand une erreur intervient à la position i du motif, on décale le motif sur me texte de i Next(i) vers la droite La comparaison reprend à partir de la position i du motif, sans retour-arrière

Comptage des mots Application 1: Comment les gènes sont-ils régulés? 1 2 C 3ACTA 4G 5G 6A AGT CT CA AC 7 8 9 10 ADN facteurs de transcription Facteurs de transcription (FT): protéines régulatrices Premiers acteurs de la régulation transcriptionnelle Domaine de liaison à l ADN : court motif nucléique conservé (site de fixation)

Recherche d oligonucléotides sur-représentés les mots qui apparaissent plus que ce qui est attendu par hasard ont un rôle biologique ce sont des sites de fixation potentiels Exemple: 12 gènes de la levure, régulés par la méthionine SAM2, MET6, MIUP3, MET30, MET3, MET14, MET1, SAM1, MET17, ZWF1, MET2 analyse de la région [-800, -1] en amont du site d initiation de la transcription comptage de tous les mots de longueur 6 modèle de fond : %GC, régions intergéniques de la levure calcul de la probabilité du compatge de chaque mot

cacgtg cacgtg cacgtg 13 1.26 1.00e-9 ccacag ccacag ctgtgg 11 2.22 2.10e-5 acgtga acgtga tcacgt 13 3.1 2.20e-5 aactgt aactgt acagtt 17 5.28 3.90e-5 actgtg actgtg cacagt 12 3.16 0.00011 gccaca gccaca tgtggc 10 2.59 0.00037 gcttcc gcttcc ggaagc 12 6.6 0.00037 séquence 2 brins n.obs. n.att. P-value n.obs. : nombre d occurrences observé n.att. : nombre d occurrences attendu P-value : probabilité du nombre d occurrences observé motif 1 motif 2 tcacgt....acgtga aactgt....acagtt.cacgtg..cacgtg.actgtg..cacagt...acgtga tcacgt....ctgtgg ccacag.. tcacgtga tcacgtga aactgtgg ccacagtt complexe Met4p/Cbfl/Met28 Met31p

Comptage des mots Application 2 : mots exceptionnellement rares Recensement de tous les mots de longueur 6 dans le génome de la bactérie de Escherichia coli comptage observé comptage attendu ggcggc 96 2041,0 gccggc 294 1764,0 ctgcag 958 1981,1 tccgaa 906 1708,6 Remarque? Explication?

Comptage des mots Problème Données : un texte T, un entier k Question : compter le nombre d occurrence de chaque mot de longueur k dans T Implémentation Utilisation d une structure d index V: table de hachage sans collision Taille de la table :4 k 1 Chaque case de la table stocke le nombre d occurrences d un mot

Fonction de hachage, pour l ADN: Exemple : mots de longueur 6 e : {A,C,G,T} {0, 1, 2, 3} H(u 0...u k ) = k j=0 e(u j) 4 j H(AAAAAA) = 0 H(GTTTTT) = 6 4 2 H(CAAAAA) = 1 H(TTTTTT) = 4 6 1 Remplissage de la table : balayage du texte x est la lettre courante h = 4 h + e(x) mod 4 k V(h) = V(h) + 1 Mise à jour de la clé de hachage h en temps constant

Le rêve d un biologiste Avec les algorithmes vus précédemment, je sais qu on est capable de comparer deux séquences, et de regarder si elles ont une fonction commune. Que faire si je ne dispose que d une séquence? Comparaison avec toutes les autres séquences existantes sur terre, disponibles dans les banques de données ( Genbank, Swissprot,...) Besoin d algorithmes d alignements locaux extrêmement efficaces

Le programme Blast Basic Local Alignment Search Tool - Altschul et al. - 1997 Ne pas construire d alignement avec toutes les séquences de la banques de données, mais seulement avec un petit nombre de séquences candidates qui peuvent être sélectionnées de manière très efficace Heuristique très rapide pour l alignement local Recherche de mots exacts communs entre la séquence et la banque de données

Algorithme de Blast Étape 1: pré-traitement de la banque de données Choix d une taille de mots: k Indexation de tous les mots de longueur k dans une table de hachage,avec leurs positions Étape 2: traitement de la séquence requête : recensement de tous les mots de longueur k et recherche dans la table de hachage base de données acgttc séquence requête

Étape 3 : extension de ces points d ancrage de proche en proche, pour avoir un score significatif. base de données acgttc séquence requête

Performances Comparaison exhaustive entre le génome humain (3 milliards de bases) et le génome de la souris (3 milliards de bases) Temps CPU estimés pour un Pentium III 700MH, 1GB : Alignement local exact (Smith&Waterman) : 100 siècles BLAST : 19 années Plus de 100 000 citations scientifiques Plus de 150 000 requêtes quotidiennes (NCBI)