Approches bioinformatiques de la cis-régulation



Documents pareils
Les bases de données transcriptionnelles en ligne

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Big data et sciences du Vivant L'exemple du séquençage haut débit

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

APPENDIX 6 BONUS RING FORMAT

Exemple PLS avec SAS

Introduction aux bases de données: application en biologie

Delphine MENORET. Décodage des réseaux géniques impliqués dans le remodelage cellulaire chez l'embryon de Drosophila melanogaster

Instructions Mozilla Thunderbird Page 1

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

INF6304 Interfaces Intelligentes

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

Photoactivatable Probes for Protein Labeling

VI. Tests non paramétriques sur un échantillon

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

CATALOGUE DES PRESTATIONS DE LA

La classification automatique de données quantitatives

MCMC et approximations en champ moyen pour les modèles de Markov

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Package Contents. System Requirements. Before You Begin

Contents Windows

The Exploration of HIV Fitness Landscapes

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

PARIS ROISSY CHARLES DE GAULLE

Identification de nouveaux membres dans des familles d'interleukines

WiFi Security Camera Quick Start Guide. Guide de départ rapide Caméra de surveillance Wi-Fi (P5)

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Differential Synchronization

CEST POUR MIEUX PLACER MES PDF

Garage Door Monitor Model 829LM

Transplantation pulmonaire et mucoviscidose. Optimiser la prise en charge médicale

Laboratory accredited by the French Home Office (official gazette date February 5 th, 1959, modified) Valid five years from August 27 th, 2013

Once the installation is complete, you can delete the temporary Zip files..

Editing and managing Systems engineering processes at Snecma

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

INSERTION TECHNIQUES FOR JOB SHOP SCHEDULING

Recherche dans un tableau

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Monitor LRD. Table des matières

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Fédération Internationale de Handball. b) Règlement du but

Règlement relatif à l examen fait conformément à la Déclaration canadienne des droits. Canadian Bill of Rights Examination Regulations CODIFICATION

MABioVis. Bio-informatique et la

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

How to Login to Career Page

Exercices sur SQL server 2000

Credit Note and Debit Note Information (GST/ HST) Regulations

Forthcoming Database

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Order Assigning to the Minister of the Environment, the Administration, Management and Control of Certain Public Lands

RAPID Prenez le contrôle sur vos données

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Improving the breakdown of the Central Credit Register data by category of enterprises

Life Companies Borrowing Regulations. Règlement sur les emprunts des sociétés d assurance-vie CONSOLIDATION CODIFICATION

Algorithmes de recommandation, Cours Master 2, février 2011

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Appointment or Deployment of Alternates Regulations. Règlement sur la nomination ou la mutation de remplaçants CONSOLIDATION CODIFICATION

Application Form/ Formulaire de demande

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Analyse des correspondances avec colonne de référence

Material Banking Group Percentage Regulations. Règlement fixant le pourcentage (groupe bancaire important) CONSOLIDATION CODIFICATION

Services à la recherche: Data Management et HPC *

SysFera. Benjamin Depardon

Guide d'installation rapide TFM-560X YO.13

AUDIT COMMITTEE: TERMS OF REFERENCE

22/09/2014 sur la base de 55,03 euros par action

Borrowing (Property and Casualty Companies and Marine Companies) Regulations

REVISION DE LA DIRECTIVE ABUS DE MARCHE

Loi sur la Semaine nationale du don de sang. National Blood Donor Week Act CODIFICATION CONSOLIDATION. S.C. 2008, c. 4 L.C. 2008, ch.

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

MANUEL MARKETING ET SURVIE PDF

Technologies quantiques & information quantique

Principe de TrueCrypt. Créer un volume pour TrueCrypt

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

EN UNE PAGE PLAN STRATÉGIQUE

Introduction à la Génomique Fonctionnelle

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Transcription:

2 Plan Approches bioinformatiques de la cis-régulation Stratégies de découvertes de motifs nucléiques Carl Herrmann TAGC & Univ. Méditerranée - Marseille Rappels sur les mécanismes de régulation transcriptionnelle Les grandes stratégies de recherche et découverte de motifs Combinaisons de motifs Empreintes phylogénétiques Master M1 BBSG année 2008-2009 3 Régulation transcriptionnelle chez les eucaryotes pluricellulaires 4 Quelques éléments cis-régulateurs (CRM) chez la Drosophile ftz zebra element eve stripes 2 & 3+7 elements repression site cluster stripe 2 stripes 3 + 7 rho lateral neurectoderm stripe element kni posterior element Ubx PBX element Source: Sandelin & Wasserman (2004) ps 6,8,10,12 stripes blastoderm + Mesoderm at GBE

5 Interactions Protéine-ADN - Motif HTH 6 Le motif Doigt de Zinc Cys His C2H2 domaine de liaison à l'adn Source: ftp.expasy.ch/databases/swiss-3dimage 7 Fixation d une protéine à plusieurs motifs doigts de zinc sur l ADN 8 Motifs d interaction protéine-adn: exemple des doigts à zinc enroulement de plusieurs motifs doigts à zinc sur le sillon majeur Source: Isalan et al., Biochemistry (1998) 37:12026-12033

9 10 Identification expérimentale des sites régulateurs FootPrinting Caractéristiques des séquences cis-régulatrices Hautes résolution/fiabilité mais petite échelle! SELEX Mutagénèse dirigée Généralement courtes (de ± 5 à ± 25 bp) Généralement présentes en plusieurs exemplaires Généralement conservées évolutivement Simple hybride Souvent très variables Résolution/fiabilité plus faibles mais grande échelle! X-ChIP Protein Binding Arrays Alphabet limité (A,C,G,T) Localisées en 5', 3', introns, parfois très loin du gène cible Actuellement: < 500 signatures connues pour l'homme Banques de données: Transfac, JASPAR 12 Exemple de motif: Gcn4 2 situations possibles Je connais les facteurs de transcription qui m'intéressent Où se trouvent les sites de fixation potentiels? Quels sont les gènes cible potentiels? recherche de sites - chaines de caractères - matrices poids-position (activateur transcriptionnel des gènes de biosynthèse des acides aminés chez la levure) 5 TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT J'ai des gènes dont je soupçonne qu'ils sont co-régulés ARO4 5 CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT ILV6 5 TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC THR4 5 ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA ARO1 5 ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA HOM2 5 GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA PRO3 Existe-t-il des motifs communs dans les séquences non-codantes proches? AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA découverte de motifs - énumération de motifs - maximisation de l'espérance (MEME, Gibbs Sampler) - 11 - HIS7 5 ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG Alignement multiple (Orientation!) Adapté à partir de JvH

13 14 Recherche de motifs à l aide de chaînes de caractères Code ambigue IUPAC pour les nucléotides Deux approches Recherche d occurrence (exactes ou avec un nombre maximum de mésapariements, d insertion, ou de délétion) de chaînes de caractères représentants des variants de sites de fixation pour un facteur de transcription donné A C G T R Y W S M K H B V D N G A [GC] T C A Définition d une expression régulière ambiguë (code IUPAC) -> recherche d occurrences exactes ou approchées Evaluation statistique du nombre d occurrence trouvée (statistiques binomiales) Programme Dna-pattern de Jacques van Helden (ULB, Belgique); 15. Sites cis-régulateurs: expressions régulières. Site Name UASp2 Site D UAS Proximal UASp3 Site C Site A consensus Sequence ---actcacacacgtgggactagc---tttccagcacgtggggcgga-----ttatggcacgtgcgaataa-gtgatcgctgcacgtggcccga----taatttggcatgtgcgatctc------acgtccacgtggaactat------tttatcacgtgacacttttt ---------gcacgtgggac----- Affinity high high high high low low low high-low PHO5 PHO84 PHO84 PHO8 group 2 UASp1 Site E Site B Distal consensus --TAAATTAGCACGTTTTCGC-------AATACGCACGTTTTTAATCTA -----TTACGCACGTTGGTGCTG----TTACCCGCACGCTTAATAT----------cgCACGTTt-------- medium medium low low med-low Degenerate consensus Adenine Cytosine Guanine Thymine purine pyrimidine Weak hydrogen bonding Strong hydrogen bonding amino group at common position Keto group at common position not G not A not T not C any 16 Sites régulateurs: matrices de fréquences Sites de fixations pour le facteur de transcription Pho4p de la levure Gene PHO5 PHO84 PHO81 PHO8 PHO5 PHO84 PHO84 group 1 A C G T A or G C or T A or T G or C A or C G or T A, C or T G, C or T G, A, C G, A or T G, A, C or T Matrice donnant les fréquences des bases à chaque position pour un alignement de sites reconnus par le facteur de transcription Pho4 chez la levure (S. cerevisiae). ---------GCACGTKKk------ (Source : Oshima et al.,1996) Source: TRANSFAC, Matrice F$PG04_01

17 Matrices pondérées 18 Contenu en information Site reconnu par le facteur Pho4p de la levure ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i fi,j fréquence relative du résidu i à la position j ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i k pseudo-poids (arbitraire, 1 ici) fi,j fréquence relative du résidu i à la position j f'i,j fréquence corrigée du résidu i à la position j k pseudo-poids (arbitraire, 1 ici) f'i,j fréquence corrigée du résidu i à la position j Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée La séquence est parcourue avec la matrice, et un score est calculé pour chaque position Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionnel Problème de la définition du seuil et de l'évaluation statistique Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée

Interprétation du score Ws Interprétation du score Ws (matching weight) Ws Poids du segment de séquence s k position à l'intérieur de l'alignement rk résidu à la position k du segment de séquence prk Probabilité à priori du résidu rk frkk Probabilité à priori du résidu rk à la position k de la matrice (poids de l'alignement) L'alignement entre une matrice et un segment de séquence est la somme des poids des résidus alignés Ceci est équivalent au logarithme des ratios entre: - produit des matrices de fréquences (1) - produit des proba. à priori des résidus trouvés dans le segment de séquence (2) terme (1) = probabilité que le segment de séquence corresponde au motif décrit par la matrice terme (2) = probabilité que le segment de séquence correponde au modèle de fond P(S M) Probabilité du segment de séquence, étant donné la matrice le poids du segment = logarithme du rapport des vraisemblances (segment=motif) / (segment=fond) P(S B) Probabilité du segment de séquence, étant donné le fond (background) Recherche de sites à l'aide d'une matrice consensus 24 Evaluation des outils de recherche de sites (Patser de J. Hertz ; interface www par J. van Helden) Constitution de collections de séquences contrôles: + contenant des sites caractérisés - ne contenant assurément pas de sites - séquences "aléatoires" - séquences "brouillées" Différentes situations: Site correctement reconnu = "vrai positif" Prédiction abusive = "faux positif" Site manqué = "faux négatif" Absence de site correctement prédite = "vrai négatif"

25 Compromis lors de la recherche de sites entre: 26 Compromis lors de la recherche de sites Grande sélectivité, faible sensibilité: grande confiance dans les sites prédits nombre de sites reconnus mais beaucoup de sites réels sont manqués Faible sélectivité, grande sensibilité: les sites réels sont noyés dans une mer de faux positifs vrais négatifs Double évaluation: Sélectivité = Nombre vrais positifs/ Nombre total hits vrais positifs Sensibilité = Nombre vrais positifs/ Nombre total sites Total sites = vrais positifs + faux négatifs Total "hits" = vrais positifs + faux positifs faux négatifs 28 Pouvoir discriminant d'une matrice Fortement discriminant Fréquence Non sites Sites Total hits Score Score Raisonnablement discriminant Fréquence Non sites Sites Total hits Score seuil faux positifs score ATGC 91812 81902 712000 63603 500012 49202 301011 20417 10291 01155 12019 24071 310110 42910 500120 66330 701200 89120 98121 Faiblement discriminant Non sites Sites Total hits Fréquence Logo (Schneider, 1994) Matrice

29 Pertinence de la méthode découverte de motifs Recherche de sites de fixations du facteur de transcription type GARP (Arabidopsis thaliana) 21 24 27 30 33 36 42 48 données transcriptomiques en amont du gènes TP53 chez homo sapiens... clusters de gènes co-exprimés W. Wassermann: "99% des prédictions de sites sont des faux-positifs..." sont-ils co-régulés? si oui, par quels facteurs de transcription? 31-30 - 32 Importance du modèle de référence Découverte de motifs par énumération d oligonucléotides fréquence des oligo 6 dans toutes les séquences en amont des ORF de S.cerevisae Idée de base: les sites de fixations sont généralement répétés Principe algorithmique On recherche les occurrences de n-mères dans un ensemble de séquences fonctionnellement apparentées On compare le nombre d occurrence obtenue avec un modèlestatistique: soit basé sur la base des fréquences en (poly-)nucléotides dans l ensemble soit sur la base d un ensemble plus grand de séquences de même type (par exemple, toutes les régions amont des gènes) -> mise en évidence nucléotides équiprobables des surreprésentation dans un graphe bi-dimensionnel On évalue statistiquement les motifs trouvés Programmes Helden (ULB, Belgique) oligo-analysis et dyad-analysis de Jacques van

Découverte de motifs par maximisation de l'espérance Analogie roux borgne grand gaucher on cherche à maximiser la vraissemblance que les séquences partagent un motif commun plutôt qu'elles ne partagent rien... i.e. on cherche le motif qui maximise cette vraissemblance algorithme "expectation maximization" (EM) algorithme échantillonage de Gibbs roux borgne grand droitier brun borgne grand gaucher 2 approches possibles roux borgne grand droitier roux borgne grand droitier qu'est ce que ces individus ont en commun? qu'est ce qui les distingue LE PLUS d'autres individus? - 33 - - 34 - Situation de départ Maximum de vraissemblance on cherche à maximiser la vraissemblance on dispose d'un certain nombre de données X L=log des séquences partageant probablement un motif inconnu (séquences corégulées, séquences orthologues, fragments immunoprécipités,..) i.e. on cherche qui maximise L... cependant ces données sont incomplètes Z on ne sait pas où se situent ces motifs dans les séquences Pr X, Z / Pr X, Z / B... et on ignore un certain nombre de paramètres Pr(X,Z ) : probabilité que les séquences X contiennent un motif commun décrit par Pr(X,Z B) : proba. que les séquences X soient issues d'un modèle de fond (background, i.e. ne contiennent pas le motif ) on ne connait pas la matrice poids-position du motif, on se sait pas combien de fois le motif est présent dans chaque séquence (0, 1) - 35 - - 36 -

MEME Gibbs sampling matrice poids-position contenu en information fonction F à maximiser alignement - 37 - - 38 - Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) si on connaissait Z (la position), on connaitrait... IGF1_PIG IGF1_CANFA IGF-1b IGF2_HORSE INS_AOTTR INS_PANTR INS_CHIBR ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK TLQFVCGDRGFYFSRPASR--INRRS--RGIVEECCFRSCDLALLETYCATPAKSERDVS ALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPP--LEGPMQK----RGVVD ALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQK----RGIVE ALYLVCGDRGFFYTPMAXXELEDPQVGQADPGVVPEAGRLQPLALEMTLQX----XGIVD :* :***:***:: :. : **.. 116 87 116 95 91 93 69 si on connaissait (la matrice), on connaitrait Z (la position) seq 1 seq 2 seq 3 ALQFVCGDRGFYF ALQFVCGDRGFYF ALQFVCGDRGFYF TLQFVCGDRGFYF ALYLVCGERGFFY ALYLVCGERGFFY ALYLVCGDRGFFY seq 4-39 - localisation du meilleur score avec la matrice - 40 -

Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) 2 étapes 2 étapes "Expectation step" Etape 1: on fait comme si on connaissait la matrice, et on calcule la meilleure position Etape 2: on fait comme si on connaissait la position, et on calcule la matrice? Z "Maximization step" Etape 1: on fait comme si on connaissait la matrice, et on estime la meilleure position Etape 2: on fait comme si on connaissait la position, et on estime la matrice chaque étape se nourrit des estimations de l'autre convergence vers un maximum local de Pr(X ) - 41 - E-step: estimation de vraissemblance - 42 - E-step: estimation de vraissemblance positions "non-motif" seq i k k+w-1 seq 1 positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? seq 2 proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 seq 3 proba background seq 4 p b k =f b a1 f b a k 1 f b a k w f b al p b k p m k p i k = k pb k pm k courbes des pi(k) - 43 - - 44 -

M-step: maximisation seq 1 proba MLGHPQRTAR idem pour toutes les positions idem pour toutes les séquences on renormalise les colonnes on recommence le E-step avec la nouvelle matrice on arrête les itérations quand onrajoute 0,085àTenposition1 0,085àRenposition2... proba 0.085 TRSQRVWLIM onrajoute 0,07àMenposition1 0,07àLenposition2... Maximisation de la vraissemblance A C D E F G H I K L M N P Q R S T V W Y 0.09 0.01 0.06 0.03 0.09 0.01 0.05 0.02 0.01 0.05 0.03 0.11 0.1 0.03 0.05 0.19 0.11 0.11 0.11 0.15 0.11 0.15 0.11 0.11 0.11 0.11 0.11 0.15 0.15 0.15 0.11 le nombre max. d'itérations est atteint ou les paramètres de la matrice n'évoluent plus. maximum local de Pr(X,Z ) maxima locaux vs globaux? comment choisir la matrice de départ? comment déterminer la largeur W du motif? comment traiter les options oops,zoops,tcm? - 45 - - 46 - Maxima locaux/globaux Matrice de départ exemple: séquences contenant 2 motifs l'un très dégénéré l'autre très conservé ACGGCGATCCTAGCTAGGCTAGGCTAAAGATTAGTCGTTGCTTCGATC TTAGGTAGGCTATTTAATCCTTGGGCGCTAGGCTATAAATCCTTCGGCTA GGATCGGCTAGAAATTATCGCACACCATCGTTAGCTGCTTCCACCATAGATC TTAGACTCCGCATAGGATACGCTCGGTGCTTCGCTCTCGATCGATTCGCT 1 CGATCC CTTGGG CCATCG CTCCGC Z1=[5,20,25,6] Pr(X,Z1 1) Pr(X,Z2 2) 2 TGCTTCG TCCTTCG TGCTTCC TGCTTCG le choix de la matrice de départ détermine le type de maxima atteint MEME teste toutes les sous-séquences de longueur W il sélectionne celles qui améliorent le plus Pr(X,Z ) après une itération Z2=[42,43,33,31] - 47 - - 48 -

Options MEME Échantillonnage de Gibbs oops: chaque séquence contient une occurence du motif zoops: chaque séquence contient 0 ou 1 occurence paramètre supplémentaire: probabilité qu'une séquence contienne un motif on cherche à maximiser Pr(X,Z )/Pr(X,Z B) on utilise un algorithme stochastique (donc non déterministe) tcm: chaque séquence contient un nombre quelconque de motifs non-recouvrants paramètre supplémentaire: proba. que chaque position corresponde à un motif ces paramètres entrent dans la définition de la fonction à maximiser Pr(X,Z ) 2 étapes mise à jour de la matrice échantillonage aléatoire d'une séquence parmi les N - 49 - - 50 - Échantillonnage de Gibbs les résultats peuvent varier d'une fois à l'autre, il faut faire tourner l'algorithme plusieurs fois. Échantillonnage de Gibbs Etape 0: initialisation de la matrice + modèle de fond Etape 0: initialisation de la matrice + modèle de fond positions aléatoires N séquences matrice initiale f i, j= fréquence globale de chaque résidu j n i, j b j N B - 51 - f 0, j = n 0, j b j j k =1 n0, k B - 52 -

Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour Etape 2: échantillonage aléatoire sélection aléatoire proba que la position i corresponde à un site le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour à chaque position i, calcul du score Ai= pm i pb i proba que la position i corresponde à un "non-site" - 53 - - 54 - E-step: estimation de vraissemblance Échantillonnage de Gibbs positions "non-motif" seq i k k+w-1 Etape 2: échantillonnage aléatoire positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 proba background p b k =f b a1 f b a k 1 f b a k w f b al p k = p b k p m k k p b k p m k - 55 - sélection d'un nouveau site avec probabilité proportionnelle à Ai mise à jour de la matrice et du modèle de fond - 56 -

Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour (2ème itération) contenu en information (en bits) W sélection aléatoire le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour on itère un nombre fixe de fois J L= i =1 j =1 n i, j log f i,j f 0, j normalisation en fonction du nombre de paramètres de la matrice matrice nucléique, largeur W : 3W matrice protéique, largeur W : 19W LIPP = L N param - 57 - - 58 - implémentation pratique: MotifSampler [G Thijs et al., Bioinformatics(2001) vol.17 n.12,] particularité: le modèle de fond utilisation d'un modèle de Markov L P S /Bm =P b1,,b m l =m 1 P bl / b l 1,, bl m m=3 S=ACGGTAGGCTAGGCTAGCTAGGCT fonction F à maximiser P S/ B3 =P ACG P G/ ACG P T / CGG P ACG =P A P C P G - 59 - - 60 -

implémentation pratique: MotifSampler implémentation pratique: MotifSampler [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] paramètres du modèles de Markov estimés sur les séquences de départ (parfois trop peu) estimés sur un jeu de données indépendant ordre du MM - 61 - - 62 - implémentation pratique: MotifSampler Résumé Plusieurs approches pour étudier les mécanismes de régulation transcriptionnelle (cis-régulation): [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] le modèle de Markov améliore les performances de l'algorithme: 33 séquences (500 pb) de plantes avec motif G-box (cons. CACGTG) comparaison entre MM d'ordre 0 et 3, influence des séquences bruitées vrais positifs faux négatifs - 63 - Recherche de sites de fixation Découverte de motifs chaînes de caractères ou expressions régulières (code IUPAC) énumération d'oligo-mers, recherche d'un signal statistique matrices poids-position issues de banques de données (Transfac, JASPAR,...); outils: Patser, MotifLocator, MAST, etc... méthodes de maximisation de l'espérance (MEME, échantillonage de Gibbs) - 64 -

Résumé des difficultés majeures Difficultés majeures Où chercher? Comment interpréter/valider les résultats? In silico In vitro In vivo "In phenotypo" CRM drosophile Pr opor tionofnon codingdna 120,00% 100,00% percent 80,00% 60,00% 40,00% 20,00% 0,00% S.cerevisae C.elegans D.m ela nogaster A.thalian a F.rubripes O.sativa G.Bush M.Musculus [link] - 65 [Li et al., Genome Biology, 2007] 67 68 Recherche de groupes de sites (clusters) Stratégies de recherche et découverte de motifs Réduction de l'espace de recherche (l'histoire du gars qui cherche ses clés) 2 articles + commentaire dans PNAS 99(2), Janvier 2002. Berman BP, Nibu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM, Eisen MB (2002). Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc. Natl. Acad. Sci. USA 99: 757-762. Markstein M, Markstein P, Markstein V, Levine MS (2002 ). Genome-wide analysis of clustered Dorsal binding sites identifies putative target genes in the Drosophila embryo. Proc Natl Acad Sci USA 99:763-768. Michelson AM (2002). Deciphering genetic regulatory codes: A challenge for functional genomics. Proc Natl Acad Sci USA 99:546-548. - zones proches du promoteur - positions relatives spécifiques Filtrage des motifs trouvés par des conditions sur le nombre et le type d occurrences (règles logiques + fenêtres glissantes) Empreinte phylogénétique comparaison de régions non codantes proches de gènes orthologues chez des espèces à bonne distance évolutive (e.g. homme/souris) blocs conservés impliqués dans la régulation transcriptionnelle (?) - 66 -

69 70 Bcd, Nanos Kr, Kni, Gt, Hb,Tll D. melanogaster: de l'embryon à l'adulte Eve En LIFE: The Science of Biology, Purves et al, 1998 71 Source:Wolpertetal.(1998) Idées principales Utilisation d'information biologique supplémentaire sur l'organisation des séquences cis-régulatrices: regroupements fréquents de sites de fixations au sein des promoteurs ou enhancers. 72 Méthodes bioinformatiques Markstein et al. consensus IUPAC de Dl (string search) et une fenêtre glissante. évaluation statistique du nombre d'occurences de Dl dans une fenêtre Markstein et al : Dorsal, impliqué dans la différenciation dorso-ventrale précoce au cours du développement de l'embryon de Drosophile: recherche de deux sites ou plus (haute affinité) dans une fenêtre de 400 ou 1000 pb. Berman et al. : facteurs impliqués dans la différenciation antéro-posterior précoce au cours du développement de l'embryon de Drosophile (modèle de référence) Berman et al. MEME pour générer 5 matrices pour des FT Patser pour rechercher d'autres occurrences des motifs correspondant dans le génome. recherche de groupes de sites (env. 12) pour cinq facteurs (Bcd, Hb, Cad, Kni, Kr) dans une fenêtre de 700 bp. MEME Dans les deux cas, les enhancers identifiés ont été évalués par des constructions transgèniques (enhancer + gène rapporteur) et/ou des hybridation in situ.

Markstein et al. - Results (1/4) 73 Fig. 1.. zen and sog expression patterns. Precellular embryos are oriented with anterior to the left and dorsal up. A and C were hybridized with a digoxigenin-labeled zen antisense RNA probe, and B and D were hybridized with a sog probe. The staining patterns were visualized with anti-digoxigenin antibodies and histochemical staining. (A and C) Parasagittal and surface views of the same embryo. (B and D) Different planes of focus through a single embryo. Note that sog RNAs are detected in nuclei (D). (E) Diagram of the zen 5' regulatory region showing distribution of the four Dl binding sites in the VRE. 75 Markstein et al. - Results (3/5) Wt sog expression 6 kb transgene Markstein et al. - Results (2/5) 74 Fig. 2. Distribution of Dl clusters. (A) Frequency of clusters in genome containing a minimum of two, three, or four Dl binding sites in intervals of 1,000 or 400 bp. The Dl sequences searched are represented by the degenerate sequences GGGWWWWCCM and GGGWDWWWCCM, which encode a total of 208 unique sequences. Of the three clusters found to contain four sites in 400 bp, one is associated with zen and another with sog. (B) Statistical analysis of the expected (exp) vs. observed (obs) numbers of clusters with two, three, and four Dl sites found in windows of 1,000 and 400 bp. The number of observed clusters of three and four sites are many standard deviations () from their expected frequencies, suggesting that their occurrence at the observed frequencies is not a random event. See Materials and Methods for details. (C) Distribution of Dl binding sites associated with sog, Ady, and Phm. Illustrated below the sog cluster are the three DNA fragments (sog A, B, and C) that were tested for regulatory activities in transgenic embryos. Berman et al. - Results (1/4) 76 Fig. 1. Distribution of predicted transcription factor binding sites and binding site clusters in the vicinity of eve. (A) Predicted high-affinity (P < 0.0003) binding sites for the transcription factors Bcd, Cad, Hb, Kr, and Kni in 1 Mb of genomic sequence surrounding the gene evenskipped (eve) are displayed as colored boxes. Blue boxes in the center of the panel represent positions of annotated exons, with eve highlighted in red. Binding sites and genes shown above the midline map to the forward DNA strand; those below the midline map to the reverse strand. (B) Sites from A that occur in 700-bp windows containing at least 13 predicted binding sites. (C) Expanded view of region containing all clusters in B, with positions of known eve enhancers marked with gray ellipses. 393 bp transgene Fig. 3. The sog lateral stripe enhancer. Wild-type and transgenic embryos are oriented with anterior to the left and dorsal up. A-C were hybridized with a sog antisense RNA probe, and D-I were hybridized with a lacz probe to monitor the activities of different sog-lacz transgenes. (A-C) Endogenous sog expression pattern in precellular (A), gastrulating (B), and elongating (C) embryos. Staining is detected initially in broad lateral stripes (A and B) but is restricted to the mesectoderm during germ band elongation (C). (D-F) sog-lacz transgene that contains a 6-kb region of sog intron 1. Staining is detected in broad lateral stripes before (D) and after (E) cellularization but is restricted to the mesectoderm in elongating embryos (F). The staining pattern is similar to the normal sog expression pattern except that there is progressive loss of staining in the mesectoderm (compare C with F; data not shown). (G-I) sog-lacz transgene that contains a 393-bp fragment from sog intron 1, which encompasses all four high-affinity Dl binding sites. The lacz expression pattern is similar to that obtained with the 6-kb sog DNA fragment except that staining may be somewhat weaker and mottled.

Berman et al. Results (2/4) 77 Berman et al. Results (3/4) 78 Fig. 3. Expression patterns of selected genes flanking novel binding site clusters. We examined the expression patterns of 49 genes adjacent to one of the 28 novel binding site clusters described in Table 2 in syncytial and cellular blastoderm embryos (whole mount RNA in situ images are available in Table 2 (which is published as supporting information on the PNAS web site) and on the Berkeley Drosophila Genome Project website (http://www.fruitfly.org/). Eleven of these genes representing 10 clusters had early embryonic expression patterns characteristic of genes regulated by maternal and gap transcription factors and are shown here., References for flanking genes are as follows: gt (25, 30, 37-40), otd (41-43), btd (44, 45), pdm1 (46), pdm2 (46), Dfd (47-49), Antp (49, 50), ftz (51-53), odd (54), and psq (55) test utilisant un jeu de contrôle de 19 CRM actifs dans le dévelop. embryonnaire de la drosophile Berman et al. - Results (4/4) 79 80 Berman et al. - épilogue Genome Biology (2004): test systématique de 37 enhancers prédits: 15 3? 19 Fig. 4. Identification of a novel enhancer controlling posterior expression of giant. (A) Cluster of binding sites found between 2.9 Kb and 1.8 Kb upstream of giant. The DNA segment surrounding the cluster (labeled "posterior enhancer") was cloned into a lacz fusion construct and introduced into the genome via germline transformation as described in Materials and Methods. (B and C) Expression of giant in syncitial blastoderm stage embryos as determined by RNA in situ hybridization. B shows a wild-type embryo, and C shows a Kr1/Kr1 embryo lacking Krüppel (Kr) function. Without repression by Kr, the anterior border of the posterior expression domain shifts anteriorly. (D and E) Expression of lac Z in embryos containing construct from A. D shows a wild-type embryo, and E shows a Kr1/Kr1 embryo. Expression of the lacz construct in the mutant embryo shows similar expansion to that seen in gt. est-ce qu'on peut distinguer les "bons" des "mauvais"??

81 82 Critère le plus discriminant densité de sites alignés et préservés Conservation des sites de fixation des FT Conservation des sites de fixation des FT Les sites de fixations des facteurs de transcription sont généralement conservés. différents types de conservation des TFBS % identité % identité Seq A Seq A Seq B Seq B "Aligné" - 83 - "Conservé" - 84 -

85 86 homme/poulet homme Lenhard et al (2003) Point de départ: alignement de deux régions orthologues (promoter du gène de la beta-globin chez l'homme) homme/macaque homme/souris Calcul de la conservation dans une fenêtre glissante (taille fixée par l'utilisateur). Recherche de sites à l'aide de PWM, avec un seuil fixé par l'utilisateur; les matrices sont choisies au sein d'une base de donnée libre (Jaspar) ou peuvent être entrées par l'utilisateur. Seuls les sites retrouvés dans les régions fortement conservées (seuil fixé par l'utilisateur) sont retenus. 87 homme/macaque homme/souris 88 homme/poulet homme homme/vache homme/vache Jeu de contrôle pour tester la méthode

89 Figure 2. The impact of phylogenetic footprinting analysis. Both (a-c) a high-quality set (14 genes and 40 verified sites), and (d-f) a larger collection of promoters (57 genes and 110 sites, from the TRANSFAC database were analyzed. (a,d) Comparison of the selectivity (defined as the average number of predictions per 100 bp, using all models) between orthologous and single-sequence analysis modes. (b,e) Comparison of the sensitivity (the portion of 40 or 110 verified sites, respectively, that are detected with the given setting) between orthologous and singlesequence analysis modes. (c,f) Ratios of the number of sites detected in single-sequence mode to the number detected in orthologous-sequence mode; the pair: single-sequence ratios are displayed for both sensitivity (detected verified sites) and selectivity (all predicted sites). 90 91 92 Choix de d'espèces à comparer Phylogenetic shadowing: comparaison de multiples espèces proches Phylogenetic shadowing Phylogenetic footprinting Trop proches: temps d'évolution trop court pour distinguer évolution neutre/contrainte Distance optimale: homme/souris (~ 60 Mannées) Outils d'alignement globaux: Slagan (tient compte des réarrangments chromosomiques) BLASTz browser de genome UCSC, Vista Proba de mutation = pt Proba de mutation = pn p = probabilité de mutation par unité de temps Likelihood of mutation (log) [ Bofelli et al. Science, 2003] Comment chercher un élément fonctionnel spécifique aux primates? N espèces T

93 Empreintes phylogénétiques (phylogenetic footprinting) Séquences ultra-conservées humaines ~ 3% du génome humain est codant ~ 5% du génome humain est sous pression de sélection conservé? ARX: homeobox gene, development of CNS mrna introns intergenic exonic? 100 Conservation plus forte que les séquences codantes... 156 close to/in genes involved in - developmental processes - regulation of transcription Conservation > Function 114-94 - POLA: DNA polymerase alpha subunit Probabilité d'observé un uc dans une séquence sous évolution neutre: P< 1e-22 111 [Bejerano et al., Science:304(2004)] fonctionnel Exemple d'éléments uc 481 segments > 200 bp ayant 100% d'identité dans des régions orthologues homme/souris/rat : éléments ultra conservés (uc) - 95 - test de 167 uc chez homme/souris 67 (=45%) ont une activité enhancer positive Conservation extrême vs. ultraconservation? [Penacchio et al., Nature (2006)] [Visel et al., Nature Genetics (2008)] - 96 -