Approches bioinformatiques de la cis-régulation

Transcription

1 2 Plan Approches bioinformatiques de la cis-régulation Stratégies de découvertes de motifs nucléiques Carl Herrmann TAGC & Univ. Méditerranée - Marseille Rappels sur les mécanismes de régulation transcriptionnelle Les grandes stratégies de recherche et découverte de motifs Combinaisons de motifs Empreintes phylogénétiques Master M1 BBSG année Régulation transcriptionnelle chez les eucaryotes pluricellulaires 4 Quelques éléments cis-régulateurs (CRM) chez la Drosophile ftz zebra element eve stripes 2 & 3+7 elements repression site cluster stripe 2 stripes rho lateral neurectoderm stripe element kni posterior element Ubx PBX element Source: Sandelin & Wasserman (2004) ps 6,8,10,12 stripes blastoderm + Mesoderm at GBE

2 5 Interactions Protéine-ADN - Motif HTH 6 Le motif Doigt de Zinc Cys His C2H2 domaine de liaison à l'adn Source: ftp.expasy.ch/databases/swiss-3dimage 7 Fixation d une protéine à plusieurs motifs doigts de zinc sur l ADN 8 Motifs d interaction protéine-adn: exemple des doigts à zinc enroulement de plusieurs motifs doigts à zinc sur le sillon majeur Source: Isalan et al., Biochemistry (1998) 37:

3 9 10 Identification expérimentale des sites régulateurs FootPrinting Caractéristiques des séquences cis-régulatrices Hautes résolution/fiabilité mais petite échelle! SELEX Mutagénèse dirigée Généralement courtes (de ± 5 à ± 25 bp) Généralement présentes en plusieurs exemplaires Généralement conservées évolutivement Simple hybride Souvent très variables Résolution/fiabilité plus faibles mais grande échelle! X-ChIP Protein Binding Arrays Alphabet limité (A,C,G,T) Localisées en 5', 3', introns, parfois très loin du gène cible Actuellement: < 500 signatures connues pour l'homme Banques de données: Transfac, JASPAR 12 Exemple de motif: Gcn4 2 situations possibles Je connais les facteurs de transcription qui m'intéressent Où se trouvent les sites de fixation potentiels? Quels sont les gènes cible potentiels? recherche de sites - chaines de caractères - matrices poids-position (activateur transcriptionnel des gènes de biosynthèse des acides aminés chez la levure) 5 TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT J'ai des gènes dont je soupçonne qu'ils sont co-régulés ARO4 5 CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT ILV6 5 TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC THR4 5 ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA ARO1 5 ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA HOM2 5 GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA PRO3 Existe-t-il des motifs communs dans les séquences non-codantes proches? AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA découverte de motifs - énumération de motifs - maximisation de l'espérance (MEME, Gibbs Sampler) HIS7 5 ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG Alignement multiple (Orientation!) Adapté à partir de JvH

4 13 14 Recherche de motifs à l aide de chaînes de caractères Code ambigue IUPAC pour les nucléotides Deux approches Recherche d occurrence (exactes ou avec un nombre maximum de mésapariements, d insertion, ou de délétion) de chaînes de caractères représentants des variants de sites de fixation pour un facteur de transcription donné A C G T R Y W S M K H B V D N G A [GC] T C A Définition d une expression régulière ambiguë (code IUPAC) -> recherche d occurrences exactes ou approchées Evaluation statistique du nombre d occurrence trouvée (statistiques binomiales) Programme Dna-pattern de Jacques van Helden (ULB, Belgique); 15. Sites cis-régulateurs: expressions régulières. Site Name UASp2 Site D UAS Proximal UASp3 Site C Site A consensus Sequence ---actcacacacgtgggactagc---tttccagcacgtggggcgga-----ttatggcacgtgcgaataa-gtgatcgctgcacgtggcccga----taatttggcatgtgcgatctc------acgtccacgtggaactat------tttatcacgtgacacttttt gcacgtgggac----- Affinity high high high high low low low high-low PHO5 PHO84 PHO84 PHO8 group 2 UASp1 Site E Site B Distal consensus --TAAATTAGCACGTTTTCGC AATACGCACGTTTTTAATCTA -----TTACGCACGTTGGTGCTG----TTACCCGCACGCTTAATAT cgCACGTTt medium medium low low med-low Degenerate consensus Adenine Cytosine Guanine Thymine purine pyrimidine Weak hydrogen bonding Strong hydrogen bonding amino group at common position Keto group at common position not G not A not T not C any 16 Sites régulateurs: matrices de fréquences Sites de fixations pour le facteur de transcription Pho4p de la levure Gene PHO5 PHO84 PHO81 PHO8 PHO5 PHO84 PHO84 group 1 A C G T A or G C or T A or T G or C A or C G or T A, C or T G, C or T G, A, C G, A or T G, A, C or T Matrice donnant les fréquences des bases à chaque position pour un alignement de sites reconnus par le facteur de transcription Pho4 chez la levure (S. cerevisiae) GCACGTKKk (Source : Oshima et al.,1996) Source: TRANSFAC, Matrice F$PG04_01

5 17 Matrices pondérées 18 Contenu en information Site reconnu par le facteur Pho4p de la levure ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i fi,j fréquence relative du résidu i à la position j ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i k pseudo-poids (arbitraire, 1 ici) fi,j fréquence relative du résidu i à la position j f'i,j fréquence corrigée du résidu i à la position j k pseudo-poids (arbitraire, 1 ici) f'i,j fréquence corrigée du résidu i à la position j Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée La séquence est parcourue avec la matrice, et un score est calculé pour chaque position Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionnel Problème de la définition du seuil et de l'évaluation statistique Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée

6 Interprétation du score Ws Interprétation du score Ws (matching weight) Ws Poids du segment de séquence s k position à l'intérieur de l'alignement rk résidu à la position k du segment de séquence prk Probabilité à priori du résidu rk frkk Probabilité à priori du résidu rk à la position k de la matrice (poids de l'alignement) L'alignement entre une matrice et un segment de séquence est la somme des poids des résidus alignés Ceci est équivalent au logarithme des ratios entre: - produit des matrices de fréquences (1) - produit des proba. à priori des résidus trouvés dans le segment de séquence (2) terme (1) = probabilité que le segment de séquence corresponde au motif décrit par la matrice terme (2) = probabilité que le segment de séquence correponde au modèle de fond P(S M) Probabilité du segment de séquence, étant donné la matrice le poids du segment = logarithme du rapport des vraisemblances (segment=motif) / (segment=fond) P(S B) Probabilité du segment de séquence, étant donné le fond (background) Recherche de sites à l'aide d'une matrice consensus 24 Evaluation des outils de recherche de sites (Patser de J. Hertz ; interface www par J. van Helden) Constitution de collections de séquences contrôles: + contenant des sites caractérisés - ne contenant assurément pas de sites - séquences "aléatoires" - séquences "brouillées" Différentes situations: Site correctement reconnu = "vrai positif" Prédiction abusive = "faux positif" Site manqué = "faux négatif" Absence de site correctement prédite = "vrai négatif"

7 25 Compromis lors de la recherche de sites entre: 26 Compromis lors de la recherche de sites Grande sélectivité, faible sensibilité: grande confiance dans les sites prédits nombre de sites reconnus mais beaucoup de sites réels sont manqués Faible sélectivité, grande sensibilité: les sites réels sont noyés dans une mer de faux positifs vrais négatifs Double évaluation: Sélectivité = Nombre vrais positifs/ Nombre total hits vrais positifs Sensibilité = Nombre vrais positifs/ Nombre total sites Total sites = vrais positifs + faux négatifs Total "hits" = vrais positifs + faux positifs faux négatifs 28 Pouvoir discriminant d'une matrice Fortement discriminant Fréquence Non sites Sites Total hits Score Score Raisonnablement discriminant Fréquence Non sites Sites Total hits Score seuil faux positifs score ATGC Faiblement discriminant Non sites Sites Total hits Fréquence Logo (Schneider, 1994) Matrice

8 29 Pertinence de la méthode découverte de motifs Recherche de sites de fixations du facteur de transcription type GARP (Arabidopsis thaliana) données transcriptomiques en amont du gènes TP53 chez homo sapiens... clusters de gènes co-exprimés W. Wassermann: "99% des prédictions de sites sont des faux-positifs..." sont-ils co-régulés? si oui, par quels facteurs de transcription? Importance du modèle de référence Découverte de motifs par énumération d oligonucléotides fréquence des oligo 6 dans toutes les séquences en amont des ORF de S.cerevisae Idée de base: les sites de fixations sont généralement répétés Principe algorithmique On recherche les occurrences de n-mères dans un ensemble de séquences fonctionnellement apparentées On compare le nombre d occurrence obtenue avec un modèlestatistique: soit basé sur la base des fréquences en (poly-)nucléotides dans l ensemble soit sur la base d un ensemble plus grand de séquences de même type (par exemple, toutes les régions amont des gènes) -> mise en évidence nucléotides équiprobables des surreprésentation dans un graphe bi-dimensionnel On évalue statistiquement les motifs trouvés Programmes Helden (ULB, Belgique) oligo-analysis et dyad-analysis de Jacques van

9 Découverte de motifs par maximisation de l'espérance Analogie roux borgne grand gaucher on cherche à maximiser la vraissemblance que les séquences partagent un motif commun plutôt qu'elles ne partagent rien... i.e. on cherche le motif qui maximise cette vraissemblance algorithme "expectation maximization" (EM) algorithme échantillonage de Gibbs roux borgne grand droitier brun borgne grand gaucher 2 approches possibles roux borgne grand droitier roux borgne grand droitier qu'est ce que ces individus ont en commun? qu'est ce qui les distingue LE PLUS d'autres individus? Situation de départ Maximum de vraissemblance on cherche à maximiser la vraissemblance on dispose d'un certain nombre de données X L=log des séquences partageant probablement un motif inconnu (séquences corégulées, séquences orthologues, fragments immunoprécipités,..) i.e. on cherche qui maximise L... cependant ces données sont incomplètes Z on ne sait pas où se situent ces motifs dans les séquences Pr X, Z / Pr X, Z / B... et on ignore un certain nombre de paramètres Pr(X,Z ) : probabilité que les séquences X contiennent un motif commun décrit par Pr(X,Z B) : proba. que les séquences X soient issues d'un modèle de fond (background, i.e. ne contiennent pas le motif ) on ne connait pas la matrice poids-position du motif, on se sait pas combien de fois le motif est présent dans chaque séquence (0, 1)

10 MEME Gibbs sampling matrice poids-position contenu en information fonction F à maximiser alignement Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) si on connaissait Z (la position), on connaitrait... IGF1_PIG IGF1_CANFA IGF-1b IGF2_HORSE INS_AOTTR INS_PANTR INS_CHIBR ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK TLQFVCGDRGFYFSRPASR--INRRS--RGIVEECCFRSCDLALLETYCATPAKSERDVS ALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPP--LEGPMQK----RGVVD ALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQK----RGIVE ALYLVCGDRGFFYTPMAXXELEDPQVGQADPGVVPEAGRLQPLALEMTLQX----XGIVD :* :***:***:: :. : ** si on connaissait (la matrice), on connaitrait Z (la position) seq 1 seq 2 seq 3 ALQFVCGDRGFYF ALQFVCGDRGFYF ALQFVCGDRGFYF TLQFVCGDRGFYF ALYLVCGERGFFY ALYLVCGERGFFY ALYLVCGDRGFFY seq localisation du meilleur score avec la matrice

11 Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) 2 étapes 2 étapes "Expectation step" Etape 1: on fait comme si on connaissait la matrice, et on calcule la meilleure position Etape 2: on fait comme si on connaissait la position, et on calcule la matrice? Z "Maximization step" Etape 1: on fait comme si on connaissait la matrice, et on estime la meilleure position Etape 2: on fait comme si on connaissait la position, et on estime la matrice chaque étape se nourrit des estimations de l'autre convergence vers un maximum local de Pr(X ) E-step: estimation de vraissemblance E-step: estimation de vraissemblance positions "non-motif" seq i k k+w-1 seq 1 positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? seq 2 proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 seq 3 proba background seq 4 p b k =f b a1 f b a k 1 f b a k w f b al p b k p m k p i k = k pb k pm k courbes des pi(k)

12 M-step: maximisation seq 1 proba MLGHPQRTAR idem pour toutes les positions idem pour toutes les séquences on renormalise les colonnes on recommence le E-step avec la nouvelle matrice on arrête les itérations quand onrajoute 0,085àTenposition1 0,085àRenposition2... proba TRSQRVWLIM onrajoute 0,07àMenposition1 0,07àLenposition2... Maximisation de la vraissemblance A C D E F G H I K L M N P Q R S T V W Y le nombre max. d'itérations est atteint ou les paramètres de la matrice n'évoluent plus. maximum local de Pr(X,Z ) maxima locaux vs globaux? comment choisir la matrice de départ? comment déterminer la largeur W du motif? comment traiter les options oops,zoops,tcm? Maxima locaux/globaux Matrice de départ exemple: séquences contenant 2 motifs l'un très dégénéré l'autre très conservé ACGGCGATCCTAGCTAGGCTAGGCTAAAGATTAGTCGTTGCTTCGATC TTAGGTAGGCTATTTAATCCTTGGGCGCTAGGCTATAAATCCTTCGGCTA GGATCGGCTAGAAATTATCGCACACCATCGTTAGCTGCTTCCACCATAGATC TTAGACTCCGCATAGGATACGCTCGGTGCTTCGCTCTCGATCGATTCGCT 1 CGATCC CTTGGG CCATCG CTCCGC Z1=[5,20,25,6] Pr(X,Z1 1) Pr(X,Z2 2) 2 TGCTTCG TCCTTCG TGCTTCC TGCTTCG le choix de la matrice de départ détermine le type de maxima atteint MEME teste toutes les sous-séquences de longueur W il sélectionne celles qui améliorent le plus Pr(X,Z ) après une itération Z2=[42,43,33,31]

13 Options MEME Échantillonnage de Gibbs oops: chaque séquence contient une occurence du motif zoops: chaque séquence contient 0 ou 1 occurence paramètre supplémentaire: probabilité qu'une séquence contienne un motif on cherche à maximiser Pr(X,Z )/Pr(X,Z B) on utilise un algorithme stochastique (donc non déterministe) tcm: chaque séquence contient un nombre quelconque de motifs non-recouvrants paramètre supplémentaire: proba. que chaque position corresponde à un motif ces paramètres entrent dans la définition de la fonction à maximiser Pr(X,Z ) 2 étapes mise à jour de la matrice échantillonage aléatoire d'une séquence parmi les N Échantillonnage de Gibbs les résultats peuvent varier d'une fois à l'autre, il faut faire tourner l'algorithme plusieurs fois. Échantillonnage de Gibbs Etape 0: initialisation de la matrice + modèle de fond Etape 0: initialisation de la matrice + modèle de fond positions aléatoires N séquences matrice initiale f i, j= fréquence globale de chaque résidu j n i, j b j N B f 0, j = n 0, j b j j k =1 n0, k B

14 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour Etape 2: échantillonage aléatoire sélection aléatoire proba que la position i corresponde à un site le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour à chaque position i, calcul du score Ai= pm i pb i proba que la position i corresponde à un "non-site" E-step: estimation de vraissemblance Échantillonnage de Gibbs positions "non-motif" seq i k k+w-1 Etape 2: échantillonnage aléatoire positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 proba background p b k =f b a1 f b a k 1 f b a k w f b al p k = p b k p m k k p b k p m k sélection d'un nouveau site avec probabilité proportionnelle à Ai mise à jour de la matrice et du modèle de fond

15 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour (2ème itération) contenu en information (en bits) W sélection aléatoire le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour on itère un nombre fixe de fois J L= i =1 j =1 n i, j log f i,j f 0, j normalisation en fonction du nombre de paramètres de la matrice matrice nucléique, largeur W : 3W matrice protéique, largeur W : 19W LIPP = L N param implémentation pratique: MotifSampler [G Thijs et al., Bioinformatics(2001) vol.17 n.12,] particularité: le modèle de fond utilisation d'un modèle de Markov L P S /Bm =P b1,,b m l =m 1 P bl / b l 1,, bl m m=3 S=ACGGTAGGCTAGGCTAGCTAGGCT fonction F à maximiser P S/ B3 =P ACG P G/ ACG P T / CGG P ACG =P A P C P G

16 implémentation pratique: MotifSampler implémentation pratique: MotifSampler [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] paramètres du modèles de Markov estimés sur les séquences de départ (parfois trop peu) estimés sur un jeu de données indépendant ordre du MM implémentation pratique: MotifSampler Résumé Plusieurs approches pour étudier les mécanismes de régulation transcriptionnelle (cis-régulation): [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] le modèle de Markov améliore les performances de l'algorithme: 33 séquences (500 pb) de plantes avec motif G-box (cons. CACGTG) comparaison entre MM d'ordre 0 et 3, influence des séquences bruitées vrais positifs faux négatifs Recherche de sites de fixation Découverte de motifs chaînes de caractères ou expressions régulières (code IUPAC) énumération d'oligo-mers, recherche d'un signal statistique matrices poids-position issues de banques de données (Transfac, JASPAR,...); outils: Patser, MotifLocator, MAST, etc... méthodes de maximisation de l'espérance (MEME, échantillonage de Gibbs)

17 Résumé des difficultés majeures Difficultés majeures Où chercher? Comment interpréter/valider les résultats? In silico In vitro In vivo "In phenotypo" CRM drosophile Pr opor tionofnon codingdna 120,00% 100,00% percent 80,00% 60,00% 40,00% 20,00% 0,00% S.cerevisae C.elegans D.m ela nogaster A.thalian a F.rubripes O.sativa G.Bush M.Musculus [link] - 65 [Li et al., Genome Biology, 2007] Recherche de groupes de sites (clusters) Stratégies de recherche et découverte de motifs Réduction de l'espace de recherche (l'histoire du gars qui cherche ses clés) 2 articles + commentaire dans PNAS 99(2), Janvier Berman BP, Nibu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM, Eisen MB (2002). Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc. Natl. Acad. Sci. USA 99: Markstein M, Markstein P, Markstein V, Levine MS (2002 ). Genome-wide analysis of clustered Dorsal binding sites identifies putative target genes in the Drosophila embryo. Proc Natl Acad Sci USA 99: Michelson AM (2002). Deciphering genetic regulatory codes: A challenge for functional genomics. Proc Natl Acad Sci USA 99: zones proches du promoteur - positions relatives spécifiques Filtrage des motifs trouvés par des conditions sur le nombre et le type d occurrences (règles logiques + fenêtres glissantes) Empreinte phylogénétique comparaison de régions non codantes proches de gènes orthologues chez des espèces à bonne distance évolutive (e.g. homme/souris) blocs conservés impliqués dans la régulation transcriptionnelle (?)

18 69 70 Bcd, Nanos Kr, Kni, Gt, Hb,Tll D. melanogaster: de l'embryon à l'adulte Eve En LIFE: The Science of Biology, Purves et al, Source:Wolpertetal.(1998) Idées principales Utilisation d'information biologique supplémentaire sur l'organisation des séquences cis-régulatrices: regroupements fréquents de sites de fixations au sein des promoteurs ou enhancers. 72 Méthodes bioinformatiques Markstein et al. consensus IUPAC de Dl (string search) et une fenêtre glissante. évaluation statistique du nombre d'occurences de Dl dans une fenêtre Markstein et al : Dorsal, impliqué dans la différenciation dorso-ventrale précoce au cours du développement de l'embryon de Drosophile: recherche de deux sites ou plus (haute affinité) dans une fenêtre de 400 ou 1000 pb. Berman et al. : facteurs impliqués dans la différenciation antéro-posterior précoce au cours du développement de l'embryon de Drosophile (modèle de référence) Berman et al. MEME pour générer 5 matrices pour des FT Patser pour rechercher d'autres occurrences des motifs correspondant dans le génome. recherche de groupes de sites (env. 12) pour cinq facteurs (Bcd, Hb, Cad, Kni, Kr) dans une fenêtre de 700 bp. MEME Dans les deux cas, les enhancers identifiés ont été évalués par des constructions transgèniques (enhancer + gène rapporteur) et/ou des hybridation in situ.

19 Markstein et al. - Results (1/4) 73 Fig. 1.. zen and sog expression patterns. Precellular embryos are oriented with anterior to the left and dorsal up. A and C were hybridized with a digoxigenin-labeled zen antisense RNA probe, and B and D were hybridized with a sog probe. The staining patterns were visualized with anti-digoxigenin antibodies and histochemical staining. (A and C) Parasagittal and surface views of the same embryo. (B and D) Different planes of focus through a single embryo. Note that sog RNAs are detected in nuclei (D). (E) Diagram of the zen 5' regulatory region showing distribution of the four Dl binding sites in the VRE. 75 Markstein et al. - Results (3/5) Wt sog expression 6 kb transgene Markstein et al. - Results (2/5) 74 Fig. 2. Distribution of Dl clusters. (A) Frequency of clusters in genome containing a minimum of two, three, or four Dl binding sites in intervals of 1,000 or 400 bp. The Dl sequences searched are represented by the degenerate sequences GGGWWWWCCM and GGGWDWWWCCM, which encode a total of 208 unique sequences. Of the three clusters found to contain four sites in 400 bp, one is associated with zen and another with sog. (B) Statistical analysis of the expected (exp) vs. observed (obs) numbers of clusters with two, three, and four Dl sites found in windows of 1,000 and 400 bp. The number of observed clusters of three and four sites are many standard deviations () from their expected frequencies, suggesting that their occurrence at the observed frequencies is not a random event. See Materials and Methods for details. (C) Distribution of Dl binding sites associated with sog, Ady, and Phm. Illustrated below the sog cluster are the three DNA fragments (sog A, B, and C) that were tested for regulatory activities in transgenic embryos. Berman et al. - Results (1/4) 76 Fig. 1. Distribution of predicted transcription factor binding sites and binding site clusters in the vicinity of eve. (A) Predicted high-affinity (P < ) binding sites for the transcription factors Bcd, Cad, Hb, Kr, and Kni in 1 Mb of genomic sequence surrounding the gene evenskipped (eve) are displayed as colored boxes. Blue boxes in the center of the panel represent positions of annotated exons, with eve highlighted in red. Binding sites and genes shown above the midline map to the forward DNA strand; those below the midline map to the reverse strand. (B) Sites from A that occur in 700-bp windows containing at least 13 predicted binding sites. (C) Expanded view of region containing all clusters in B, with positions of known eve enhancers marked with gray ellipses. 393 bp transgene Fig. 3. The sog lateral stripe enhancer. Wild-type and transgenic embryos are oriented with anterior to the left and dorsal up. A-C were hybridized with a sog antisense RNA probe, and D-I were hybridized with a lacz probe to monitor the activities of different sog-lacz transgenes. (A-C) Endogenous sog expression pattern in precellular (A), gastrulating (B), and elongating (C) embryos. Staining is detected initially in broad lateral stripes (A and B) but is restricted to the mesectoderm during germ band elongation (C). (D-F) sog-lacz transgene that contains a 6-kb region of sog intron 1. Staining is detected in broad lateral stripes before (D) and after (E) cellularization but is restricted to the mesectoderm in elongating embryos (F). The staining pattern is similar to the normal sog expression pattern except that there is progressive loss of staining in the mesectoderm (compare C with F; data not shown). (G-I) sog-lacz transgene that contains a 393-bp fragment from sog intron 1, which encompasses all four high-affinity Dl binding sites. The lacz expression pattern is similar to that obtained with the 6-kb sog DNA fragment except that staining may be somewhat weaker and mottled.

20 Berman et al. Results (2/4) 77 Berman et al. Results (3/4) 78 Fig. 3. Expression patterns of selected genes flanking novel binding site clusters. We examined the expression patterns of 49 genes adjacent to one of the 28 novel binding site clusters described in Table 2 in syncytial and cellular blastoderm embryos (whole mount RNA in situ images are available in Table 2 (which is published as supporting information on the PNAS web site) and on the Berkeley Drosophila Genome Project website ( Eleven of these genes representing 10 clusters had early embryonic expression patterns characteristic of genes regulated by maternal and gap transcription factors and are shown here., References for flanking genes are as follows: gt (25, 30, 37-40), otd (41-43), btd (44, 45), pdm1 (46), pdm2 (46), Dfd (47-49), Antp (49, 50), ftz (51-53), odd (54), and psq (55) test utilisant un jeu de contrôle de 19 CRM actifs dans le dévelop. embryonnaire de la drosophile Berman et al. - Results (4/4) Berman et al. - épilogue Genome Biology (2004): test systématique de 37 enhancers prédits: 15 3? 19 Fig. 4. Identification of a novel enhancer controlling posterior expression of giant. (A) Cluster of binding sites found between 2.9 Kb and 1.8 Kb upstream of giant. The DNA segment surrounding the cluster (labeled "posterior enhancer") was cloned into a lacz fusion construct and introduced into the genome via germline transformation as described in Materials and Methods. (B and C) Expression of giant in syncitial blastoderm stage embryos as determined by RNA in situ hybridization. B shows a wild-type embryo, and C shows a Kr1/Kr1 embryo lacking Krüppel (Kr) function. Without repression by Kr, the anterior border of the posterior expression domain shifts anteriorly. (D and E) Expression of lac Z in embryos containing construct from A. D shows a wild-type embryo, and E shows a Kr1/Kr1 embryo. Expression of the lacz construct in the mutant embryo shows similar expansion to that seen in gt. est-ce qu'on peut distinguer les "bons" des "mauvais"??

21 81 82 Critère le plus discriminant densité de sites alignés et préservés Conservation des sites de fixation des FT Conservation des sites de fixation des FT Les sites de fixations des facteurs de transcription sont généralement conservés. différents types de conservation des TFBS % identité % identité Seq A Seq A Seq B Seq B "Aligné" "Conservé"

22 85 86 homme/poulet homme Lenhard et al (2003) Point de départ: alignement de deux régions orthologues (promoter du gène de la beta-globin chez l'homme) homme/macaque homme/souris Calcul de la conservation dans une fenêtre glissante (taille fixée par l'utilisateur). Recherche de sites à l'aide de PWM, avec un seuil fixé par l'utilisateur; les matrices sont choisies au sein d'une base de donnée libre (Jaspar) ou peuvent être entrées par l'utilisateur. Seuls les sites retrouvés dans les régions fortement conservées (seuil fixé par l'utilisateur) sont retenus. 87 homme/macaque homme/souris 88 homme/poulet homme homme/vache homme/vache Jeu de contrôle pour tester la méthode

23 89 Figure 2. The impact of phylogenetic footprinting analysis. Both (a-c) a high-quality set (14 genes and 40 verified sites), and (d-f) a larger collection of promoters (57 genes and 110 sites, from the TRANSFAC database were analyzed. (a,d) Comparison of the selectivity (defined as the average number of predictions per 100 bp, using all models) between orthologous and single-sequence analysis modes. (b,e) Comparison of the sensitivity (the portion of 40 or 110 verified sites, respectively, that are detected with the given setting) between orthologous and singlesequence analysis modes. (c,f) Ratios of the number of sites detected in single-sequence mode to the number detected in orthologous-sequence mode; the pair: single-sequence ratios are displayed for both sensitivity (detected verified sites) and selectivity (all predicted sites) Choix de d'espèces à comparer Phylogenetic shadowing: comparaison de multiples espèces proches Phylogenetic shadowing Phylogenetic footprinting Trop proches: temps d'évolution trop court pour distinguer évolution neutre/contrainte Distance optimale: homme/souris (~ 60 Mannées) Outils d'alignement globaux: Slagan (tient compte des réarrangments chromosomiques) BLASTz browser de genome UCSC, Vista Proba de mutation = pt Proba de mutation = pn p = probabilité de mutation par unité de temps Likelihood of mutation (log) [ Bofelli et al. Science, 2003] Comment chercher un élément fonctionnel spécifique aux primates? N espèces T

24 93 Empreintes phylogénétiques (phylogenetic footprinting) Séquences ultra-conservées humaines ~ 3% du génome humain est codant ~ 5% du génome humain est sous pression de sélection conservé? ARX: homeobox gene, development of CNS mrna introns intergenic exonic? 100 Conservation plus forte que les séquences codantes close to/in genes involved in - developmental processes - regulation of transcription Conservation > Function POLA: DNA polymerase alpha subunit Probabilité d'observé un uc dans une séquence sous évolution neutre: P< 1e [Bejerano et al., Science:304(2004)] fonctionnel Exemple d'éléments uc 481 segments > 200 bp ayant 100% d'identité dans des régions orthologues homme/souris/rat : éléments ultra conservés (uc) test de 167 uc chez homme/souris 67 (=45%) ont une activité enhancer positive Conservation extrême vs. ultraconservation? [Penacchio et al., Nature (2006)] [Visel et al., Nature Genetics (2008)]

25 Fonction > Conservation? Fonction > Conservation? [Hare et al. PloS Genetics, 2008] Stripe 2 enhancer of even skipped (eve): est ce que l'orthologue du S2E enhancer sauve un mutant S2EΔ de D.melanogaster? 100 Myears [Ludwig et al., PloS Biology (2005)] "Our results show that there is no necessary relationship between enhancer phylogenetic (or sequence) relatedness and functional similarity." Take home messages (1) Fonction > Conservation? Recherche de sites de fixation (avec a priori) outils: PATSER, banques de données Transfac ou JASPAR DIFFICILE, 99% de FP sans information supplémentaire RET (receptor tyrosine kinase) loci in human and zebrafish HCS = strongly conserved vertebrate sequence 200 kb around RET ZCS = strongly conserved teleost sequence 200 kb around RET Découverte de motifs (sans a priori) comptage de mots, MEME, échantilloneur de Gibbs Interprétation des résultats? Influence du modèle de référence!!! HCS and ZCS are not alignable (no sequence identity) Utilisation d'information supplémentaire -"clustering" des sites de fixation - conservation évolutive Validité de ces critères? Choix des espèces à comparer? Influence des outils d'alignement? BUT most HCS drive ZCS-like expression in zebrafish, even in non-vertebrate cells! [Fisher et al., Science (2006)]

26 101 Take home messages (2) 2 modèles d'évolution des CRM "Enhanceosome" Contraintes fortes sur la localisation des TFBS, leur espacement, leur orientation "Billboard" Les CRM contiennent des sous-unités (1-2 TFBS) sous forte contrainte évolutives mais indépendantes [Arnosti, Kulkari, Journal of Cell. Biochemistry, 2005]

Montrer encore