Approches bioinformatiques de la cis-régulation

Dimension: px
Commencer à balayer dès la page:

Download "Approches bioinformatiques de la cis-régulation"

Transcription

1 2 Plan Approches bioinformatiques de la cis-régulation Stratégies de découvertes de motifs nucléiques Carl Herrmann TAGC & Univ. Méditerranée - Marseille Rappels sur les mécanismes de régulation transcriptionnelle Les grandes stratégies de recherche et découverte de motifs Combinaisons de motifs Empreintes phylogénétiques Master M1 BBSG année Régulation transcriptionnelle chez les eucaryotes pluricellulaires 4 Quelques éléments cis-régulateurs (CRM) chez la Drosophile ftz zebra element eve stripes 2 & 3+7 elements repression site cluster stripe 2 stripes rho lateral neurectoderm stripe element kni posterior element Ubx PBX element Source: Sandelin & Wasserman (2004) ps 6,8,10,12 stripes blastoderm + Mesoderm at GBE

2 5 Interactions Protéine-ADN - Motif HTH 6 Le motif Doigt de Zinc Cys His C2H2 domaine de liaison à l'adn Source: ftp.expasy.ch/databases/swiss-3dimage 7 Fixation d une protéine à plusieurs motifs doigts de zinc sur l ADN 8 Motifs d interaction protéine-adn: exemple des doigts à zinc enroulement de plusieurs motifs doigts à zinc sur le sillon majeur Source: Isalan et al., Biochemistry (1998) 37:

3 9 10 Identification expérimentale des sites régulateurs FootPrinting Caractéristiques des séquences cis-régulatrices Hautes résolution/fiabilité mais petite échelle! SELEX Mutagénèse dirigée Généralement courtes (de ± 5 à ± 25 bp) Généralement présentes en plusieurs exemplaires Généralement conservées évolutivement Simple hybride Souvent très variables Résolution/fiabilité plus faibles mais grande échelle! X-ChIP Protein Binding Arrays Alphabet limité (A,C,G,T) Localisées en 5', 3', introns, parfois très loin du gène cible Actuellement: < 500 signatures connues pour l'homme Banques de données: Transfac, JASPAR 12 Exemple de motif: Gcn4 2 situations possibles Je connais les facteurs de transcription qui m'intéressent Où se trouvent les sites de fixation potentiels? Quels sont les gènes cible potentiels? recherche de sites - chaines de caractères - matrices poids-position (activateur transcriptionnel des gènes de biosynthèse des acides aminés chez la levure) 5 TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT J'ai des gènes dont je soupçonne qu'ils sont co-régulés ARO4 5 CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT ILV6 5 TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC THR4 5 ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA ARO1 5 ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA HOM2 5 GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA PRO3 Existe-t-il des motifs communs dans les séquences non-codantes proches? AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA découverte de motifs - énumération de motifs - maximisation de l'espérance (MEME, Gibbs Sampler) HIS7 5 ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG Alignement multiple (Orientation!) Adapté à partir de JvH

4 13 14 Recherche de motifs à l aide de chaînes de caractères Code ambigue IUPAC pour les nucléotides Deux approches Recherche d occurrence (exactes ou avec un nombre maximum de mésapariements, d insertion, ou de délétion) de chaînes de caractères représentants des variants de sites de fixation pour un facteur de transcription donné A C G T R Y W S M K H B V D N G A [GC] T C A Définition d une expression régulière ambiguë (code IUPAC) -> recherche d occurrences exactes ou approchées Evaluation statistique du nombre d occurrence trouvée (statistiques binomiales) Programme Dna-pattern de Jacques van Helden (ULB, Belgique); 15. Sites cis-régulateurs: expressions régulières. Site Name UASp2 Site D UAS Proximal UASp3 Site C Site A consensus Sequence ---actcacacacgtgggactagc---tttccagcacgtggggcgga-----ttatggcacgtgcgaataa-gtgatcgctgcacgtggcccga----taatttggcatgtgcgatctc------acgtccacgtggaactat------tttatcacgtgacacttttt gcacgtgggac----- Affinity high high high high low low low high-low PHO5 PHO84 PHO84 PHO8 group 2 UASp1 Site E Site B Distal consensus --TAAATTAGCACGTTTTCGC AATACGCACGTTTTTAATCTA -----TTACGCACGTTGGTGCTG----TTACCCGCACGCTTAATAT cgCACGTTt medium medium low low med-low Degenerate consensus Adenine Cytosine Guanine Thymine purine pyrimidine Weak hydrogen bonding Strong hydrogen bonding amino group at common position Keto group at common position not G not A not T not C any 16 Sites régulateurs: matrices de fréquences Sites de fixations pour le facteur de transcription Pho4p de la levure Gene PHO5 PHO84 PHO81 PHO8 PHO5 PHO84 PHO84 group 1 A C G T A or G C or T A or T G or C A or C G or T A, C or T G, C or T G, A, C G, A or T G, A, C or T Matrice donnant les fréquences des bases à chaque position pour un alignement de sites reconnus par le facteur de transcription Pho4 chez la levure (S. cerevisiae) GCACGTKKk (Source : Oshima et al.,1996) Source: TRANSFAC, Matrice F$PG04_01

5 17 Matrices pondérées 18 Contenu en information Site reconnu par le facteur Pho4p de la levure ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i fi,j fréquence relative du résidu i à la position j ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i k pseudo-poids (arbitraire, 1 ici) fi,j fréquence relative du résidu i à la position j f'i,j fréquence corrigée du résidu i à la position j k pseudo-poids (arbitraire, 1 ici) f'i,j fréquence corrigée du résidu i à la position j Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée La séquence est parcourue avec la matrice, et un score est calculé pour chaque position Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionnel Problème de la définition du seuil et de l'évaluation statistique Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée

6 Interprétation du score Ws Interprétation du score Ws (matching weight) Ws Poids du segment de séquence s k position à l'intérieur de l'alignement rk résidu à la position k du segment de séquence prk Probabilité à priori du résidu rk frkk Probabilité à priori du résidu rk à la position k de la matrice (poids de l'alignement) L'alignement entre une matrice et un segment de séquence est la somme des poids des résidus alignés Ceci est équivalent au logarithme des ratios entre: - produit des matrices de fréquences (1) - produit des proba. à priori des résidus trouvés dans le segment de séquence (2) terme (1) = probabilité que le segment de séquence corresponde au motif décrit par la matrice terme (2) = probabilité que le segment de séquence correponde au modèle de fond P(S M) Probabilité du segment de séquence, étant donné la matrice le poids du segment = logarithme du rapport des vraisemblances (segment=motif) / (segment=fond) P(S B) Probabilité du segment de séquence, étant donné le fond (background) Recherche de sites à l'aide d'une matrice consensus 24 Evaluation des outils de recherche de sites (Patser de J. Hertz ; interface www par J. van Helden) Constitution de collections de séquences contrôles: + contenant des sites caractérisés - ne contenant assurément pas de sites - séquences "aléatoires" - séquences "brouillées" Différentes situations: Site correctement reconnu = "vrai positif" Prédiction abusive = "faux positif" Site manqué = "faux négatif" Absence de site correctement prédite = "vrai négatif"

7 25 Compromis lors de la recherche de sites entre: 26 Compromis lors de la recherche de sites Grande sélectivité, faible sensibilité: grande confiance dans les sites prédits nombre de sites reconnus mais beaucoup de sites réels sont manqués Faible sélectivité, grande sensibilité: les sites réels sont noyés dans une mer de faux positifs vrais négatifs Double évaluation: Sélectivité = Nombre vrais positifs/ Nombre total hits vrais positifs Sensibilité = Nombre vrais positifs/ Nombre total sites Total sites = vrais positifs + faux négatifs Total "hits" = vrais positifs + faux positifs faux négatifs 28 Pouvoir discriminant d'une matrice Fortement discriminant Fréquence Non sites Sites Total hits Score Score Raisonnablement discriminant Fréquence Non sites Sites Total hits Score seuil faux positifs score ATGC Faiblement discriminant Non sites Sites Total hits Fréquence Logo (Schneider, 1994) Matrice

8 29 Pertinence de la méthode découverte de motifs Recherche de sites de fixations du facteur de transcription type GARP (Arabidopsis thaliana) données transcriptomiques en amont du gènes TP53 chez homo sapiens... clusters de gènes co-exprimés W. Wassermann: "99% des prédictions de sites sont des faux-positifs..." sont-ils co-régulés? si oui, par quels facteurs de transcription? Importance du modèle de référence Découverte de motifs par énumération d oligonucléotides fréquence des oligo 6 dans toutes les séquences en amont des ORF de S.cerevisae Idée de base: les sites de fixations sont généralement répétés Principe algorithmique On recherche les occurrences de n-mères dans un ensemble de séquences fonctionnellement apparentées On compare le nombre d occurrence obtenue avec un modèlestatistique: soit basé sur la base des fréquences en (poly-)nucléotides dans l ensemble soit sur la base d un ensemble plus grand de séquences de même type (par exemple, toutes les régions amont des gènes) -> mise en évidence nucléotides équiprobables des surreprésentation dans un graphe bi-dimensionnel On évalue statistiquement les motifs trouvés Programmes Helden (ULB, Belgique) oligo-analysis et dyad-analysis de Jacques van

9 Découverte de motifs par maximisation de l'espérance Analogie roux borgne grand gaucher on cherche à maximiser la vraissemblance que les séquences partagent un motif commun plutôt qu'elles ne partagent rien... i.e. on cherche le motif qui maximise cette vraissemblance algorithme "expectation maximization" (EM) algorithme échantillonage de Gibbs roux borgne grand droitier brun borgne grand gaucher 2 approches possibles roux borgne grand droitier roux borgne grand droitier qu'est ce que ces individus ont en commun? qu'est ce qui les distingue LE PLUS d'autres individus? Situation de départ Maximum de vraissemblance on cherche à maximiser la vraissemblance on dispose d'un certain nombre de données X L=log des séquences partageant probablement un motif inconnu (séquences corégulées, séquences orthologues, fragments immunoprécipités,..) i.e. on cherche qui maximise L... cependant ces données sont incomplètes Z on ne sait pas où se situent ces motifs dans les séquences Pr X, Z / Pr X, Z / B... et on ignore un certain nombre de paramètres Pr(X,Z ) : probabilité que les séquences X contiennent un motif commun décrit par Pr(X,Z B) : proba. que les séquences X soient issues d'un modèle de fond (background, i.e. ne contiennent pas le motif ) on ne connait pas la matrice poids-position du motif, on se sait pas combien de fois le motif est présent dans chaque séquence (0, 1)

10 MEME Gibbs sampling matrice poids-position contenu en information fonction F à maximiser alignement Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) si on connaissait Z (la position), on connaitrait... IGF1_PIG IGF1_CANFA IGF-1b IGF2_HORSE INS_AOTTR INS_PANTR INS_CHIBR ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK TLQFVCGDRGFYFSRPASR--INRRS--RGIVEECCFRSCDLALLETYCATPAKSERDVS ALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPP--LEGPMQK----RGVVD ALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQK----RGIVE ALYLVCGDRGFFYTPMAXXELEDPQVGQADPGVVPEAGRLQPLALEMTLQX----XGIVD :* :***:***:: :. : ** si on connaissait (la matrice), on connaitrait Z (la position) seq 1 seq 2 seq 3 ALQFVCGDRGFYF ALQFVCGDRGFYF ALQFVCGDRGFYF TLQFVCGDRGFYF ALYLVCGERGFFY ALYLVCGERGFFY ALYLVCGDRGFFY seq localisation du meilleur score avec la matrice

11 Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) 2 étapes 2 étapes "Expectation step" Etape 1: on fait comme si on connaissait la matrice, et on calcule la meilleure position Etape 2: on fait comme si on connaissait la position, et on calcule la matrice? Z "Maximization step" Etape 1: on fait comme si on connaissait la matrice, et on estime la meilleure position Etape 2: on fait comme si on connaissait la position, et on estime la matrice chaque étape se nourrit des estimations de l'autre convergence vers un maximum local de Pr(X ) E-step: estimation de vraissemblance E-step: estimation de vraissemblance positions "non-motif" seq i k k+w-1 seq 1 positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? seq 2 proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 seq 3 proba background seq 4 p b k =f b a1 f b a k 1 f b a k w f b al p b k p m k p i k = k pb k pm k courbes des pi(k)

12 M-step: maximisation seq 1 proba MLGHPQRTAR idem pour toutes les positions idem pour toutes les séquences on renormalise les colonnes on recommence le E-step avec la nouvelle matrice on arrête les itérations quand onrajoute 0,085àTenposition1 0,085àRenposition2... proba TRSQRVWLIM onrajoute 0,07àMenposition1 0,07àLenposition2... Maximisation de la vraissemblance A C D E F G H I K L M N P Q R S T V W Y le nombre max. d'itérations est atteint ou les paramètres de la matrice n'évoluent plus. maximum local de Pr(X,Z ) maxima locaux vs globaux? comment choisir la matrice de départ? comment déterminer la largeur W du motif? comment traiter les options oops,zoops,tcm? Maxima locaux/globaux Matrice de départ exemple: séquences contenant 2 motifs l'un très dégénéré l'autre très conservé ACGGCGATCCTAGCTAGGCTAGGCTAAAGATTAGTCGTTGCTTCGATC TTAGGTAGGCTATTTAATCCTTGGGCGCTAGGCTATAAATCCTTCGGCTA GGATCGGCTAGAAATTATCGCACACCATCGTTAGCTGCTTCCACCATAGATC TTAGACTCCGCATAGGATACGCTCGGTGCTTCGCTCTCGATCGATTCGCT 1 CGATCC CTTGGG CCATCG CTCCGC Z1=[5,20,25,6] Pr(X,Z1 1) Pr(X,Z2 2) 2 TGCTTCG TCCTTCG TGCTTCC TGCTTCG le choix de la matrice de départ détermine le type de maxima atteint MEME teste toutes les sous-séquences de longueur W il sélectionne celles qui améliorent le plus Pr(X,Z ) après une itération Z2=[42,43,33,31]

13 Options MEME Échantillonnage de Gibbs oops: chaque séquence contient une occurence du motif zoops: chaque séquence contient 0 ou 1 occurence paramètre supplémentaire: probabilité qu'une séquence contienne un motif on cherche à maximiser Pr(X,Z )/Pr(X,Z B) on utilise un algorithme stochastique (donc non déterministe) tcm: chaque séquence contient un nombre quelconque de motifs non-recouvrants paramètre supplémentaire: proba. que chaque position corresponde à un motif ces paramètres entrent dans la définition de la fonction à maximiser Pr(X,Z ) 2 étapes mise à jour de la matrice échantillonage aléatoire d'une séquence parmi les N Échantillonnage de Gibbs les résultats peuvent varier d'une fois à l'autre, il faut faire tourner l'algorithme plusieurs fois. Échantillonnage de Gibbs Etape 0: initialisation de la matrice + modèle de fond Etape 0: initialisation de la matrice + modèle de fond positions aléatoires N séquences matrice initiale f i, j= fréquence globale de chaque résidu j n i, j b j N B f 0, j = n 0, j b j j k =1 n0, k B

14 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour Etape 2: échantillonage aléatoire sélection aléatoire proba que la position i corresponde à un site le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour à chaque position i, calcul du score Ai= pm i pb i proba que la position i corresponde à un "non-site" E-step: estimation de vraissemblance Échantillonnage de Gibbs positions "non-motif" seq i k k+w-1 Etape 2: échantillonnage aléatoire positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 proba background p b k =f b a1 f b a k 1 f b a k w f b al p k = p b k p m k k p b k p m k sélection d'un nouveau site avec probabilité proportionnelle à Ai mise à jour de la matrice et du modèle de fond

15 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour (2ème itération) contenu en information (en bits) W sélection aléatoire le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour on itère un nombre fixe de fois J L= i =1 j =1 n i, j log f i,j f 0, j normalisation en fonction du nombre de paramètres de la matrice matrice nucléique, largeur W : 3W matrice protéique, largeur W : 19W LIPP = L N param implémentation pratique: MotifSampler [G Thijs et al., Bioinformatics(2001) vol.17 n.12,] particularité: le modèle de fond utilisation d'un modèle de Markov L P S /Bm =P b1,,b m l =m 1 P bl / b l 1,, bl m m=3 S=ACGGTAGGCTAGGCTAGCTAGGCT fonction F à maximiser P S/ B3 =P ACG P G/ ACG P T / CGG P ACG =P A P C P G

16 implémentation pratique: MotifSampler implémentation pratique: MotifSampler [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] paramètres du modèles de Markov estimés sur les séquences de départ (parfois trop peu) estimés sur un jeu de données indépendant ordre du MM implémentation pratique: MotifSampler Résumé Plusieurs approches pour étudier les mécanismes de régulation transcriptionnelle (cis-régulation): [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] le modèle de Markov améliore les performances de l'algorithme: 33 séquences (500 pb) de plantes avec motif G-box (cons. CACGTG) comparaison entre MM d'ordre 0 et 3, influence des séquences bruitées vrais positifs faux négatifs Recherche de sites de fixation Découverte de motifs chaînes de caractères ou expressions régulières (code IUPAC) énumération d'oligo-mers, recherche d'un signal statistique matrices poids-position issues de banques de données (Transfac, JASPAR,...); outils: Patser, MotifLocator, MAST, etc... méthodes de maximisation de l'espérance (MEME, échantillonage de Gibbs)

17 Résumé des difficultés majeures Difficultés majeures Où chercher? Comment interpréter/valider les résultats? In silico In vitro In vivo "In phenotypo" CRM drosophile Pr opor tionofnon codingdna 120,00% 100,00% percent 80,00% 60,00% 40,00% 20,00% 0,00% S.cerevisae C.elegans D.m ela nogaster A.thalian a F.rubripes O.sativa G.Bush M.Musculus [link] - 65 [Li et al., Genome Biology, 2007] Recherche de groupes de sites (clusters) Stratégies de recherche et découverte de motifs Réduction de l'espace de recherche (l'histoire du gars qui cherche ses clés) 2 articles + commentaire dans PNAS 99(2), Janvier Berman BP, Nibu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM, Eisen MB (2002). Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc. Natl. Acad. Sci. USA 99: Markstein M, Markstein P, Markstein V, Levine MS (2002 ). Genome-wide analysis of clustered Dorsal binding sites identifies putative target genes in the Drosophila embryo. Proc Natl Acad Sci USA 99: Michelson AM (2002). Deciphering genetic regulatory codes: A challenge for functional genomics. Proc Natl Acad Sci USA 99: zones proches du promoteur - positions relatives spécifiques Filtrage des motifs trouvés par des conditions sur le nombre et le type d occurrences (règles logiques + fenêtres glissantes) Empreinte phylogénétique comparaison de régions non codantes proches de gènes orthologues chez des espèces à bonne distance évolutive (e.g. homme/souris) blocs conservés impliqués dans la régulation transcriptionnelle (?)

18 69 70 Bcd, Nanos Kr, Kni, Gt, Hb,Tll D. melanogaster: de l'embryon à l'adulte Eve En LIFE: The Science of Biology, Purves et al, Source:Wolpertetal.(1998) Idées principales Utilisation d'information biologique supplémentaire sur l'organisation des séquences cis-régulatrices: regroupements fréquents de sites de fixations au sein des promoteurs ou enhancers. 72 Méthodes bioinformatiques Markstein et al. consensus IUPAC de Dl (string search) et une fenêtre glissante. évaluation statistique du nombre d'occurences de Dl dans une fenêtre Markstein et al : Dorsal, impliqué dans la différenciation dorso-ventrale précoce au cours du développement de l'embryon de Drosophile: recherche de deux sites ou plus (haute affinité) dans une fenêtre de 400 ou 1000 pb. Berman et al. : facteurs impliqués dans la différenciation antéro-posterior précoce au cours du développement de l'embryon de Drosophile (modèle de référence) Berman et al. MEME pour générer 5 matrices pour des FT Patser pour rechercher d'autres occurrences des motifs correspondant dans le génome. recherche de groupes de sites (env. 12) pour cinq facteurs (Bcd, Hb, Cad, Kni, Kr) dans une fenêtre de 700 bp. MEME Dans les deux cas, les enhancers identifiés ont été évalués par des constructions transgèniques (enhancer + gène rapporteur) et/ou des hybridation in situ.

19 Markstein et al. - Results (1/4) 73 Fig. 1.. zen and sog expression patterns. Precellular embryos are oriented with anterior to the left and dorsal up. A and C were hybridized with a digoxigenin-labeled zen antisense RNA probe, and B and D were hybridized with a sog probe. The staining patterns were visualized with anti-digoxigenin antibodies and histochemical staining. (A and C) Parasagittal and surface views of the same embryo. (B and D) Different planes of focus through a single embryo. Note that sog RNAs are detected in nuclei (D). (E) Diagram of the zen 5' regulatory region showing distribution of the four Dl binding sites in the VRE. 75 Markstein et al. - Results (3/5) Wt sog expression 6 kb transgene Markstein et al. - Results (2/5) 74 Fig. 2. Distribution of Dl clusters. (A) Frequency of clusters in genome containing a minimum of two, three, or four Dl binding sites in intervals of 1,000 or 400 bp. The Dl sequences searched are represented by the degenerate sequences GGGWWWWCCM and GGGWDWWWCCM, which encode a total of 208 unique sequences. Of the three clusters found to contain four sites in 400 bp, one is associated with zen and another with sog. (B) Statistical analysis of the expected (exp) vs. observed (obs) numbers of clusters with two, three, and four Dl sites found in windows of 1,000 and 400 bp. The number of observed clusters of three and four sites are many standard deviations () from their expected frequencies, suggesting that their occurrence at the observed frequencies is not a random event. See Materials and Methods for details. (C) Distribution of Dl binding sites associated with sog, Ady, and Phm. Illustrated below the sog cluster are the three DNA fragments (sog A, B, and C) that were tested for regulatory activities in transgenic embryos. Berman et al. - Results (1/4) 76 Fig. 1. Distribution of predicted transcription factor binding sites and binding site clusters in the vicinity of eve. (A) Predicted high-affinity (P < ) binding sites for the transcription factors Bcd, Cad, Hb, Kr, and Kni in 1 Mb of genomic sequence surrounding the gene evenskipped (eve) are displayed as colored boxes. Blue boxes in the center of the panel represent positions of annotated exons, with eve highlighted in red. Binding sites and genes shown above the midline map to the forward DNA strand; those below the midline map to the reverse strand. (B) Sites from A that occur in 700-bp windows containing at least 13 predicted binding sites. (C) Expanded view of region containing all clusters in B, with positions of known eve enhancers marked with gray ellipses. 393 bp transgene Fig. 3. The sog lateral stripe enhancer. Wild-type and transgenic embryos are oriented with anterior to the left and dorsal up. A-C were hybridized with a sog antisense RNA probe, and D-I were hybridized with a lacz probe to monitor the activities of different sog-lacz transgenes. (A-C) Endogenous sog expression pattern in precellular (A), gastrulating (B), and elongating (C) embryos. Staining is detected initially in broad lateral stripes (A and B) but is restricted to the mesectoderm during germ band elongation (C). (D-F) sog-lacz transgene that contains a 6-kb region of sog intron 1. Staining is detected in broad lateral stripes before (D) and after (E) cellularization but is restricted to the mesectoderm in elongating embryos (F). The staining pattern is similar to the normal sog expression pattern except that there is progressive loss of staining in the mesectoderm (compare C with F; data not shown). (G-I) sog-lacz transgene that contains a 393-bp fragment from sog intron 1, which encompasses all four high-affinity Dl binding sites. The lacz expression pattern is similar to that obtained with the 6-kb sog DNA fragment except that staining may be somewhat weaker and mottled.

20 Berman et al. Results (2/4) 77 Berman et al. Results (3/4) 78 Fig. 3. Expression patterns of selected genes flanking novel binding site clusters. We examined the expression patterns of 49 genes adjacent to one of the 28 novel binding site clusters described in Table 2 in syncytial and cellular blastoderm embryos (whole mount RNA in situ images are available in Table 2 (which is published as supporting information on the PNAS web site) and on the Berkeley Drosophila Genome Project website (http://www.fruitfly.org/). Eleven of these genes representing 10 clusters had early embryonic expression patterns characteristic of genes regulated by maternal and gap transcription factors and are shown here., References for flanking genes are as follows: gt (25, 30, 37-40), otd (41-43), btd (44, 45), pdm1 (46), pdm2 (46), Dfd (47-49), Antp (49, 50), ftz (51-53), odd (54), and psq (55) test utilisant un jeu de contrôle de 19 CRM actifs dans le dévelop. embryonnaire de la drosophile Berman et al. - Results (4/4) Berman et al. - épilogue Genome Biology (2004): test systématique de 37 enhancers prédits: 15 3? 19 Fig. 4. Identification of a novel enhancer controlling posterior expression of giant. (A) Cluster of binding sites found between 2.9 Kb and 1.8 Kb upstream of giant. The DNA segment surrounding the cluster (labeled "posterior enhancer") was cloned into a lacz fusion construct and introduced into the genome via germline transformation as described in Materials and Methods. (B and C) Expression of giant in syncitial blastoderm stage embryos as determined by RNA in situ hybridization. B shows a wild-type embryo, and C shows a Kr1/Kr1 embryo lacking Krüppel (Kr) function. Without repression by Kr, the anterior border of the posterior expression domain shifts anteriorly. (D and E) Expression of lac Z in embryos containing construct from A. D shows a wild-type embryo, and E shows a Kr1/Kr1 embryo. Expression of the lacz construct in the mutant embryo shows similar expansion to that seen in gt. est-ce qu'on peut distinguer les "bons" des "mauvais"??

21 81 82 Critère le plus discriminant densité de sites alignés et préservés Conservation des sites de fixation des FT Conservation des sites de fixation des FT Les sites de fixations des facteurs de transcription sont généralement conservés. différents types de conservation des TFBS % identité % identité Seq A Seq A Seq B Seq B "Aligné" "Conservé"

22 85 86 homme/poulet homme Lenhard et al (2003) Point de départ: alignement de deux régions orthologues (promoter du gène de la beta-globin chez l'homme) homme/macaque homme/souris Calcul de la conservation dans une fenêtre glissante (taille fixée par l'utilisateur). Recherche de sites à l'aide de PWM, avec un seuil fixé par l'utilisateur; les matrices sont choisies au sein d'une base de donnée libre (Jaspar) ou peuvent être entrées par l'utilisateur. Seuls les sites retrouvés dans les régions fortement conservées (seuil fixé par l'utilisateur) sont retenus. 87 homme/macaque homme/souris 88 homme/poulet homme homme/vache homme/vache Jeu de contrôle pour tester la méthode

23 89 Figure 2. The impact of phylogenetic footprinting analysis. Both (a-c) a high-quality set (14 genes and 40 verified sites), and (d-f) a larger collection of promoters (57 genes and 110 sites, from the TRANSFAC database were analyzed. (a,d) Comparison of the selectivity (defined as the average number of predictions per 100 bp, using all models) between orthologous and single-sequence analysis modes. (b,e) Comparison of the sensitivity (the portion of 40 or 110 verified sites, respectively, that are detected with the given setting) between orthologous and singlesequence analysis modes. (c,f) Ratios of the number of sites detected in single-sequence mode to the number detected in orthologous-sequence mode; the pair: single-sequence ratios are displayed for both sensitivity (detected verified sites) and selectivity (all predicted sites) Choix de d'espèces à comparer Phylogenetic shadowing: comparaison de multiples espèces proches Phylogenetic shadowing Phylogenetic footprinting Trop proches: temps d'évolution trop court pour distinguer évolution neutre/contrainte Distance optimale: homme/souris (~ 60 Mannées) Outils d'alignement globaux: Slagan (tient compte des réarrangments chromosomiques) BLASTz browser de genome UCSC, Vista Proba de mutation = pt Proba de mutation = pn p = probabilité de mutation par unité de temps Likelihood of mutation (log) [ Bofelli et al. Science, 2003] Comment chercher un élément fonctionnel spécifique aux primates? N espèces T

24 93 Empreintes phylogénétiques (phylogenetic footprinting) Séquences ultra-conservées humaines ~ 3% du génome humain est codant ~ 5% du génome humain est sous pression de sélection conservé? ARX: homeobox gene, development of CNS mrna introns intergenic exonic? 100 Conservation plus forte que les séquences codantes close to/in genes involved in - developmental processes - regulation of transcription Conservation > Function POLA: DNA polymerase alpha subunit Probabilité d'observé un uc dans une séquence sous évolution neutre: P< 1e [Bejerano et al., Science:304(2004)] fonctionnel Exemple d'éléments uc 481 segments > 200 bp ayant 100% d'identité dans des régions orthologues homme/souris/rat : éléments ultra conservés (uc) test de 167 uc chez homme/souris 67 (=45%) ont une activité enhancer positive Conservation extrême vs. ultraconservation? [Penacchio et al., Nature (2006)] [Visel et al., Nature Genetics (2008)]

(quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu.

(quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu. (quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu.fr -1Carl Herrmann - M2 "analyse de réseaux biologiques"

Plus en détail

Les bases de données transcriptionnelles en ligne

Les bases de données transcriptionnelles en ligne Les bases de données transcriptionnelles en ligne Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription

Plus en détail

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité? TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher

Plus en détail

Les propriétés physicochimiques de l ADN Structure des génomes La chromatine

Les propriétés physicochimiques de l ADN Structure des génomes La chromatine Cours de Biologie Moléculaire L2S3 Structure de l ADN Organisation des génomes 2ème cours (1h30) Les propriétés physicochimiques de l ADN Structure des génomes La chromatine L ADN est chargé négativement

Plus en détail

Plan. Rappel : vision classique de la régulation. Nouvelles possibilités à l ère postgénomique

Plan. Rappel : vision classique de la régulation. Nouvelles possibilités à l ère postgénomique Régulation de l expression des gènes O. Lecompte Laboratoire de Bioinformatique et Génomique Intégratives - IGBMC odile.lecompte@igbmc. fr Plan Rappel : vision classique de la régulation Nouvelles possibilités

Plus en détail

Algorithmes pour la comparaison de séquences II

Algorithmes pour la comparaison de séquences II Algorithmes pour la comparaison de séquences II Hélène TOUZET touzet@lifl.fr Equipe Bioinfo Master recherche informatique www.lifl.fr/~touzet/masterrecherche.html Pourquoi comparer des séquences? Puisque

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

BIO6: Bioinformatique appliquée Correction du TD3

BIO6: Bioinformatique appliquée Correction du TD3 BIO6: Bioinformatique appliquée Correction du TD3 Exercice 1 : programmation dynamique voir le site web indiqué dans le TD pour corriger l'exercice Exercice 2 : similarité de séquence et distance évolutive

Plus en détail

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013 PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF Ianis Lallemand, 21 janvier 2013 APPRENTISSAGE INTERACTIF definition Contours encore assez flous dans le champ de l apprentissage automatique. Néanmoins,

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

De la biologie molécualire à la génomique

De la biologie molécualire à la génomique De la biologie molécualire à la génomique Pierre Neuvial École Nationale de la Statistique et de l Administration Économique Méthodes statistiques pour la biologie Plan du cours 1 Introduction à la biologie

Plus en détail

RiboAmp RNA Amplification Kit

RiboAmp RNA Amplification Kit RiboAmp RNA Amplification Kit Révèle des variations d expression entre types cellulaires Une analyse précise de l expression de gène nécessite de travailler sur un type spécifique de cellules sans interférence

Plus en détail

Elodie Darbo. To cite this version: HAL Id: tel-00644865 https://tel.archives-ouvertes.fr/tel-00644865v1

Elodie Darbo. To cite this version: HAL Id: tel-00644865 https://tel.archives-ouvertes.fr/tel-00644865v1 Découverte d éléments cis-régulateurs impliqués dans l activation transcriptionnelle du génome zygotique dans l embryon précoce de Drosophila melanogaster Elodie Darbo To cite this version: Elodie Darbo.

Plus en détail

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Biodiversité fongique Biodiversité: diversité spécifique d une communauté écologique, correspondant au nombre d espèces et à leur

Plus en détail

Corrigé du TD1. Exercice 1:

Corrigé du TD1. Exercice 1: Corrigé du TD1 Exercice 1: le but était d'aligner des séquences à la main et de compter les substitutions entre acides aminés observées. Le résultat se trouve à cette adresse: http://tagc.univ-mrs.fr/herrmann/bio6/displaymatrix.php

Plus en détail

Annotation in silico de séquences biologiques

Annotation in silico de séquences biologiques Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique

Plus en détail

Lancer FASTA et BLAST en ligne de commande

Lancer FASTA et BLAST en ligne de commande Lancer FASTA et BLAST en ligne de commande V.2006.1 http://www.esil.univ-mrs.fr/~dgaut/cours Daniel Gautheret ESIL, Université de la Méditerranée Fasta Article original: Lipman and Pearson (1985) Science

Plus en détail

Les microarrays: technologie pour interroger le génome

Les microarrays: technologie pour interroger le génome Les microarrays: technologie pour interroger le génome Patrick DESCOMBES patrick.descombes@frontiers-in-genetics.org Plate forme génomique NCCR Frontiers in Genetics Université de Genève http://genomics.frontiers-in-genetics.org

Plus en détail

Modélisation de la structure 3D des protéines

Modélisation de la structure 3D des protéines Modélisation de la structure 3D des protéines We are drowning in data and starving for knowledge -R.D. Roger Unité Mathématique Informatique et Génome Séminaire AGENAE, Seignosse-le-Pénon, 20-21 mai 2003

Plus en détail

MAT 2377 Solutions to the Mi-term

MAT 2377 Solutions to the Mi-term MAT 2377 Solutions to the Mi-term Tuesday June 16 15 Time: 70 minutes Student Number: Name: Professor M. Alvo This is an open book exam. Standard calculators are permitted. Answer all questions. Place

Plus en détail

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine?

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine? 1. L ADN et l information génétique l ADN l information génétique est contenue dans l ADN (ADN) (ARN) 1 2 A G T C U comment fait-on une protéine? traduction l information génétique est organisée par triplets

Plus en détail

Le monde des bio-puces

Le monde des bio-puces Le monde des bio-puces D1 Le «dogme central» de la biologie moléculaire Transcription Epissage Traduction ADN ARNpm ARNm Protéines Génome Transcriptome Protéome D2 Puces à ADN Techniques de génomique fonctionnelle

Plus en détail

Comparaison et alignement de séquences 2

Comparaison et alignement de séquences 2 Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Modélisation coalescente pour la détection précoce d un cancer

Modélisation coalescente pour la détection précoce d un cancer Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1 Introduction

Plus en détail

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA Amplification spécifique Détection spécifique Clonage dans des vecteurs Amplification in vitro PCR Hybridation moléculaire - hôte cellulaire

Plus en détail

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool)

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) A A C T G G T A A C C G A G C T A C G G T C C G Algorithme de Blast (version 1) (Altschul et

Plus en détail

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007 ED Biologie moléculaire E. Turpin J. Lehmann-Che 5-6 novembre 2007 PCR 1983: Kary Mullis Amplification in vitro par une méthode enzymatique d'un fragmentd'adn en présence de deux oligonucléotides spécifiques

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

Le contrôle qualité sur les données fastq

Le contrôle qualité sur les données fastq Le contrôle qualité sur les données fastq TP detection exome Plan Théorie 1: le format FastQ et l'encodage des qualités Session pratique 1: conversion des qualités (fichier illumina.fastq) Théorie 2: le

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Modèles de Markov et bases de données Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale

Plus en détail

Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg

Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire

Plus en détail

TD de Biologie Moléculaire : Etude de la régulation de la Transferrine

TD de Biologie Moléculaire : Etude de la régulation de la Transferrine UE BIO12 TD2 (Transferrine) Année 2008-2009 Corinne MAUREL-ZAFFRAN L2 SV TD de Biologie Moléculaire : Etude de la régulation de la Transferrine La figure 1 vous rappelle la régulation de l expression de

Plus en détail

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype.

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Les maladies génétiques comme la drépanocytose ou l'albinisme sont liées à des modifications du génotype des individus

Plus en détail

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years.

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years. Linja Game Rules 2 players Ages 8+ Published under license from FoxMind Games NV, by: FoxMind Games BV Stadhouderskade 125hs Amsterdam, The Netherlands Distribution in North America: FoxMind USA 2710 Thomes

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

RNAseq et NGS. Adriana Alberti Karine Labadie

RNAseq et NGS. Adriana Alberti Karine Labadie RNAseq et NGS Séquençage et Diversité LES ORGANISMES EUCARYOTES animaux plantes champignons protistes BACTERIES ARCHEES VIRUS METAGENOMES LES SOURCES ADN GENOMIQUE ARN / cdna AMPLICONS BACs ET FOSMIDES

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

FOUILLE DE TEXTES Méthodes et enjeux

FOUILLE DE TEXTES Méthodes et enjeux FOUILLE DE TEXTES Méthodes et enjeux 23 mars 2007 Adeline Nazarenko Laboratoire d Informatique de Paris-Nord UMR7030 Université Paris 13 & CNRS adeline.nazarenko@lipn.univ-paris13.fr Plan Applications

Plus en détail

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000 Nadia El-Mabrouk DIRO, Université de Montréal Qu est-ce que la Bioinformatique? Qu est-ce que la Bio-informatique? Champs multi-disciplinaire

Plus en détail

Objectif : identifier la mutation responsable de la maladie parmi les millions de polymorphisme.

Objectif : identifier la mutation responsable de la maladie parmi les millions de polymorphisme. Identification de gènes morbides Analyses mutationnelles Maladies monogéniques Objectif : identifier la mutation responsable de la maladie parmi les millions de polymorphisme. Plan : Variations du nombre

Plus en détail

PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE

PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE Définitions généralités Quelques chiffres 46 chromosomes 22 paires d autosomes (n=44) 1 paire de gonosomes (n=2) : XX/F et XY/H 300 bandes cytogénétiques =

Plus en détail

Introduction à la bioinformatique

Introduction à la bioinformatique Faculté des Sciences - Rabat Laboratoire de Microbiologie et Biologie Moléculaire -------------------------------------- Université Mohamed V - Agdal Faculté des Sciences B.P. 1014 - Rabat - MAROC TD Biologie

Plus en détail

Structure de l Opéron Tryptophane

Structure de l Opéron Tryptophane Régulation de la transcription (procaryote) Structure de l Opéron Tryptophane Opéron anabolique 5 gènes de structure nécessaires à la synthèse du tryptophane Trp Trp Trp Trp Trp 1 Régulation de la transcription

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION

PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION DISS. ETH NO. 21505 PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by MARIA DERKACHEVA Master of Biology (Honours), Saint-Petersburg

Plus en détail

Apprentissage d automates sur les protéines

Apprentissage d automates sur les protéines Apprentissage d automates sur les protéines Approche par fusion de fragments significativement similaires (Jobim 04) François Coste, Goulven Kerbellec, Boris Idmont, Daniel Fredouille Christian Delamarche

Plus en détail

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Promotion of bio-methane and its market development through local and regional partnerships. A project under the Intelligent Energy Europe programme

Promotion of bio-methane and its market development through local and regional partnerships. A project under the Intelligent Energy Europe programme Promotion of bio-methane and its market development through local and regional partnerships A project under the Intelligent Energy Europe programme Contract Number: IEE/10/130 Deliverable Reference: W.P.2.1.3

Plus en détail

Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree

Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree CANADA CONSOLIDATION CODIFICATION Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree Oats Autorisation de mise en marché d avoine sans gluten et d aliments contenant de l avoine

Plus en détail

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits PROSITE banque de motifs et de profils caractéristiques de domaines ou de

Plus en détail

Plateforme de Recherche de Mutations

Plateforme de Recherche de Mutations Plateforme de Recherche de Mutations Jean-Marc Aury contact: pfm@genoscope.cns.fr 29 janvier 2009 Introduction Présentation des données produites par le GSFLX : type, qualité, Méthodes de détection de

Plus en détail

TP 5 Enquête sur les maladies héréditaires - III

TP 5 Enquête sur les maladies héréditaires - III TP 5 Enquête sur les maladies héréditaires - III Anémie Falciforme [Sickle-Cell Anemia] Partie 1 Qu est-ce que l anémie falciforme? L'anémie falciforme (sickle cell anemia) est une maladie génétique qui

Plus en détail

Kit d extraction PicoPure RNA

Kit d extraction PicoPure RNA Isoler des ARN même à partir d une cellule Le kit d extraction PicoPure RNA a été développé pour obtenir une haute qualité des ARNs totaux à partir d un minimum de dix cellules. Le haut rendement obtenu

Plus en détail

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques Atelier 5/11/2013 Structure de la chromatine et marques épigénétiques La chromatine ADN ADN + Histones = Nucleosome ADN + Protéines + ARNs = Chromatine Niveau extrême de condensation = Chromosome métaphasique

Plus en détail

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Electromagnetic compatibility (EMC) Part 4-3: Testing and measurement techniques Radiated, radio-frequency, electromagnetic field immunity test INTERPRETATION

Plus en détail

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014)

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014) Prédiction de gènes Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes Equipe Bonsai (2014) La localisation des gènes C'est la première étape pour interpréter

Plus en détail

Université du Québec à Montréal

Université du Québec à Montréal RECUEIL D EXERCICES DE BICHIMIE 6. Les acides nucléiques 6.2. Réplication, transcription et traduction P P P CH 2 H N H N N NH NH 2 Université du Québec à Montréal 6.2. Réplication, transcription et traduction

Plus en détail

ENSE3 - API/CSPI et Master Automatique - 2008/2009

ENSE3 - API/CSPI et Master Automatique - 2008/2009 ENSE3 - API/CSPI et Master Automatique - 28/29 DS Commande robuste - - 19 janvier 29 Nom Prénom Signature ATTENTION: Mettre votre nom et répondre directement sur les feuilles de l énoncé. Justifiez vos

Plus en détail

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast Bioinformatique appliquée Cours 4 BLAST idée lire un résultat de Blast la famille Blast -1- "quelle est la similarité entre ces 2 séquences? et donc: est-ce que ces deux séquences sont homologues?" "existe-t-il

Plus en détail

Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014

Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014 Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014 Exercice 1 (4,5 points) 1. Donner la définition de l acronyme BLAST. (0,5 pt) : Basic Local Alignment Search Tool 2. Expliquer les principes

Plus en détail

TP BIOINFORMATIQUE Bases de Données relationnelles

TP BIOINFORMATIQUE Bases de Données relationnelles TP BIOINFORMATIQUE Bases de Données relationnelles Objectif : Construire et utiliser une base de données relationnelle simple. Déroulement : Ce TP se déroulera sur 2 séances. 1. Modélisation simplifiée

Plus en détail

Annotation de protéines

Annotation de protéines JS Varré Université Lille 1 jean-stephane.varre@lifl.fr http://www.lifl.fr/~varre jean-stephane.varre@lifl.fr 1 / Pourquoi faire de l annotation automatique de protéines? Il est difficile de trouver expérimentalement

Plus en détail

1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE

1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE Liste d articles pour exercices EPSC à télécharger! BiolMol 2-1 1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE 1.1. Les acides nucléiques 1.1.1. Structure et expression des acides nucléiques 1.1.2. Réplication

Plus en détail

Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...)

Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...) Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...) Thomas Schiex, Patricia Thébault, Daniel Kahn INRA, Toulouse Résumé Les génomes procaryotes GC-riches

Plus en détail

PROTOCOLE DE DESSIN DES OLIGONUCLEOTIDES LONGS POUR PUCES A ADN. Sommaire

PROTOCOLE DE DESSIN DES OLIGONUCLEOTIDES LONGS POUR PUCES A ADN. Sommaire Sommaire 1. PRINCIPE DE FONCTIONNEMENT:... 2 2. PRE-REQUIS AVANT LE DESSIN DES OLIGONUCLEOTIDES:... 3 2.1 Installation du logiciel OligoArray sur PC:... 3 2.2 Installation du logiciel OligoArray sur Mac:...

Plus en détail

!! " #$%&! "#$ ' "! $ # &" $. / 01 / # $! "#$ %&$ # &" $. / 01 / # $! "#$ ( ) *) +, $ # &" $. / 01 / # $!! " #$%&' &!! " ( )* ( &! "#$ ' "! $ # &" $. / 01 / # $! "#$ %&$ # &" $. / 01 / # $! "#$ ( ) *)

Plus en détail

Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi

Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi Des épidémies, des choix à faire.. wikipedia apsnet.org Pour réduire les traitements phytosanitaires Trouver

Plus en détail

GM- Support de l'information génétique ; structure et fonction du génome. Support de l'information génétique ; structure et fonction du génome

GM- Support de l'information génétique ; structure et fonction du génome. Support de l'information génétique ; structure et fonction du génome Mercredi 9 octobre ABECASSIS Anna L2 GM Pr Beroud 16 pages Support de l'information génétique ; structure et fonction du génome Plan A. Des gènes aux protéines I. Structure de l'adn II. Structure des gènes

Plus en détail

Alignements multiples

Alignements multiples Alignements multiples Informatique Génomique - Master 1 Guillaume Blin IGM-LabInfo UMR 8049, Bureau 4B066 Université de Marne La Vallée gblin@univ-mlv.fr http://igm.univ-mlv.fr/ gblin 2007-08 Plan C est

Plus en détail

Master 1 Biologie Santé UE Expression des génomes et transcriptomique. Sujet de : Hélène Dauchel Durée : 2h

Master 1 Biologie Santé UE Expression des génomes et transcriptomique. Sujet de : Hélène Dauchel Durée : 2h Master 1 Biologie Santé UE Expression des génomes et transcriptomique Sujet de : Hélène Dauchel Durée : 2h ****** Les trois questions sont à traitées, elles sont indépendantes : Question 1 : 4 points,

Plus en détail

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire LA P.C.R. Polymerase Chain Reaction "chercher une aiguille dans une meule de foin"? Chercher à repérer un gène particulier

Plus en détail

Examen de Génomique et Protéomique Fonctionnelle M2 BBSG (Mastères Recherche et Pro) 2 février 2006 Durée 3h. Partie1. Génomique fonctionnelle

Examen de Génomique et Protéomique Fonctionnelle M2 BBSG (Mastères Recherche et Pro) 2 février 2006 Durée 3h. Partie1. Génomique fonctionnelle Examen de Génomique et Protéomique Fonctionnelle M2 BBSG (Mastères Recherche et Pro) 2 février 2006 Durée 3h L examen comporte deux parties, l une axée sur la génomique fonctionnelle et l autre sur la

Plus en détail

Quelques termes-clef de biologie moléculaire et leur définition

Quelques termes-clef de biologie moléculaire et leur définition Acide aminé (AA) Quelques termes-clef de biologie moléculaire et leur définition Isabelle Quinkal INRIA Rhône-Alpes Septembre 2003 Petite molécule dont l enchaînement compose les protéines - on dit qu

Plus en détail

CHAPITRE III : LE NOYAU INTERPHASIQUE ET LE CYCLE CELLULAIRE

CHAPITRE III : LE NOYAU INTERPHASIQUE ET LE CYCLE CELLULAIRE CHAPITRE III : LE NOYAU INTERPHASIQUE ET LE CYCLE CELLULAIRE III.1 LE NOYAU INTERPHASIQUE III.1. 1 STRUCTURE L organite le plus proéminent de la cellule est le noyau. Il est le centre vital de la cellule.

Plus en détail

(Programme de formation pour les parents ~ Training program for parents)

(Programme de formation pour les parents ~ Training program for parents) PODUM-INFO-ACTION (PIA) La «carte routière» pour les parents, sur l éducation en langue française en Ontario A «road map» for parents, on French-language education in Ontario (Programme de formation pour

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Stuxnet et Duqu : une histoire de codes malveillants mutants

Stuxnet et Duqu : une histoire de codes malveillants mutants Stuxnet et Duqu : une histoire de codes malveillants mutants Jean-Yves Marion LORIA Université de Lorraine Jean-Yves.Marion@loria.fr Laboratoire de Haute Sécurité (LHS) 1 Stuxnet Ingénierie Sociale Communication

Plus en détail

FLUX D INFORMATION GÉNÉTIQUE

FLUX D INFORMATION GÉNÉTIQUE FLUX D INFORMATION GÉNÉTIQUE 2 MÉCANISME GÉNÉRAL DE LA TRANSCRIPTION La transcription est une biosynthèse d ARN qui repose, comme celle de l ADN, sur la complémentarité des bases. Ce processus présente

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Expression des gènes Comparatif entre procaryotes et eucaryotes

Expression des gènes Comparatif entre procaryotes et eucaryotes Comparaison procaryotes/ 2TSbc Expression des gènes Comparatif entre procaryotes et eucaryotes La majeure partie des connaissances de biologie moléculaire a d'abord débuté par l'étude des phénomènes chez

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Photo Manipulations in the 2011 CES

Photo Manipulations in the 2011 CES Canadian Election Study Methodological Briefs Methodological Brief #2013-A Photo Manipulations in the 2011 CES Patrick Fournier, Université de Montréal Stuart Soroka, McGill University Fred Cutler, University

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

ALIGNEMENT PLUS RAPIDE

ALIGNEMENT PLUS RAPIDE ALIGNEMENT PLUS RAPIDE 1. méthodes heuristiques : hachage, arbres de suffixe, PD limitée (taille totale de trous bornée) 2. PD éparse (pour sous-séquence commune ou chaînage en alignement global heuristique)

Plus en détail

Licence-Master Bioinformatique Contrôle continu 06/03/06. Correction

Licence-Master Bioinformatique Contrôle continu 06/03/06. Correction Licence-Master Bioinformatique Contrôle continu 06/03/06 Correction -«Vraies» questions de cours -«fausses» questions de cours: questions pour voir si pouviez imaginer une réponse crédible qui n était

Plus en détail

AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien.

AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien. AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien. Thomas DERRIEN CNRS-UMR6061 Génétique et Développement Université

Plus en détail

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM TD TECHNIQUES DE CODAGE ET DE COMPRESSION. LANGAGE / CODAGE / VALENCE.. Rappels Toute fraction intelligible d un message est constituée de symboles. Le langage est l ensemble de ces symboles. Un codage

Plus en détail

Alignement de séquences (2/2)

Alignement de séquences (2/2) Alignement de séquences (2/2) Observation à l aide de l outil graphique : le dotplot. Simple, visuel, Très informatif : Permet de repérer une similarité globale Permet de repérer des similarités locales

Plus en détail

Classification. Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent

Classification. Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent Classification Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent La classification a pour objet de regrouper des données en classes possédant des caractéristiques similaires. La

Plus en détail

Bioinformatique BTV Alignement de Séquences

Bioinformatique BTV Alignement de Séquences 1 / 60 Bioinformatique BTV Alignement de Séquences Jean-Michel Richer jean-michel.richer@univ-angers.fr http://www.info.univ-angers.fr/pub/richer Juillet 2008 2 / 60 Plan Plan 1 Rappels 2 Alignement multiple

Plus en détail

Conception assistée par ordinateur de molécules thérapeutiques

Conception assistée par ordinateur de molécules thérapeutiques Conception assistée par ordinateur de molécules thérapeutiques D. Gilis Bioinformatique génomique et structurale Faculté des sciences appliquées Université Libre de Bruxelles Objectif: illustrer en quoi

Plus en détail

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Lhouari Nourine 1 1 Université Blaise Pascal, CNRS, LIMOS, France SeqBio 2012 Marne la vallée, France 2.

Plus en détail

Différences entre Homme et singes?

Différences entre Homme et singes? Différences entre Homme et singes? Différences entre Homme et singes? Apparition de l œil? Apparition du vol? Apparition des hémoglobines? Molécule d hémoglobine HEME Chaîne polypeptidique de type 2 Chaîne

Plus en détail

Résultats : Partie III

Résultats : Partie III Résultats : Partie III Analyse des rôles respectifs de RhoA et RhoC dans le phénotype des cellules d adénocarcinome prostatique Introduction Parmi les protéines du sous-groupe Rho, RhoC a été décrit comme

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE. CHAPITRE 1 : la relation entre ADN et protéines

THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE. CHAPITRE 1 : la relation entre ADN et protéines THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE CHAPITRE 1 : la relation entre ADN et protéines Les caractères d un individu dépendent de plusieurs facteurs : certains dépendent des caractères présents dans la famille

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail