Approches bioinformatiques de la cis-régulation

Dimension: px
Commencer à balayer dès la page:

Download "Approches bioinformatiques de la cis-régulation"

Transcription

1 2 Plan Approches bioinformatiques de la cis-régulation Stratégies de découvertes de motifs nucléiques Carl Herrmann TAGC & Univ. Méditerranée - Marseille Rappels sur les mécanismes de régulation transcriptionnelle Les grandes stratégies de recherche et découverte de motifs Combinaisons de motifs Empreintes phylogénétiques Master M1 BBSG année Régulation transcriptionnelle chez les eucaryotes pluricellulaires 4 Quelques éléments cis-régulateurs (CRM) chez la Drosophile ftz zebra element eve stripes 2 & 3+7 elements repression site cluster stripe 2 stripes rho lateral neurectoderm stripe element kni posterior element Ubx PBX element Source: Sandelin & Wasserman (2004) ps 6,8,10,12 stripes blastoderm + Mesoderm at GBE

2 5 Interactions Protéine-ADN - Motif HTH 6 Le motif Doigt de Zinc Cys His C2H2 domaine de liaison à l'adn Source: ftp.expasy.ch/databases/swiss-3dimage 7 Fixation d une protéine à plusieurs motifs doigts de zinc sur l ADN 8 Motifs d interaction protéine-adn: exemple des doigts à zinc enroulement de plusieurs motifs doigts à zinc sur le sillon majeur Source: Isalan et al., Biochemistry (1998) 37:

3 9 10 Identification expérimentale des sites régulateurs FootPrinting Caractéristiques des séquences cis-régulatrices Hautes résolution/fiabilité mais petite échelle! SELEX Mutagénèse dirigée Généralement courtes (de ± 5 à ± 25 bp) Généralement présentes en plusieurs exemplaires Généralement conservées évolutivement Simple hybride Souvent très variables Résolution/fiabilité plus faibles mais grande échelle! X-ChIP Protein Binding Arrays Alphabet limité (A,C,G,T) Localisées en 5', 3', introns, parfois très loin du gène cible Actuellement: < 500 signatures connues pour l'homme Banques de données: Transfac, JASPAR 12 Exemple de motif: Gcn4 2 situations possibles Je connais les facteurs de transcription qui m'intéressent Où se trouvent les sites de fixation potentiels? Quels sont les gènes cible potentiels? recherche de sites - chaines de caractères - matrices poids-position (activateur transcriptionnel des gènes de biosynthèse des acides aminés chez la levure) 5 TCTCTCTCCACGGCTAATTAGGTGATCATGAAAAAATGAAAAATTCATGAGAAAAGAGTCAGACATCGAAACATACAT J'ai des gènes dont je soupçonne qu'ils sont co-régulés ARO4 5 CACATCCAACGAATCACCTCACCGTTATCGTGACTCACTTTCTTTCGCATCGCCGAAGTGCCATAAAAAATATTTTTT ILV6 5 TGCGAACAAAAGAGTCATTACAACGAGGAAATAGAAGAAAATGAAAAATTTTCGACAAAATGTATAGTCATTTCTATC THR4 5 ACAAAGGTACCTTCCTGGCCAATCTCACAGATTTAATATAGTAAATTGTCATGCATATGACTCATCCCGAACATGAAA ARO1 5 ATTGATTGACTCATTTTCCTCTGACTACTACCAGTTCAAAATGTTAGAGAAAAATAGAAAAGCAGAAAAAATAAATAA HOM2 5 GGCGCCACAGTCCGCGTTTGGTTATCCGGCTGACTCATTCTGACTCTTTTTTGGAAAGTGTGGCATGTGCTTCACACA PRO3 Existe-t-il des motifs communs dans les séquences non-codantes proches? AAAAGAGTCA AAATGACTCA AAGTGAGTCA AAAAGAGTCA GGATGAGTCA AAATGAGTCA GAATGAGTCA AAAAGAGTCA découverte de motifs - énumération de motifs - maximisation de l'espérance (MEME, Gibbs Sampler) HIS7 5 ATGGCAGAATCACTTTAAAACGTGGCCCCACCCGCTGCACCCTGTGCATTTTGTACGTTACTGCGAAATGACTCAACG Alignement multiple (Orientation!) Adapté à partir de JvH

4 13 14 Recherche de motifs à l aide de chaînes de caractères Code ambigue IUPAC pour les nucléotides Deux approches Recherche d occurrence (exactes ou avec un nombre maximum de mésapariements, d insertion, ou de délétion) de chaînes de caractères représentants des variants de sites de fixation pour un facteur de transcription donné A C G T R Y W S M K H B V D N G A [GC] T C A Définition d une expression régulière ambiguë (code IUPAC) -> recherche d occurrences exactes ou approchées Evaluation statistique du nombre d occurrence trouvée (statistiques binomiales) Programme Dna-pattern de Jacques van Helden (ULB, Belgique); 15. Sites cis-régulateurs: expressions régulières. Site Name UASp2 Site D UAS Proximal UASp3 Site C Site A consensus Sequence ---actcacacacgtgggactagc---tttccagcacgtggggcgga-----ttatggcacgtgcgaataa-gtgatcgctgcacgtggcccga----taatttggcatgtgcgatctc------acgtccacgtggaactat------tttatcacgtgacacttttt gcacgtgggac----- Affinity high high high high low low low high-low PHO5 PHO84 PHO84 PHO8 group 2 UASp1 Site E Site B Distal consensus --TAAATTAGCACGTTTTCGC AATACGCACGTTTTTAATCTA -----TTACGCACGTTGGTGCTG----TTACCCGCACGCTTAATAT cgCACGTTt medium medium low low med-low Degenerate consensus Adenine Cytosine Guanine Thymine purine pyrimidine Weak hydrogen bonding Strong hydrogen bonding amino group at common position Keto group at common position not G not A not T not C any 16 Sites régulateurs: matrices de fréquences Sites de fixations pour le facteur de transcription Pho4p de la levure Gene PHO5 PHO84 PHO81 PHO8 PHO5 PHO84 PHO84 group 1 A C G T A or G C or T A or T G or C A or C G or T A, C or T G, C or T G, A, C G, A or T G, A, C or T Matrice donnant les fréquences des bases à chaque position pour un alignement de sites reconnus par le facteur de transcription Pho4 chez la levure (S. cerevisiae) GCACGTKKk (Source : Oshima et al.,1996) Source: TRANSFAC, Matrice F$PG04_01

5 17 Matrices pondérées 18 Contenu en information Site reconnu par le facteur Pho4p de la levure ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i fi,j fréquence relative du résidu i à la position j ni,j nombre de résidus i à la position j A taille de l'alphabet (= 4: A,T,G,C) pi probabilité à priori du résidu i k pseudo-poids (arbitraire, 1 ici) fi,j fréquence relative du résidu i à la position j f'i,j fréquence corrigée du résidu i à la position j k pseudo-poids (arbitraire, 1 ici) f'i,j fréquence corrigée du résidu i à la position j Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée La séquence est parcourue avec la matrice, et un score est calculé pour chaque position Le plus haut score reflète la plus grande probabilité d'avoir un site fonctionnel Problème de la définition du seuil et de l'évaluation statistique Source: Hertz & Stormo (1999) Recherche d'un motif avec une matrice pondérée

6 Interprétation du score Ws Interprétation du score Ws (matching weight) Ws Poids du segment de séquence s k position à l'intérieur de l'alignement rk résidu à la position k du segment de séquence prk Probabilité à priori du résidu rk frkk Probabilité à priori du résidu rk à la position k de la matrice (poids de l'alignement) L'alignement entre une matrice et un segment de séquence est la somme des poids des résidus alignés Ceci est équivalent au logarithme des ratios entre: - produit des matrices de fréquences (1) - produit des proba. à priori des résidus trouvés dans le segment de séquence (2) terme (1) = probabilité que le segment de séquence corresponde au motif décrit par la matrice terme (2) = probabilité que le segment de séquence correponde au modèle de fond P(S M) Probabilité du segment de séquence, étant donné la matrice le poids du segment = logarithme du rapport des vraisemblances (segment=motif) / (segment=fond) P(S B) Probabilité du segment de séquence, étant donné le fond (background) Recherche de sites à l'aide d'une matrice consensus 24 Evaluation des outils de recherche de sites (Patser de J. Hertz ; interface www par J. van Helden) Constitution de collections de séquences contrôles: + contenant des sites caractérisés - ne contenant assurément pas de sites - séquences "aléatoires" - séquences "brouillées" Différentes situations: Site correctement reconnu = "vrai positif" Prédiction abusive = "faux positif" Site manqué = "faux négatif" Absence de site correctement prédite = "vrai négatif"

7 25 Compromis lors de la recherche de sites entre: 26 Compromis lors de la recherche de sites Grande sélectivité, faible sensibilité: grande confiance dans les sites prédits nombre de sites reconnus mais beaucoup de sites réels sont manqués Faible sélectivité, grande sensibilité: les sites réels sont noyés dans une mer de faux positifs vrais négatifs Double évaluation: Sélectivité = Nombre vrais positifs/ Nombre total hits vrais positifs Sensibilité = Nombre vrais positifs/ Nombre total sites Total sites = vrais positifs + faux négatifs Total "hits" = vrais positifs + faux positifs faux négatifs 28 Pouvoir discriminant d'une matrice Fortement discriminant Fréquence Non sites Sites Total hits Score Score Raisonnablement discriminant Fréquence Non sites Sites Total hits Score seuil faux positifs score ATGC Faiblement discriminant Non sites Sites Total hits Fréquence Logo (Schneider, 1994) Matrice

8 29 Pertinence de la méthode découverte de motifs Recherche de sites de fixations du facteur de transcription type GARP (Arabidopsis thaliana) données transcriptomiques en amont du gènes TP53 chez homo sapiens... clusters de gènes co-exprimés W. Wassermann: "99% des prédictions de sites sont des faux-positifs..." sont-ils co-régulés? si oui, par quels facteurs de transcription? Importance du modèle de référence Découverte de motifs par énumération d oligonucléotides fréquence des oligo 6 dans toutes les séquences en amont des ORF de S.cerevisae Idée de base: les sites de fixations sont généralement répétés Principe algorithmique On recherche les occurrences de n-mères dans un ensemble de séquences fonctionnellement apparentées On compare le nombre d occurrence obtenue avec un modèlestatistique: soit basé sur la base des fréquences en (poly-)nucléotides dans l ensemble soit sur la base d un ensemble plus grand de séquences de même type (par exemple, toutes les régions amont des gènes) -> mise en évidence nucléotides équiprobables des surreprésentation dans un graphe bi-dimensionnel On évalue statistiquement les motifs trouvés Programmes Helden (ULB, Belgique) oligo-analysis et dyad-analysis de Jacques van

9 Découverte de motifs par maximisation de l'espérance Analogie roux borgne grand gaucher on cherche à maximiser la vraissemblance que les séquences partagent un motif commun plutôt qu'elles ne partagent rien... i.e. on cherche le motif qui maximise cette vraissemblance algorithme "expectation maximization" (EM) algorithme échantillonage de Gibbs roux borgne grand droitier brun borgne grand gaucher 2 approches possibles roux borgne grand droitier roux borgne grand droitier qu'est ce que ces individus ont en commun? qu'est ce qui les distingue LE PLUS d'autres individus? Situation de départ Maximum de vraissemblance on cherche à maximiser la vraissemblance on dispose d'un certain nombre de données X L=log des séquences partageant probablement un motif inconnu (séquences corégulées, séquences orthologues, fragments immunoprécipités,..) i.e. on cherche qui maximise L... cependant ces données sont incomplètes Z on ne sait pas où se situent ces motifs dans les séquences Pr X, Z / Pr X, Z / B... et on ignore un certain nombre de paramètres Pr(X,Z ) : probabilité que les séquences X contiennent un motif commun décrit par Pr(X,Z B) : proba. que les séquences X soient issues d'un modèle de fond (background, i.e. ne contiennent pas le motif ) on ne connait pas la matrice poids-position du motif, on se sait pas combien de fois le motif est présent dans chaque séquence (0, 1)

10 MEME Gibbs sampling matrice poids-position contenu en information fonction F à maximiser alignement Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) on cherche à déterminer la matrice qui maximise la probabilité log Pr(X,Z ) si on connaissait Z (la position), on connaitrait... IGF1_PIG IGF1_CANFA IGF-1b IGF2_HORSE INS_AOTTR INS_PANTR INS_CHIBR ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK ALQFVCGDRGFYFNKPTGYGSSSRRAPQTGIVDECCFRSCDLRRLEMYCAP----LKPAK TLQFVCGDRGFYFSRPASR--INRRS--RGIVEECCFRSCDLALLETYCATPAKSERDVS ALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPP--LEGPMQK----RGVVD ALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQK----RGIVE ALYLVCGDRGFFYTPMAXXELEDPQVGQADPGVVPEAGRLQPLALEMTLQX----XGIVD :* :***:***:: :. : ** si on connaissait (la matrice), on connaitrait Z (la position) seq 1 seq 2 seq 3 ALQFVCGDRGFYF ALQFVCGDRGFYF ALQFVCGDRGFYF TLQFVCGDRGFYF ALYLVCGERGFFY ALYLVCGERGFFY ALYLVCGDRGFFY seq localisation du meilleur score avec la matrice

11 Algo. "Espérance-maximisation" (EM) Algo. "Espérance-maximisation" (EM) 2 étapes 2 étapes "Expectation step" Etape 1: on fait comme si on connaissait la matrice, et on calcule la meilleure position Etape 2: on fait comme si on connaissait la position, et on calcule la matrice? Z "Maximization step" Etape 1: on fait comme si on connaissait la matrice, et on estime la meilleure position Etape 2: on fait comme si on connaissait la position, et on estime la matrice chaque étape se nourrit des estimations de l'autre convergence vers un maximum local de Pr(X ) E-step: estimation de vraissemblance E-step: estimation de vraissemblance positions "non-motif" seq i k k+w-1 seq 1 positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? seq 2 proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 seq 3 proba background seq 4 p b k =f b a1 f b a k 1 f b a k w f b al p b k p m k p i k = k pb k pm k courbes des pi(k)

12 M-step: maximisation seq 1 proba MLGHPQRTAR idem pour toutes les positions idem pour toutes les séquences on renormalise les colonnes on recommence le E-step avec la nouvelle matrice on arrête les itérations quand onrajoute 0,085àTenposition1 0,085àRenposition2... proba TRSQRVWLIM onrajoute 0,07àMenposition1 0,07àLenposition2... Maximisation de la vraissemblance A C D E F G H I K L M N P Q R S T V W Y le nombre max. d'itérations est atteint ou les paramètres de la matrice n'évoluent plus. maximum local de Pr(X,Z ) maxima locaux vs globaux? comment choisir la matrice de départ? comment déterminer la largeur W du motif? comment traiter les options oops,zoops,tcm? Maxima locaux/globaux Matrice de départ exemple: séquences contenant 2 motifs l'un très dégénéré l'autre très conservé ACGGCGATCCTAGCTAGGCTAGGCTAAAGATTAGTCGTTGCTTCGATC TTAGGTAGGCTATTTAATCCTTGGGCGCTAGGCTATAAATCCTTCGGCTA GGATCGGCTAGAAATTATCGCACACCATCGTTAGCTGCTTCCACCATAGATC TTAGACTCCGCATAGGATACGCTCGGTGCTTCGCTCTCGATCGATTCGCT 1 CGATCC CTTGGG CCATCG CTCCGC Z1=[5,20,25,6] Pr(X,Z1 1) Pr(X,Z2 2) 2 TGCTTCG TCCTTCG TGCTTCC TGCTTCG le choix de la matrice de départ détermine le type de maxima atteint MEME teste toutes les sous-séquences de longueur W il sélectionne celles qui améliorent le plus Pr(X,Z ) après une itération Z2=[42,43,33,31]

13 Options MEME Échantillonnage de Gibbs oops: chaque séquence contient une occurence du motif zoops: chaque séquence contient 0 ou 1 occurence paramètre supplémentaire: probabilité qu'une séquence contienne un motif on cherche à maximiser Pr(X,Z )/Pr(X,Z B) on utilise un algorithme stochastique (donc non déterministe) tcm: chaque séquence contient un nombre quelconque de motifs non-recouvrants paramètre supplémentaire: proba. que chaque position corresponde à un motif ces paramètres entrent dans la définition de la fonction à maximiser Pr(X,Z ) 2 étapes mise à jour de la matrice échantillonage aléatoire d'une séquence parmi les N Échantillonnage de Gibbs les résultats peuvent varier d'une fois à l'autre, il faut faire tourner l'algorithme plusieurs fois. Échantillonnage de Gibbs Etape 0: initialisation de la matrice + modèle de fond Etape 0: initialisation de la matrice + modèle de fond positions aléatoires N séquences matrice initiale f i, j= fréquence globale de chaque résidu j n i, j b j N B f 0, j = n 0, j b j j k =1 n0, k B

14 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour Etape 2: échantillonage aléatoire sélection aléatoire proba que la position i corresponde à un site le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour à chaque position i, calcul du score Ai= pm i pb i proba que la position i corresponde à un "non-site" E-step: estimation de vraissemblance Échantillonnage de Gibbs positions "non-motif" seq i k k+w-1 Etape 2: échantillonnage aléatoire positions "motif" quelle est la probabilité p(k) que le motif commence à la position k? proba motif p m k =f 1 ak f 2 a k 1 f w ak w 1 proba background p b k =f b a1 f b a k 1 f b a k w f b al p k = p b k p m k k p b k p m k sélection d'un nouveau site avec probabilité proportionnelle à Ai mise à jour de la matrice et du modèle de fond

15 Échantillonnage de Gibbs Échantillonnage de Gibbs Etape 1: mise à jour (2ème itération) contenu en information (en bits) W sélection aléatoire le site de la séquence sélectionnée est retiré de la matrice, qui est mise à jour on itère un nombre fixe de fois J L= i =1 j =1 n i, j log f i,j f 0, j normalisation en fonction du nombre de paramètres de la matrice matrice nucléique, largeur W : 3W matrice protéique, largeur W : 19W LIPP = L N param implémentation pratique: MotifSampler [G Thijs et al., Bioinformatics(2001) vol.17 n.12,] particularité: le modèle de fond utilisation d'un modèle de Markov L P S /Bm =P b1,,b m l =m 1 P bl / b l 1,, bl m m=3 S=ACGGTAGGCTAGGCTAGCTAGGCT fonction F à maximiser P S/ B3 =P ACG P G/ ACG P T / CGG P ACG =P A P C P G

16 implémentation pratique: MotifSampler implémentation pratique: MotifSampler [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] paramètres du modèles de Markov estimés sur les séquences de départ (parfois trop peu) estimés sur un jeu de données indépendant ordre du MM implémentation pratique: MotifSampler Résumé Plusieurs approches pour étudier les mécanismes de régulation transcriptionnelle (cis-régulation): [G. Thijs et al., Bioinformatics(2001) vol.17 n.12,] le modèle de Markov améliore les performances de l'algorithme: 33 séquences (500 pb) de plantes avec motif G-box (cons. CACGTG) comparaison entre MM d'ordre 0 et 3, influence des séquences bruitées vrais positifs faux négatifs Recherche de sites de fixation Découverte de motifs chaînes de caractères ou expressions régulières (code IUPAC) énumération d'oligo-mers, recherche d'un signal statistique matrices poids-position issues de banques de données (Transfac, JASPAR,...); outils: Patser, MotifLocator, MAST, etc... méthodes de maximisation de l'espérance (MEME, échantillonage de Gibbs)

17 Résumé des difficultés majeures Difficultés majeures Où chercher? Comment interpréter/valider les résultats? In silico In vitro In vivo "In phenotypo" CRM drosophile Pr opor tionofnon codingdna 120,00% 100,00% percent 80,00% 60,00% 40,00% 20,00% 0,00% S.cerevisae C.elegans D.m ela nogaster A.thalian a F.rubripes O.sativa G.Bush M.Musculus [link] - 65 [Li et al., Genome Biology, 2007] Recherche de groupes de sites (clusters) Stratégies de recherche et découverte de motifs Réduction de l'espace de recherche (l'histoire du gars qui cherche ses clés) 2 articles + commentaire dans PNAS 99(2), Janvier Berman BP, Nibu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM, Eisen MB (2002). Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc. Natl. Acad. Sci. USA 99: Markstein M, Markstein P, Markstein V, Levine MS (2002 ). Genome-wide analysis of clustered Dorsal binding sites identifies putative target genes in the Drosophila embryo. Proc Natl Acad Sci USA 99: Michelson AM (2002). Deciphering genetic regulatory codes: A challenge for functional genomics. Proc Natl Acad Sci USA 99: zones proches du promoteur - positions relatives spécifiques Filtrage des motifs trouvés par des conditions sur le nombre et le type d occurrences (règles logiques + fenêtres glissantes) Empreinte phylogénétique comparaison de régions non codantes proches de gènes orthologues chez des espèces à bonne distance évolutive (e.g. homme/souris) blocs conservés impliqués dans la régulation transcriptionnelle (?)

18 69 70 Bcd, Nanos Kr, Kni, Gt, Hb,Tll D. melanogaster: de l'embryon à l'adulte Eve En LIFE: The Science of Biology, Purves et al, Source:Wolpertetal.(1998) Idées principales Utilisation d'information biologique supplémentaire sur l'organisation des séquences cis-régulatrices: regroupements fréquents de sites de fixations au sein des promoteurs ou enhancers. 72 Méthodes bioinformatiques Markstein et al. consensus IUPAC de Dl (string search) et une fenêtre glissante. évaluation statistique du nombre d'occurences de Dl dans une fenêtre Markstein et al : Dorsal, impliqué dans la différenciation dorso-ventrale précoce au cours du développement de l'embryon de Drosophile: recherche de deux sites ou plus (haute affinité) dans une fenêtre de 400 ou 1000 pb. Berman et al. : facteurs impliqués dans la différenciation antéro-posterior précoce au cours du développement de l'embryon de Drosophile (modèle de référence) Berman et al. MEME pour générer 5 matrices pour des FT Patser pour rechercher d'autres occurrences des motifs correspondant dans le génome. recherche de groupes de sites (env. 12) pour cinq facteurs (Bcd, Hb, Cad, Kni, Kr) dans une fenêtre de 700 bp. MEME Dans les deux cas, les enhancers identifiés ont été évalués par des constructions transgèniques (enhancer + gène rapporteur) et/ou des hybridation in situ.

19 Markstein et al. - Results (1/4) 73 Fig. 1.. zen and sog expression patterns. Precellular embryos are oriented with anterior to the left and dorsal up. A and C were hybridized with a digoxigenin-labeled zen antisense RNA probe, and B and D were hybridized with a sog probe. The staining patterns were visualized with anti-digoxigenin antibodies and histochemical staining. (A and C) Parasagittal and surface views of the same embryo. (B and D) Different planes of focus through a single embryo. Note that sog RNAs are detected in nuclei (D). (E) Diagram of the zen 5' regulatory region showing distribution of the four Dl binding sites in the VRE. 75 Markstein et al. - Results (3/5) Wt sog expression 6 kb transgene Markstein et al. - Results (2/5) 74 Fig. 2. Distribution of Dl clusters. (A) Frequency of clusters in genome containing a minimum of two, three, or four Dl binding sites in intervals of 1,000 or 400 bp. The Dl sequences searched are represented by the degenerate sequences GGGWWWWCCM and GGGWDWWWCCM, which encode a total of 208 unique sequences. Of the three clusters found to contain four sites in 400 bp, one is associated with zen and another with sog. (B) Statistical analysis of the expected (exp) vs. observed (obs) numbers of clusters with two, three, and four Dl sites found in windows of 1,000 and 400 bp. The number of observed clusters of three and four sites are many standard deviations () from their expected frequencies, suggesting that their occurrence at the observed frequencies is not a random event. See Materials and Methods for details. (C) Distribution of Dl binding sites associated with sog, Ady, and Phm. Illustrated below the sog cluster are the three DNA fragments (sog A, B, and C) that were tested for regulatory activities in transgenic embryos. Berman et al. - Results (1/4) 76 Fig. 1. Distribution of predicted transcription factor binding sites and binding site clusters in the vicinity of eve. (A) Predicted high-affinity (P < ) binding sites for the transcription factors Bcd, Cad, Hb, Kr, and Kni in 1 Mb of genomic sequence surrounding the gene evenskipped (eve) are displayed as colored boxes. Blue boxes in the center of the panel represent positions of annotated exons, with eve highlighted in red. Binding sites and genes shown above the midline map to the forward DNA strand; those below the midline map to the reverse strand. (B) Sites from A that occur in 700-bp windows containing at least 13 predicted binding sites. (C) Expanded view of region containing all clusters in B, with positions of known eve enhancers marked with gray ellipses. 393 bp transgene Fig. 3. The sog lateral stripe enhancer. Wild-type and transgenic embryos are oriented with anterior to the left and dorsal up. A-C were hybridized with a sog antisense RNA probe, and D-I were hybridized with a lacz probe to monitor the activities of different sog-lacz transgenes. (A-C) Endogenous sog expression pattern in precellular (A), gastrulating (B), and elongating (C) embryos. Staining is detected initially in broad lateral stripes (A and B) but is restricted to the mesectoderm during germ band elongation (C). (D-F) sog-lacz transgene that contains a 6-kb region of sog intron 1. Staining is detected in broad lateral stripes before (D) and after (E) cellularization but is restricted to the mesectoderm in elongating embryos (F). The staining pattern is similar to the normal sog expression pattern except that there is progressive loss of staining in the mesectoderm (compare C with F; data not shown). (G-I) sog-lacz transgene that contains a 393-bp fragment from sog intron 1, which encompasses all four high-affinity Dl binding sites. The lacz expression pattern is similar to that obtained with the 6-kb sog DNA fragment except that staining may be somewhat weaker and mottled.

20 Berman et al. Results (2/4) 77 Berman et al. Results (3/4) 78 Fig. 3. Expression patterns of selected genes flanking novel binding site clusters. We examined the expression patterns of 49 genes adjacent to one of the 28 novel binding site clusters described in Table 2 in syncytial and cellular blastoderm embryos (whole mount RNA in situ images are available in Table 2 (which is published as supporting information on the PNAS web site) and on the Berkeley Drosophila Genome Project website (http://www.fruitfly.org/). Eleven of these genes representing 10 clusters had early embryonic expression patterns characteristic of genes regulated by maternal and gap transcription factors and are shown here., References for flanking genes are as follows: gt (25, 30, 37-40), otd (41-43), btd (44, 45), pdm1 (46), pdm2 (46), Dfd (47-49), Antp (49, 50), ftz (51-53), odd (54), and psq (55) test utilisant un jeu de contrôle de 19 CRM actifs dans le dévelop. embryonnaire de la drosophile Berman et al. - Results (4/4) Berman et al. - épilogue Genome Biology (2004): test systématique de 37 enhancers prédits: 15 3? 19 Fig. 4. Identification of a novel enhancer controlling posterior expression of giant. (A) Cluster of binding sites found between 2.9 Kb and 1.8 Kb upstream of giant. The DNA segment surrounding the cluster (labeled "posterior enhancer") was cloned into a lacz fusion construct and introduced into the genome via germline transformation as described in Materials and Methods. (B and C) Expression of giant in syncitial blastoderm stage embryos as determined by RNA in situ hybridization. B shows a wild-type embryo, and C shows a Kr1/Kr1 embryo lacking Krüppel (Kr) function. Without repression by Kr, the anterior border of the posterior expression domain shifts anteriorly. (D and E) Expression of lac Z in embryos containing construct from A. D shows a wild-type embryo, and E shows a Kr1/Kr1 embryo. Expression of the lacz construct in the mutant embryo shows similar expansion to that seen in gt. est-ce qu'on peut distinguer les "bons" des "mauvais"??

21 81 82 Critère le plus discriminant densité de sites alignés et préservés Conservation des sites de fixation des FT Conservation des sites de fixation des FT Les sites de fixations des facteurs de transcription sont généralement conservés. différents types de conservation des TFBS % identité % identité Seq A Seq A Seq B Seq B "Aligné" "Conservé"

22 85 86 homme/poulet homme Lenhard et al (2003) Point de départ: alignement de deux régions orthologues (promoter du gène de la beta-globin chez l'homme) homme/macaque homme/souris Calcul de la conservation dans une fenêtre glissante (taille fixée par l'utilisateur). Recherche de sites à l'aide de PWM, avec un seuil fixé par l'utilisateur; les matrices sont choisies au sein d'une base de donnée libre (Jaspar) ou peuvent être entrées par l'utilisateur. Seuls les sites retrouvés dans les régions fortement conservées (seuil fixé par l'utilisateur) sont retenus. 87 homme/macaque homme/souris 88 homme/poulet homme homme/vache homme/vache Jeu de contrôle pour tester la méthode

23 89 Figure 2. The impact of phylogenetic footprinting analysis. Both (a-c) a high-quality set (14 genes and 40 verified sites), and (d-f) a larger collection of promoters (57 genes and 110 sites, from the TRANSFAC database were analyzed. (a,d) Comparison of the selectivity (defined as the average number of predictions per 100 bp, using all models) between orthologous and single-sequence analysis modes. (b,e) Comparison of the sensitivity (the portion of 40 or 110 verified sites, respectively, that are detected with the given setting) between orthologous and singlesequence analysis modes. (c,f) Ratios of the number of sites detected in single-sequence mode to the number detected in orthologous-sequence mode; the pair: single-sequence ratios are displayed for both sensitivity (detected verified sites) and selectivity (all predicted sites) Choix de d'espèces à comparer Phylogenetic shadowing: comparaison de multiples espèces proches Phylogenetic shadowing Phylogenetic footprinting Trop proches: temps d'évolution trop court pour distinguer évolution neutre/contrainte Distance optimale: homme/souris (~ 60 Mannées) Outils d'alignement globaux: Slagan (tient compte des réarrangments chromosomiques) BLASTz browser de genome UCSC, Vista Proba de mutation = pt Proba de mutation = pn p = probabilité de mutation par unité de temps Likelihood of mutation (log) [ Bofelli et al. Science, 2003] Comment chercher un élément fonctionnel spécifique aux primates? N espèces T

24 93 Empreintes phylogénétiques (phylogenetic footprinting) Séquences ultra-conservées humaines ~ 3% du génome humain est codant ~ 5% du génome humain est sous pression de sélection conservé? ARX: homeobox gene, development of CNS mrna introns intergenic exonic? 100 Conservation plus forte que les séquences codantes close to/in genes involved in - developmental processes - regulation of transcription Conservation > Function POLA: DNA polymerase alpha subunit Probabilité d'observé un uc dans une séquence sous évolution neutre: P< 1e [Bejerano et al., Science:304(2004)] fonctionnel Exemple d'éléments uc 481 segments > 200 bp ayant 100% d'identité dans des régions orthologues homme/souris/rat : éléments ultra conservés (uc) test de 167 uc chez homme/souris 67 (=45%) ont une activité enhancer positive Conservation extrême vs. ultraconservation? [Penacchio et al., Nature (2006)] [Visel et al., Nature Genetics (2008)]

(quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu.

(quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu. (quelques) méthodes pour l'identification de modules cis-régulateurs (CRM) Carl Herrmann TAGC & Aix-Marseille Université carl.herrmann@univ amu.fr -1Carl Herrmann - M2 "analyse de réseaux biologiques"

Plus en détail

Les bases de données transcriptionnelles en ligne

Les bases de données transcriptionnelles en ligne Les bases de données transcriptionnelles en ligne Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription

Plus en détail

Elodie Darbo. To cite this version: HAL Id: tel-00644865 https://tel.archives-ouvertes.fr/tel-00644865v1

Elodie Darbo. To cite this version: HAL Id: tel-00644865 https://tel.archives-ouvertes.fr/tel-00644865v1 Découverte d éléments cis-régulateurs impliqués dans l activation transcriptionnelle du génome zygotique dans l embryon précoce de Drosophila melanogaster Elodie Darbo To cite this version: Elodie Darbo.

Plus en détail

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité? TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher

Plus en détail

RiboAmp RNA Amplification Kit

RiboAmp RNA Amplification Kit RiboAmp RNA Amplification Kit Révèle des variations d expression entre types cellulaires Une analyse précise de l expression de gène nécessite de travailler sur un type spécifique de cellules sans interférence

Plus en détail

Annotation in silico de séquences biologiques

Annotation in silico de séquences biologiques Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique

Plus en détail

Comparaison et alignement de séquences 2

Comparaison et alignement de séquences 2 Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

MAT 2377 Solutions to the Mi-term

MAT 2377 Solutions to the Mi-term MAT 2377 Solutions to the Mi-term Tuesday June 16 15 Time: 70 minutes Student Number: Name: Professor M. Alvo This is an open book exam. Standard calculators are permitted. Answer all questions. Place

Plus en détail

Le contrôle qualité sur les données fastq

Le contrôle qualité sur les données fastq Le contrôle qualité sur les données fastq TP detection exome Plan Théorie 1: le format FastQ et l'encodage des qualités Session pratique 1: conversion des qualités (fichier illumina.fastq) Théorie 2: le

Plus en détail

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

Master 1 Biologie Santé UE Expression des génomes et transcriptomique. Sujet de : Hélène Dauchel Durée : 2h

Master 1 Biologie Santé UE Expression des génomes et transcriptomique. Sujet de : Hélène Dauchel Durée : 2h Master 1 Biologie Santé UE Expression des génomes et transcriptomique Sujet de : Hélène Dauchel Durée : 2h ****** Les trois questions sont à traitées, elles sont indépendantes : Question 1 : 4 points,

Plus en détail

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Biodiversité fongique Biodiversité: diversité spécifique d une communauté écologique, correspondant au nombre d espèces et à leur

Plus en détail

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Electromagnetic compatibility (EMC) Part 4-3: Testing and measurement techniques Radiated, radio-frequency, electromagnetic field immunity test INTERPRETATION

Plus en détail

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years.

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years. Linja Game Rules 2 players Ages 8+ Published under license from FoxMind Games NV, by: FoxMind Games BV Stadhouderskade 125hs Amsterdam, The Netherlands Distribution in North America: FoxMind USA 2710 Thomes

Plus en détail

Kit d extraction PicoPure RNA

Kit d extraction PicoPure RNA Isoler des ARN même à partir d une cellule Le kit d extraction PicoPure RNA a été développé pour obtenir une haute qualité des ARNs totaux à partir d un minimum de dix cellules. Le haut rendement obtenu

Plus en détail

Lancer FASTA et BLAST en ligne de commande

Lancer FASTA et BLAST en ligne de commande Lancer FASTA et BLAST en ligne de commande V.2006.1 http://www.esil.univ-mrs.fr/~dgaut/cours Daniel Gautheret ESIL, Université de la Méditerranée Fasta Article original: Lipman and Pearson (1985) Science

Plus en détail

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013 PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF Ianis Lallemand, 21 janvier 2013 APPRENTISSAGE INTERACTIF definition Contours encore assez flous dans le champ de l apprentissage automatique. Néanmoins,

Plus en détail

Conception assistée par ordinateur de molécules thérapeutiques

Conception assistée par ordinateur de molécules thérapeutiques Conception assistée par ordinateur de molécules thérapeutiques D. Gilis Bioinformatique génomique et structurale Faculté des sciences appliquées Université Libre de Bruxelles Objectif: illustrer en quoi

Plus en détail

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast Bioinformatique appliquée Cours 4 BLAST idée lire un résultat de Blast la famille Blast -1- "quelle est la similarité entre ces 2 séquences? et donc: est-ce que ces deux séquences sont homologues?" "existe-t-il

Plus en détail

Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014

Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014 Corrigé Contrôle terminal : Bioanalyse (EL6BIOFM) 6 mai 2014 Exercice 1 (4,5 points) 1. Donner la définition de l acronyme BLAST. (0,5 pt) : Basic Local Alignment Search Tool 2. Expliquer les principes

Plus en détail

PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION

PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION DISS. ETH NO. 21505 PROTEIN COMPLEXES INVOLVED IN PCG FUNCTION A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by MARIA DERKACHEVA Master of Biology (Honours), Saint-Petersburg

Plus en détail

Corrigé du TD1. Exercice 1:

Corrigé du TD1. Exercice 1: Corrigé du TD1 Exercice 1: le but était d'aligner des séquences à la main et de compter les substitutions entre acides aminés observées. Le résultat se trouve à cette adresse: http://tagc.univ-mrs.fr/herrmann/bio6/displaymatrix.php

Plus en détail

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits PROSITE banque de motifs et de profils caractéristiques de domaines ou de

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

Classification. Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent

Classification. Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent Classification Session organisée par Charles Bouveyron et Francois Caron et Marie Chavent La classification a pour objet de regrouper des données en classes possédant des caractéristiques similaires. La

Plus en détail

Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...)

Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...) Recherche des gènes et des erreurs de séquençage dans les génomes bactériens GC-riches (et autres...) Thomas Schiex, Patricia Thébault, Daniel Kahn INRA, Toulouse Résumé Les génomes procaryotes GC-riches

Plus en détail

Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg

Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg Konstantin Avrachenkov, Urtzi Ayesta, Patrick Brown and Eeva Nyberg Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire

Plus en détail

Les microarrays: technologie pour interroger le génome

Les microarrays: technologie pour interroger le génome Les microarrays: technologie pour interroger le génome Patrick DESCOMBES patrick.descombes@frontiers-in-genetics.org Plate forme génomique NCCR Frontiers in Genetics Université de Genève http://genomics.frontiers-in-genetics.org

Plus en détail

Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree

Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree CANADA CONSOLIDATION CODIFICATION Marketing Authorization for Gluten-free Oats and Foods Containing Glutenfree Oats Autorisation de mise en marché d avoine sans gluten et d aliments contenant de l avoine

Plus en détail

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Lhouari Nourine 1 1 Université Blaise Pascal, CNRS, LIMOS, France SeqBio 2012 Marne la vallée, France 2.

Plus en détail

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014)

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014) Prédiction de gènes Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes Equipe Bonsai (2014) La localisation des gènes C'est la première étape pour interpréter

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype.

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Les maladies génétiques comme la drépanocytose ou l'albinisme sont liées à des modifications du génotype des individus

Plus en détail

PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE

PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE PRINCIPALES TECHNIQUES UTILISEES EN GENOMIQUE Définitions généralités Quelques chiffres 46 chromosomes 22 paires d autosomes (n=44) 1 paire de gonosomes (n=2) : XX/F et XY/H 300 bandes cytogénétiques =

Plus en détail

RNAseq et NGS. Adriana Alberti Karine Labadie

RNAseq et NGS. Adriana Alberti Karine Labadie RNAseq et NGS Séquençage et Diversité LES ORGANISMES EUCARYOTES animaux plantes champignons protistes BACTERIES ARCHEES VIRUS METAGENOMES LES SOURCES ADN GENOMIQUE ARN / cdna AMPLICONS BACs ET FOSMIDES

Plus en détail

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA Amplification spécifique Détection spécifique Clonage dans des vecteurs Amplification in vitro PCR Hybridation moléculaire - hôte cellulaire

Plus en détail

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire LA P.C.R. Polymerase Chain Reaction "chercher une aiguille dans une meule de foin"? Chercher à repérer un gène particulier

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Prédiction de gènes. La localisation des gènes. Quel est le point de départ? Une idée naïve : les phases ouvertes de lecture

Prédiction de gènes. La localisation des gènes. Quel est le point de départ? Une idée naïve : les phases ouvertes de lecture La localisation des gènes Prédiction de gènes Crs de présentation des tils bio-informatiques pr la localisation puis l'étude des gènes C'est la première étape pr interpréter un génome Distinction entre

Plus en détail

Quelques termes-clef de biologie moléculaire et leur définition

Quelques termes-clef de biologie moléculaire et leur définition Acide aminé (AA) Quelques termes-clef de biologie moléculaire et leur définition Isabelle Quinkal INRIA Rhône-Alpes Septembre 2003 Petite molécule dont l enchaînement compose les protéines - on dit qu

Plus en détail

Promotion of bio-methane and its market development through local and regional partnerships. A project under the Intelligent Energy Europe programme

Promotion of bio-methane and its market development through local and regional partnerships. A project under the Intelligent Energy Europe programme Promotion of bio-methane and its market development through local and regional partnerships A project under the Intelligent Energy Europe programme Contract Number: IEE/10/130 Deliverable Reference: W.P.2.1.3

Plus en détail

Modélisation coalescente pour la détection précoce d un cancer

Modélisation coalescente pour la détection précoce d un cancer Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1 Introduction

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Photo Manipulations in the 2011 CES

Photo Manipulations in the 2011 CES Canadian Election Study Methodological Briefs Methodological Brief #2013-A Photo Manipulations in the 2011 CES Patrick Fournier, Université de Montréal Stuart Soroka, McGill University Fred Cutler, University

Plus en détail

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool)

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) A A C T G G T A A C C G A G C T A C G G T C C G Algorithme de Blast (version 1) (Altschul et

Plus en détail

Recherche d homologies

Recherche d homologies Recherche d homologies Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Introduction 4 2 Les systèmes de scores

Plus en détail

Bioinformatique BTV Alignement de Séquences

Bioinformatique BTV Alignement de Séquences 1 / 60 Bioinformatique BTV Alignement de Séquences Jean-Michel Richer jean-michel.richer@univ-angers.fr http://www.info.univ-angers.fr/pub/richer Juillet 2008 2 / 60 Plan Plan 1 Rappels 2 Alignement multiple

Plus en détail

Initiation à la Bioinformatique Daniel Gautheret ESIL, Université de la Méditerranée

Initiation à la Bioinformatique Daniel Gautheret ESIL, Université de la Méditerranée Initiation à la Bioinformatique Daniel Gautheret ESIL, Université de la Méditerranée V.2004.4 http://www.esil.univ-mrs.fr/~dgaut/cours Bioinformatique Deux définitions possibles Applications de l informatique

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription Université de Montréal Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription par Eloi Mercier Département de bioinformatique Faculté de médecine

Plus en détail

Transcriptome Analysis of Zebrafish Embryogenesis Using Microarrays

Transcriptome Analysis of Zebrafish Embryogenesis Using Microarrays Master 1 BFA (Parcours Biochimie) 7 février 2006 Hélène Dauchel (60 min) Transcriptome Analysis of Zebrafish Embryogenesis Using Microarrays D après Sinnakaruppan Mathavan et al. PLoS Genet. 2005 August;

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000 Nadia El-Mabrouk DIRO, Université de Montréal Qu est-ce que la Bioinformatique? Qu est-ce que la Bio-informatique? Champs multi-disciplinaire

Plus en détail

Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques

Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques Collège National des Enseignants et Praticiens de Génétique Médicale Martin Krahn Département de Génétique

Plus en détail

Quelques notions de génomique fonctionnelle: l exemple des puces à ADN

Quelques notions de génomique fonctionnelle: l exemple des puces à ADN Quelques notions de génomique fonctionnelle: l exemple des puces à ADN Frédéric Devaux Laboratoire de génétique moléculaire Ecole Normale Supérieure Le «dogme central» de la biologie moléculaire Transcription

Plus en détail

ENSE3 - API/CSPI et Master Automatique - 2008/2009

ENSE3 - API/CSPI et Master Automatique - 2008/2009 ENSE3 - API/CSPI et Master Automatique - 28/29 DS Commande robuste - - 19 janvier 29 Nom Prénom Signature ATTENTION: Mettre votre nom et répondre directement sur les feuilles de l énoncé. Justifiez vos

Plus en détail

!! " #$%&! "#$ ' "! $ # &" $. / 01 / # $! "#$ %&$ # &" $. / 01 / # $! "#$ ( ) *) +, $ # &" $. / 01 / # $!! " #$%&' &!! " ( )* ( &! "#$ ' "! $ # &" $. / 01 / # $! "#$ %&$ # &" $. / 01 / # $! "#$ ( ) *)

Plus en détail

Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi

Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi Que nous apprennent les mécanismes de défense des plantes? Master BIP 26-10-2015 Alia Dellagi Des épidémies, des choix à faire.. wikipedia apsnet.org Pour réduire les traitements phytosanitaires Trouver

Plus en détail

Les outils du génie génétique.

Les outils du génie génétique. Les outils du génie génétique. I\ Les enzymes. On va se servir des enzymes pour couper, coller et synthétiser des acides nucléiques. A\ Les polymérases. Toutes les polymérases agissent de 5 vers 3. En

Plus en détail

Product Platform Development: A Functional Approach Considering Customer Preferences

Product Platform Development: A Functional Approach Considering Customer Preferences Product Platform Development: A Functional Approach Considering Customer Preferences THÈSE N O 4536 (2009) PRÉSENTÉE le 4 décembre 2009 À LA FACULTé SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DES

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

BINDINGMOUNTING MONTAGEFIXATIONS

BINDINGMOUNTING MONTAGEFIXATIONS BINDINGMOUNTING MONTAGEFIXATIONS This Dupraz D2 ski model, will provide you unexpected sensations in all snow conditions.before skiing it, one last step: the binding mounting. Traditionnal mounting tools

Plus en détail

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com ARN et bioinformatique: Partie 1 PDF processed with CutePDF evaluation edition www.cutepdf.com Sommaire Principes biologiques : Transcription/traduction, types d ARN, formes primaires/secondaires. Zuker

Plus en détail

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine?

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine? 1. L ADN et l information génétique l ADN l information génétique est contenue dans l ADN (ADN) (ARN) 1 2 A G T C U comment fait-on une protéine? traduction l information génétique est organisée par triplets

Plus en détail

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007

ED Biologie moléculaire. E. Turpin J. Lehmann-Che 5-6 novembre 2007 ED Biologie moléculaire E. Turpin J. Lehmann-Che 5-6 novembre 2007 PCR 1983: Kary Mullis Amplification in vitro par une méthode enzymatique d'un fragmentd'adn en présence de deux oligonucléotides spécifiques

Plus en détail

Les technologies de séquençage à haut débit. Patrick Wincker, Genoscope, Institut de Génomique du CEA

Les technologies de séquençage à haut débit. Patrick Wincker, Genoscope, Institut de Génomique du CEA Les technologies de séquençage à haut débit Patrick Wincker, Genoscope, Institut de Génomique du CEA CNG, 12.05.2009 Séquençage Sanger (méthode des dididéoxy terminateurs) : a permis les progrès de la

Plus en détail

Barcoding environnemental par séquençage haut débit

Barcoding environnemental par séquençage haut débit Barcoding environnemental par séquençage haut débit Potentiel et limites Jean-François Martin Échantillonnage Spécificités du barcoding environnemental Amplification (PCR) de marqueurs choisis Séquençage

Plus en détail

TP 5 Enquête sur les maladies héréditaires - III

TP 5 Enquête sur les maladies héréditaires - III TP 5 Enquête sur les maladies héréditaires - III Anémie Falciforme [Sickle-Cell Anemia] Partie 1 Qu est-ce que l anémie falciforme? L'anémie falciforme (sickle cell anemia) est une maladie génétique qui

Plus en détail

ALIGNEMENT PLUS RAPIDE

ALIGNEMENT PLUS RAPIDE ALIGNEMENT PLUS RAPIDE 1. méthodes heuristiques : hachage, arbres de suffixe, PD limitée (taille totale de trous bornée) 2. PD éparse (pour sous-séquence commune ou chaînage en alignement global heuristique)

Plus en détail

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation English.......................................... 3 Français.........................................

Plus en détail

Modélisation, analyse et simulation de réseaux de régulation génique. Les développements récents en génomique ouvrent de. Dossier

Modélisation, analyse et simulation de réseaux de régulation génique. Les développements récents en génomique ouvrent de. Dossier 32-40wojcik-Thierry.qxd 23/01/05 16:23 Page 36 InteractionViewer (Voir figure 2) DomainViewer PIMViewer Figure 4 PIMRider, plate-forme d exploration des cartes d interactions protéine-protéine. Parmi les

Plus en détail

2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002

2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002 2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002 Instructions: Directives : 1 Provide the information requested below Veuillez fournir les renseignements demandés ci-dessous

Plus en détail

(Programme de formation pour les parents ~ Training program for parents)

(Programme de formation pour les parents ~ Training program for parents) PODUM-INFO-ACTION (PIA) La «carte routière» pour les parents, sur l éducation en langue française en Ontario A «road map» for parents, on French-language education in Ontario (Programme de formation pour

Plus en détail

Quelques notions de génomique fonctionnelle: l exemple des puces à ADN

Quelques notions de génomique fonctionnelle: l exemple des puces à ADN Quelques notions de génomique fonctionnelle: l exemple des puces à ADN Frédéric Devaux Laboratoire de génétique moléculaire Ecole Normale Supérieure Le «dogme central» de la biologie moléculaire Transcription

Plus en détail

Dans chaque cellule: -génome nucléaire -génome mitochondrial (-génome chloroplastique)

Dans chaque cellule: -génome nucléaire -génome mitochondrial (-génome chloroplastique) 6- Structure et organisation des génomes 6-1 Génomes eucaryotes Dans chaque cellule: -génome nucléaire -génome mitochondrial (-génome chloroplastique) 6-1-1 Génomes nucléaires 6-1-1-1 Nombre d exemplaires

Plus en détail

Expression des gènes Comparatif entre procaryotes et eucaryotes

Expression des gènes Comparatif entre procaryotes et eucaryotes Comparaison procaryotes/ 2TSbc Expression des gènes Comparatif entre procaryotes et eucaryotes La majeure partie des connaissances de biologie moléculaire a d'abord débuté par l'étude des phénomènes chez

Plus en détail

IPv6. Internet Control Message Protocol ICMPv6. Objectif: Comparer ICMPv4 avec ICMPv6

IPv6. Internet Control Message Protocol ICMPv6. Objectif: Comparer ICMPv4 avec ICMPv6 IPv6 Internet Control Message Protocol ICMPv6 Objectif: Comparer ICMPv4 avec ICMPv6 v.1b IPv6 Théorie et Pratique & Microsoft Introduction to IPv6 1 ICMPv6 (RFC 2463) Trois fonctions déjà présentes en

Plus en détail

Amendment # 1: The set of three trailers (one mobile clinic) will remain parked at the destination city for approximately ten (10) weeks.

Amendment # 1: The set of three trailers (one mobile clinic) will remain parked at the destination city for approximately ten (10) weeks. Document # 1 Title/Titre: Statistics Canada MEC Hauling / Statistique Canada Services de transport de cliniques mobiles Date December 2, 2013 Solicitation Number Numéro d avis d appel d offres 1920-0002917

Plus en détail

Université du Québec à Montréal

Université du Québec à Montréal RECUEIL D EXERCICES DE BICHIMIE 6. Les acides nucléiques 6.2. Réplication, transcription et traduction P P P CH 2 H N H N N NH NH 2 Université du Québec à Montréal 6.2. Réplication, transcription et traduction

Plus en détail

Kit d extraction PicoPure DNA

Kit d extraction PicoPure DNA Directement à la PCR Le kit PicoPure DNA permet une extraction simple et rapide de l ADN génomique prêt à l utilisation en PCR. Extraire et amplifier l ADN dans le même tube, sans phase d extraction organique

Plus en détail

Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX

Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX Sommaire Définitions et abréviations Résumé Introduction I. Matériel II. Méthode A) Méthode de contrôle manuel des résultats produits par GLADX B) Comparaison des résultats de l outil GLADX avec les résultats

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Structure de l'adn & Polymorphisme

Structure de l'adn & Polymorphisme UNIVERSITE D ALGER Faculté de Médecine et de Médecine Dentaire ZIANIA (Château Neuf) Structure de l'adn & Polymorphisme COURS DE GENETIQUE -2014-2015- L ADN : l acide désoxyribonucléique L ADN est: Un

Plus en détail

Loi sur le point de service principal du gouvernement du Canada en cas de décès

Loi sur le point de service principal du gouvernement du Canada en cas de décès CANADA CONSOLIDATION CODIFICATION Main Point of Contact with the Government of Canada in case of Death Act Loi sur le point de service principal du gouvernement du Canada en cas de décès S.C. 2015, c.

Plus en détail

Les outils modernes (génomique, criblage à haut débit) ont-ils leur place?

Les outils modernes (génomique, criblage à haut débit) ont-ils leur place? Les outils modernes (génomique, criblage à haut débit) ont-ils leur place? Thomas Bachelot Centre Léon Bérard, Lyon Génomique, criblage à haut débit Définition dans le cadre de cette présentation => Génomique:

Plus en détail

1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE

1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE Liste d articles pour exercices EPSC à télécharger! BiolMol 2-1 1. PRINCIPES DE BASE DE LA BIOLOGIE MOLECULAIRE 1.1. Les acides nucléiques 1.1.1. Structure et expression des acides nucléiques 1.1.2. Réplication

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Mesure Measurement Réf 322 033 Etiquettes Terre, Jupiter, Mars, Français p 1 Lune pour dynamomètre 10 N English p 4 Earth, Jupiter, Mars, Moon,

Mesure Measurement Réf 322 033 Etiquettes Terre, Jupiter, Mars, Français p 1 Lune pour dynamomètre 10 N English p 4 Earth, Jupiter, Mars, Moon, Mesure Measurement Français p 1 English p 4 Version : 8006 Etiquettes Terre, Jupiter, Mars, Lune pour dynamomètre 10 N Earth, Jupiter, Mars, Moon, labels for 10 N dynamometer Mesure Etiquettes Terre, Jupiter,

Plus en détail

TP BIOINFORMATIQUE Bases de Données relationnelles

TP BIOINFORMATIQUE Bases de Données relationnelles TP BIOINFORMATIQUE Bases de Données relationnelles Objectif : Construire et utiliser une base de données relationnelle simple. Déroulement : Ce TP se déroulera sur 2 séances. 1. Modélisation simplifiée

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

The mammalian cell cycle

The mammalian cell cycle The mammalian cell cycle Mammalian cell cycle Cdk = Cyclin-dependent kinase Novak B. and Tyson J.J. (2004) A model for restriction point control of the mammalian cell cycle. J. theor. Biol. 230, 563-579.

Plus en détail

Sun ONE Application Server Platform Summary

Sun ONE Application Server Platform Summary Sun ONE Application Server Platform Summary Version 7, Update 3 Part Number 817-5602-10 February 2004 This document provides the specifics on supported platform components for the Sun Open Net Environment

Plus en détail

Introduction : La bioinformatique

Introduction : La bioinformatique BI Cours 1 et 2 Introduction à la Bio-informatique et la Génomique Biais de composition des séquences Introduction : La bioinformatique Qu'est-ce que c'est? C'est répondre à des problématiques biologiques

Plus en détail

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription.

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Résumé de thèse de David Kieffer Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Dans le cadre de la lutte contre le cancer, l'entreprise Genclis (Genomic

Plus en détail

LA TRANSCRIPTION. Introduction. I. Modalité générale de la transcription. II. Transcription chez les Procaryotes

LA TRANSCRIPTION. Introduction. I. Modalité générale de la transcription. II. Transcription chez les Procaryotes LA TRANSCRIPTION Introduction I. Modalité générale de la transcription II. Transcription chez les Procaryotes 1. L'ARN polymérase 2. Etapes de la transcription a. Initiation b. Elongation c. Terminaison

Plus en détail

Classification. Charles Bouveyron, Francois Caron, Marie Chavent. To cite this version: HAL Id: inria-00496744 https://hal.inria.

Classification. Charles Bouveyron, Francois Caron, Marie Chavent. To cite this version: HAL Id: inria-00496744 https://hal.inria. Classification Charles Bouveyron, Francois Caron, Marie Chavent To cite this version: Charles Bouveyron, Francois Caron, Marie Chavent. Classification. Journées MAS et Journée en l honneur de Jacques Neveu,

Plus en détail