Annotation in silico de séquences biologiques

Dimension: px
Commencer à balayer dès la page:

Download "Annotation in silico de séquences biologiques"

Transcription

1 Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée

2 Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique phénotype = apparence/fonctionnement

3 Pourquoi Diana n'a-t-elle que 3 doigts? pic de liaison génétique Qu'est ce qu'il y a à cet endroit?

4 Il faut recenser dans le génome de Diana tous les acteurs moléculaires qui peuvent jouer un rôle...

5 Annotation de séquence annoter une séquence, c'est localiser et caractériser les élements fonctionels qu'elle contient résultats expérimentaux prédictions bioinformatiques a priori éléments fonctionnels gènes

6 Annotation des gènes du génome humain Y a-t-il des régions du génome qui, une fois traduites, correspondent à certaines protéines connues ou certains transcrits ("cdnas/est") connus? protéine EST traduction ce fragment du génome est transcrit: gène? comment localiser les fragments sur le génome? (alignements) EST = fragment de (m)rna: ce n'est pas un gène complet... comment trouver des gènes "inconnus"?

7 Annotation des gènes du génome humain Méthodes ab-initio: Y a-t-il des régions qui ont les caractéristiques typiques d'un gène (présence d'un boite TATA, site d'épissage, )? TATA box sites d'épissage ex: GENSCAN (> gènes humains prédits ) beaucoup de faux-positifs...

8 Annotation des gènes du génome humain Evolution du nombre de gènes annotés de référence du NCBI Evolution Version du nombre de gènes annotés Version de référence du génome humain source: NCBI Nbre de gènes estimations préliminaires Version fusion de transcripts (2 transcripts correspondent au même gène),... inclusion de gènes non-codants, annotation de nouveaux transcripts,...

9 Au delà des gènes codants... le total des exons codants ne représente que 3% du génome humain mais on estime que 5% du génome humain est sous pression de sélection beaucoup de transcription en dehors des gènes codants la taille de l'adn non-codant (et pas le nombre de gènes...) semble être corrélé à la "complexité" de l'organisme Proportion of non coding DNA % % percent 80.00% 60.00% 40.00% 20.00% 0.00% S. cerevisae A. thaliana C. elegans D. melanogaster F. rubripes M. Musculus H. sapiens Il doit y avoir autre chose...

10 projet ENCODE: plus que les gènes... consortium international formé en 2003 BUT: construire une encyclopédie de l'adn (ENcyclopedia of CODing Elements) 1% du génome humain (30 Mb, 44 régions)

11 ENCODE browser exemple d'une région de 1Mb sur chr5 gènes transcription epigenomics: methylation protein binding

12 Etude des régions transcrites tiling array avec une résolution de 35 bp ~ 63% des transcripts détectés tombent en dehors des exons annotés niveau de transcription est un ordre de grandeur plus élevé qu'attendu (nouveaux exons? gènes? ncrnas?)

13 Etudes ultérieures mêmes conclusions chez arabidopsis whole genome human mouse drosophila yeast Hypothèse: ~ 100% du génome non-répétitif est transcrit [Hüttenhofer et al., Trends in Genetics:21(2005)]

14 Annotation de séquences gènes codants autres éléments fonctionnels

15 Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators

16 Eléments fonctionnels sirna mirna methylation sites ultra-conserved elements gènes codants enhancers silencers insulators

17 L'objet de base de la bioinformatique: la séquence >gi ref NR_ Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC ARN (ADNc) >gi gb EN GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA ADN >gi dbj BAA glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR protéine

18 le format FASTA en-tête de description séquence (nucléique, protéique,...) sur plusieurs lignes >gi gb EN GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA longueur de la séquence variable mesurée en nombre d'acides aminés ou en nombre de paires de bases (bp, kb, Mb, Gb,...) dans le cas d'adn, la séquence représente un seul brin!

19 Séquence = représentation de la molécule >gi dbj BAA glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR >gi gb EN GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CCACTGATAGGTATTGCCACAAATTATGGGTGGTGCCATCAGAATACGTA >gi ref NR_ Mus musculus RIKEN cdna non coding RNA CTCAGAGGATCTGTCAAAGTACCTTAGATTTGCCCTAATGGACATAAGCAGCAGTGGGCGCAGAAACCTT GCTCTGAAGCCTCTCTGGTTCCAACATCTGCGGAAGAGTGCTTGTGTGTCACCTTCAGCTGGCATCTCCA TAACACCAAAATTGAAGTGTGAGAAGAAGAAGACCCAATGCCCGGGGAGAAGTACGGTGAGCCTGTCATT ATTCAGAGAGGCTAGATCCTCTGTGTTGAGAAGGATCATGATGGGCTCCTCGGTGTTCTCCAGGTAGCGG CACCACACCATGAAGGCAGCCCGGATTGGAAGGATCCTCATCTCCACTCGAGGGTACTCCACCTCCATTG TAGAGAGGGGTCTTGAATAGAAAGCACAGGTAGATTTCTTGCCAGTTTCGTCGTCGGTTTGGACCAGGGA GGCAGACAGGAATGACCCAGTGATGTCTGTTTCCAAGTAGAATGGGTTCTGAGGCTTAGGGTGATAGAGA ACGGGCGACTTGCGGAAAGCCCTCTTCAGGGATTCCAAGGCCTCCTGCTCCTCTTCTCCCCAGTAGTAGG GCTCTGAACTCAGCAGTTGTCTCACTAGGGGTGCTGCGATGACAGCGAAGTTCTCCACGAAGTGGCGATA GGGATAGACAAGGTCAATCACACTTTGAAGACACCTCCTGCTGCCAGGGACAGGGCACCCCACGATGAGG TTCATAAGGTTCTTGTTCAGTTTCACCCCTTTGGGGGATATGTTGAAGCCCAAGATTTCAGCGGTCTGGC GATGGAACTGAGTTTTGTCCAGTGAACAGTAGATGTTGTGATACCGAAAGCGGACCAGGACTTGGCGGAC ATGCTGGGAGTGTTCCTCCTGGCTCATTGAGTAGACCAGGACCTCTCTGCCATGGCAAATCACAAACAAC???

20 Quelles questions poser? >gi gb EN >gi gb EN GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT CGCGTGAGAAAGGCCTCAAGGTATTTAATACGCCTGCAGCGTCTTCAGATTCTGTCGCGGAATTAGTGAT GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA GGGACACATGCGAACGTTGGTACGTTTCTTACACGACTCCAATAGAAACATGCCGCTCGACGGTGATTCA AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG AAATTCGCGTCGTTGAAAAAAGCCTATGCCGGCGGGATGGAATTGCGCGGTAGAACTTTAGGTATTGTTG GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA GATTCGGTCGCATCGGTCAAGCTTTGGCGAAATTGGCTATTGGTGCGGGAATGGAAGTCGTTTTCTCCGA TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG TATGCACAATGATCACATGGATGTGGCATTGGAATTCTTTGACGGTCAATCGTTAAGCTTCACATGTAAG AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA AATGTAGGCTTGGAAAGGCGTGTTGGCACAATCGGATTTCATTTCACTACACGTTCCAGCGGCGATTTGA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTGGCGCAGCGGAAATTGCAAAAATGAAGGACGTGTGTTTTCTTATTAAATGCTGCGCGTGGCGGAGTAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA TTAATGAAGAGGCATTGCTTGATGCGCTGGAGAGCGGCAAGGTAGCTGGAGCTGGATTAGATGTCTTCAA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GAATGAGCCTACGCCCGCTGTGAAAGTCTTAATGAATGGAAAAGTGAGTCTTACTCCGCACATTGGTGCA GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC GCGACGGGAGAGGCACAAGATCGCATTGGAACTGAATTGGCGTCCCATATTGATGCGCTCGCAGCGAGTC TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA TCTAGACTGTACTTATAACTTTTTGATGAGCCCTGCGGATTCCGCGGGGCTTTTCTTTTTTGATTGTGTA ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT ATTTCACTTCAAGAACCACCAACAGAATAGAGCTATGCTCCGACCTTTCAAAGCGGTACGTCCGACGCGT GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG GATAAAGCGTATTTAGTTGCCACCCGTTCCTATATTACTTACGGGGCGGAAGAGCTAGATGATAAGTTAG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG AAAATAACCCGTATACCTTCTTGCACGTCATCAATCCAAATGCATTGCCGGAAGCAAATTATAAAGACCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG GTTCAAGGCCGTACGCAGCCGCTACGATCGGTTCGAAAAGGAAGACATCTTTATTCAAGAAGCCCAGTCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG ACGTATTACCTCTATGAGCAAAAAACACCTTCGGCAACCTATACGGGCGTTATTGGTTTACTTGACGCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG AAAGTGTGGTCAACGGGACAACGCTGCCGCACGAGAAAACAATCGCAAAACGCGAGCATATTTTTGCCCG ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT ATATCTCAGTATCACAGGGTTTCAGGCAGAACCTGTGTTGGTTTTTGGAGAAGCCGATGAGCACTACGAT CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA CGCTTGGTGAATCGAATTAAAGAAGACCGGCCCGAATACGAGTTTTCCTCCACTGATAGGTATTGCCACA AATTATGGGTGGTGCCATCAGAATACGTA AATTATGGGTGGTGCCATCAGAATACGTA

21 1. cette séquence contient-elle un élément codant? 2. si oui, ressemble-t-elle à une protéine connue? 3. quelle est sa fonction potentielle? 4. de quel organisme provient cette séquence / quelle est son histoire évolutive? nous allons utiliser des outils "in-silico" pour répondre à ces questions...

22 QUESTION 1: la séquence d'adn est-elle codante ou non?? (i.e. contient-elle un gène codant pour une protéine?)

23 Qu'est ce que c'est qu'un gène? A quoi reconnait-on un gène? TSS: transcription start site ADN * transcription codon start * ARN traduction protéine

24 A quoi reconnait-on un gène? codon d'initiation de la traduction codon stop ACGTCGGATCATGCTTAGCTTAGGCTATGCTTAAATT M L S L G Y A * cadre de lecture ouvert = ORF = "open-reading frame" ATTENTION: un gène contient un ORF, mais un ORF ne correspond pas forcément à un gène!!

25 un petit calcul fréquence des nucléotides: A,C,G,T = 0.25 fréquence des ATG = 0.25*0.25*0.25 = on trouve un ATG en moyenne tous les 67 nucléotides codons stop: TGA, TAA, TAG 1 codon sur ~ 21 en moyenne est un codon stop beaucoup de ATG...(stop) dans les séquences d'adn

26 la preuve: séquence intergénique de Drosophile (garanti 100% sans gène!) >up FBgn loc= strand= sourcefile=../dmel chr4 r4.3.fasta.masked CCATCCTGAATGTGGTATGTAAATCTAACATTTTTATGCTAAGCCTCCACTTACTTGTATATTATATAGG CTACGTTTCGTAACGATCGAGGTGTATACAAAGAAGCCGAAATTCACAGGTATGTAAAGCATTTAATTTA... comment distinguer les "bons" ORF des "mauvais"? longueur(orf)» 21 codons

27 Recherche d'orf sur le brin direct et reverse complémentaire dans les 3 cadres de lecture taille minimale des ORF: > AA 3 cadres de lecture directs 3 cadres de lecture reverse E D E A H K T A F E A L V K A A K I N G K M R R T K R P L K R W L K R L K. T E R. G A Q N G L. S A G. S G. N K R N GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGA CTTCTACTCCGCGTGTTTTGCCGGAAACTTCGCGACCAATTTCGCCGATTTTATTTGCCT F I L R V F R G K F R Q N F R S F Y V S L H P A C F P R Q L A P. L P. F L R F S S A C L V A K S A S T L A A L I F P I

28 QUESTION 2: cet ORF code-t-il pour une protéine?? cet ORF ressemble-t-il à une protéine connue?

29 Idée comment? qui, quoi? on va comparer nos ORF à des protéines connues pour voir si ils ressemblent à quelque chose de connu...

30 exemple de banques de séquences qui, quoi? SwissProt: séquences protéiques (Institut Suisse de Bioinformatique & EBI) 200,000 séquences grande qualité des fiches beaucoup d'informations fonctionnelles nr = non-redundant: compilation de plusieurs banques de données protéiques 3.4 millions de séquences SwissProt Protein Information Ressource (PIR) traduction de séquences nucléiques de GenBank PDB (structurale)

31 comment? comparaison de séquences >gi dbj BAA glucoamylase [Aspergillus shirousami] MSFRSLLALSGLVCSGLASVISKRATLDSWLSNEATVARTAILNNIGADGAWVSGADSGIVVASPSTDNP DYFYTWTRDSGIVLKTLVDLFRNGDTDLLSTIEHYISSQAIIQGVSNPSGDLSSGGLGEPKFNVDETAYA GSWGRPQRDGPALRATAMIGFGQWLLDNGYTSAATEIVWPLVRNDLSYVAQYWNQTGYDLWEEVNGSSFF TIAVQHRALVEGSAFATAVGSSCSWCDSQAPQILCYLQSFWTGSYILANFDSSRSGKDTNTLLGSIHTFD PEAGCDDSTFQPCSPRALANHKEVVDSFRSIYTLNDGLSDSEAVAVGRYPEDSYYNGNPWFLCTLAAAEQ LYDALYQWDKQGSLEITDVSLDFFKALYSGAATGTYSSSSSTYSSIVSAVKTFADGFVSIVETHAASNGS LSEQFDKSDGDELSARDLTWSYAALLTANNRRNSVVPPSWGETSASSVPGTCAATSASGTYSSVTVTSWP SIVATGGTTTTATTTGSGGVTSTSKTTTTASKTSTTTSSTSCTTPTAVAVTFDLTATTTYGENIYLVGSI SQLGDWETSDGIALSADKYTSSNPPWYVTVTLPAGESFEYKFIRVESDDSVEWESDPNREYTVPQACGES TATVTDTWR Vous trouvez que ça se ressemble??? >gi gb AAF CG3942 PA [Drosophila melanogaster] MHRWFFANEREECERKPEEDGPSSASETQEPPPPPPVPTTEWPFCVVFHSSLNGNEYVAISGNCPSLGNW DPKEVYILAKNDCISCLCNCRQFEASLEIPRNIDIHYRYCVVIHDPETDEVYIRFWESQLYPRVIRTCQN MLKNCDVFGKPHDDDEANQVDRGWATTETIVHLKIFNAPFCWQRQKPRLLYVHVQPMFEVPENPCNEPAN PIKMVSSQTRLSRYLSTREIKAGNQYLQLAQVEVTNLCVQNALAAQQRFGARCGPKDMELFHCSIAFPEE TLYRLDLYTYAHKAGYDEPPYHYGYGFLMPDQLLGTEGSARVKITCASTHRPLMEMCVRYLIIRPLPNFR CDLSHSYERYWRKNRLCMNIGHKGSGNTYRLGSDVVRENTLYGFKQAVLANADMVEMDVQLTQDAQVVVY HDFVLRFMLQRMPSFEDLLENQDLLIFAYENLNKLMLLAMGGSKRKDLIAVPLEAFSYDQLKEVKVLRFA GSKGCDKSCDRMLLEQRPFPLLLDLLDEENLPVDMGFLIEIKWPQMTNMRRWESGSFKPTFDRNFYVDTI LEIVLNKAGKRRIVFCSFDADICAMVRFKQNVYPVTLLLEDPHSPVQYADQRVSVQDVAVRFCNSLEFLG LTLHANSLLNKPSTMAYLHQINLDAFVYGSSTIDLEIRNKLKKHGVLGIIYDRLDQLDQVGEELEGDTMC TIDSVTTRRVIQETEVEEWIQKCGYKPETSIVVHNIYID

32 comment? au début sont les alignements... alignements = outils de base de l'analyse bioinformatique permettent de comparer des séquences biologiques nucléiques (ADN,ARN) protéiques différents outils en fonction du type d'alignement (local/global) de la longueur des séquences, etc...

33 pourquoi comparer les séquences? une ressemblance entre séquences peut indiquer: une fonction biologique proche une structure 3D semblable une origine et/ou histoire évolutive commune la comparaison de séquence permet aussi d'assembler des fragments de séquences de mettre en évidence les différences de séquençage entre différents laboratoires etc...

34 comparaison de 2 séquences alignement de 2 séquences mon ORF W L T E K E G S Y P K L une autre séquence W L S S S M N N Q V F P Q L exemple d'alignement insertion/deletion W L T E K E G S Y P K L W L T E K E G S Y P K L W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L identité substitution non-conservative substitution conservative

35 Comment en est-on arrivé là? un scénario possible temps WLTEKEGSQVYPKL séquence ancestrale spéciation WLTEKEGSQVYPKL WLTEKEGSQVYPKL délétion mutations WLSSSMNNQVYPKL WLTEKEGSYPKL mutations WLSSSMNNQVFPKL WLTEKEGSYPKL W L T E K E G S Y P K L W L S S S M N N Q V F P Q L ce que l'on observe aujourd'hui

36 évolution des séquences protéiques mutations d'acides aminés certaines mutations plus favorables propriétés physico-chimiques semblables structure 3D conservée insertion/délétion de fragments de séquences iso-formes issues de l'épissage alternatif certains certainsscénarios scénariosévolutifs évolutifs sont sontplus plusprobables probablesque qued'autres d'autres

37 évaluation d'un alignement score qui dépend nombre et nature des identités nombre et nature des substitutions nombre d'insertion/délétion score global = scores des positions meilleur alignement: score maximum W L T E K E G S Y P K L W L T E K E G S Y P K L W L S S S M N N Q V F P Q L W L S S S M N N Q V F P Q L score = s(w,w) +s(l,l) + s(t,s) + s(e,s) s(gap l=2) +...

38 les paramètres insertion/délétion: 2 paramètres ouverture de gap extension de gap CGATGCAGCAGCAGCATCG CGATGC------AGCATCG CGATGCAGCAGCAGCATCG CG-TG-AGCA-CA--AT-G ouverture de gapextension de gap (13 x 1) (6 x 1) = -3 (13 x 1) - (5 x 10) - (6 x 1) = -43 le caractère non linéaire est plus conforme à la réalité biologique

39 les paramètres ex.: BLOSUM62 identité/substitution: matrices de substitution score pour chaque conservation/substitution obtenu empiriquement à partir des substitutions observées entre séquences

40 alignement global/local A B Alignement global Alignement forcé des extrémités A B Alignement local Pénalisation forte des délétions/insertions

41 alignement global A B Alignement global Alignement forcé des extrémités utilisé pour aligner des séquences homologues (gènes, protéines, chromosomes) afin de déterminer les mutations évolutives à la base des alignements multiples (ClustalW,...)

42 alignement local A B Alignement local Pénalisation forte des délétions/insertions utilisé pour identifier des séquences homologues, p.ex. dans les banques de données l'homologie peut être restreinte à une portion de séquence (domaine protéique) algo. le plus répandu: BLAST (blastp, blastn,...)

43 BLAST plusieurs versions séquence b a n q u e d e séquence b la s tn n u c lé iq u e n u c lé iq u e b la s tp p ro té iq u e p ro té iq u e b la s tx n u c lé iq u e p ro té iq u e p ro té iq u e tb la s tn p ro té iq u e n u c lé iq u e p ro té iq u e tb la s tx n u c lé iq u e n u c lé iq u e p ro té iq u e p ro té iq u e permet de détecter permet de détecter des gènes potentiels des gènes potentiels dans une séquence dans une séquence d'adn d'adn

44 Comparer ADN ou peptide?? 73% nucl. id 93% nucl. id A C C G T T A C A T G G T A T A C G G T G A C C T G G T A C A C C G T T A C A T G G T A T A C C G T T A T A T G G T A T T V T W Y T V T W Y 100% AA id T V T W Y T V I W Y 80% AA id Conclusion: les mutations dans la séquence d'adn ne sont pas équivalentes: mutations synonymes (ne changent pas l'aa) mutations non-synonymes

45 Comparer ADN ou peptide?? similarité moyenne entre 2 séquences d'adn de longueur égale: 25% similarité moyenne entre 2 séquences d'aa de longueur égale: 5% Conclusion: il est plus fréquent d'avoir une bonne similarité due au hasard entre 2 séquences d'adn que d'aa Si la séquence d'adn est potentiellement codante (présence d'orf),on compare les séquences d'acides aminés plutôt que les séquences d'adn

46 et si notre ORF de 100 acides aminés ne ressemble à rien de connu???? qu'est ce qu'on en conclu????

47 QUESTION 3: si la séquence est codante, quelle est la fonction de la protéine?

48 "Guilt by association" ou le délit de faciès en biologie!!!

49 "Guilt by association" ou le délit de faciès en biologie RNA-directed RNA polymerase!!! PUTATIVE (RNA-directed) RNA polymerase

50 cette protéine ressemble diablement à des protéines impliquées dans la mort cellulaire/ fragmentation de l'adn... on peut raisonnablement penser qu'elle est impliquée également dans cette fonction...

51 Familles, domaines, motifs etc domaine protéique: unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) motifs protéiques: plus courts site de modification post-traductionnelle site de liaison (ADN, métal,...) site actif d'enzyme un domaine protéique une fonction biologique

52 InterPro banque de données de motifs protéiques InterProScan outils de comparaison d'une séquence avec les motifs protéiques d'interpro

53 analyse d'une protéine contre InterPro recherche de fiches par mots-clé

54 Résultat InterProScan fiche Pfam fiche ProDom

55 QUESTION 4: de quel organisme provient cette séquence? quelle est son histoire?

56 Une nouvelle science: la métagénomique 2000: expédition Sorcerer II de C. Venter dans la mer des Sargasses But: prélever des échantillons marins séquencer l'adn présent étudier les diversité des organismes marins "In one drop of water are found all the secrets of the oceans" les fragments d'adn obtenus sont d'origine inconnue...

57 De quel organisme provient cette séquence? difficile de répondre à cette question!!!! on ne connait (probablement) que < 1% de la biodiversité marine 99% de chance que ce soit la première fois que l'on rencontre cet organisme! Quelle famille?

58 Avons nous les bons outils? BLAST: comparaisons 2 à 2 on voudrait comparer toutes les séquences entre elles simultanément Pourquoi?

59 MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD QDDHLWNDHGSQSSFVEMTIL MYYVRPSLKTSILAFGETWYVLKIE MKLISTHTVLAGQRTLEKKIS

60 MSTTRWLLGTSQQVTYESSIL QDDHLWNDHGSQSSFVEMTIL MSTTRWLLGTSQQVTYESSIL MKLISTHTVLAGQRTLEKKIS MSTTRWLLGTSQQVTYESSIL STWYVMEMARNDCQGGMFPKWVYESDNARDD MSTTRWLLGTSQQVTYESSIL MYYVRPSLKTSILAFGETWYVLKIE

61 MSTTRWLLGTSQQVTYESSIL...E.....E......E......E... alignement multiple:permet d'identifier les AA/nucléotides invariants dans des séquences homologues "pression évolutive" fonction? ("pourquoi le glutamate est-il conservé dans toutes les séquences???")

62 Exemple: RNA polii T>N L>T

63

64 Conclusion: annotation de séquences = enquête de voisinage est ce que la séquence d'adn est potentiellement codante? ORFfinder 2. est ce que cet ORF correspond à une protéine? BLAST 3. quelle est la fonction potentielle de la protéine? BLAST, INTERPROSCAN 4. quelle est son histoire évolutive/ son origine? Clustalw ClustalNJ, PhyML

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Introduction à la Génomique Fonctionnelle

Introduction à la Génomique Fonctionnelle Introduction à la Génomique Fonctionnelle Cours aux étudiants de BSc Biologie 3ème année Philippe Reymond, MER PLAN DU COURS - Séquençage des génomes - Fabrication de DNA microarrays - Autres méthodes

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots Université Toulouse 3 Paul Sabatier(UT3 Paul Sabatier) Informatique Spécialité Bioinformatique Eric AUDEMARD lundi 28 novembre 2011 Détection des duplications en tandem au niveau nucléique à l'aide de

Plus en détail

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles Contrôle de l'expression génétique : Les régulations post-transcriptionnelles http://perso.univ-rennes1.fr/serge.hardy/ utilisateur : biochimie mot de passe : 2007 L'ARNm, simple intermédiaire entre le

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Contrôle de l'expression génétique :

Contrôle de l'expression génétique : Contrôle de l'expression génétique : Les régulations post-transcriptionnelles L'ARNm, simple intermédiaire entre le génome et les protéines? gène protéine L'ARNm, simple intermédiaire entre le génome et

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

Bases de données des mutations

Bases de données des mutations Bases de données des mutations CFMDB CFTR2 CFTR-France / Registre Corinne THEZE, Corinne BAREIL Laboratoire de génétique moléculaire Montpellier Atelier Muco, Lille, 25-27 septembre 2014 Accès libre http://www.genet.sickkids.on.ca/app

Plus en détail

Perl Orienté Objet BioPerl There is more than one way to do it

Perl Orienté Objet BioPerl There is more than one way to do it Perl Orienté Objet BioPerl There is more than one way to do it Bérénice Batut, berenice.batut@udamail.fr DUT Génie Biologique Option Bioinformatique Année 2014-2015 Perl Orienté Objet - BioPerl Rappels

Plus en détail

CATALOGUE DES PRESTATIONS DE LA

CATALOGUE DES PRESTATIONS DE LA 1/23 La plate-forme Biopuces et Séquençage de Strasbourg est équipée des technologies Affymetrix et Agilent pour l étude du transcriptome et du génome sur puces à ADN. SOMMAIRE ANALYSE TRANSCRIPTIONNELLE...

Plus en détail

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Introduc)on à Ensembl/ Biomart : Par)e pra)que Introduc)on à Ensembl/ Biomart : Par)e pra)que Stéphanie Le Gras Jean Muller NAVIGUER DANS ENSEMBL : PARTIE PRATIQUE 2 Naviga)on dans Ensembl : Pra)que Exercice 1 1.a. Quelle est la version de l assemblage

Plus en détail

Génétique et génomique Pierre Martin

Génétique et génomique Pierre Martin Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique Rapport de stage de deuxième année de DUT Génie Biologique option Bioinformatique Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes

Plus en détail

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

! Séquence et structure des macromolécules.  Séquences protéiques (UniProt)  Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ) Introduction à la Bioinformatique Introduction! Les bases de données jouent un rôle crucial dans l organisation des connaissances biologiques.! Nous proposons ici un tour rapide des principales bases de

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan M Bioinformatique, Connaissances et Données Année 24-25 GMIN206 Info. Biologique et Outils bioinformatiques Banques de données biologiques (3h de Cours +,5h de TD + 4h de TP) Elodie Cassan Anne-Muriel

Plus en détail

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection

Plus en détail

Biomarqueurs en Cancérologie

Biomarqueurs en Cancérologie Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

VI- Expression du génome

VI- Expression du génome VI- Expression du génome VI-1.- EXPRESSION DU GÉNOME- PRINCIPES GÉNÉRAUX DOGME CENTRAL Les gènes et l information génétique sont conservés sous forme d acides nucléiques La perpétuation à l identique de

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Bases moléculaires des mutations Marc Jeanpierre

Bases moléculaires des mutations Marc Jeanpierre Bases moléculaires des mutations Marc Jeanpierre Chaque enfant qui naît hérite de 10 à 30 nouvelles mutations ponctuelles. L essentiel des ces mutations sont heureusement des variations neutres de séquence

Plus en détail

TD de Biochimie 4 : Coloration.

TD de Biochimie 4 : Coloration. TD de Biochimie 4 : Coloration. Synthèse de l expérience 2 Les questions posées durant l expérience 2 Exposé sur les méthodes de coloration des molécules : Générique Spécifique Autres Questions Pourquoi

Plus en détail

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment. Sommaire Séquence 6 Nous avons vu dans les séances précédentes qu au cours des temps géologiques des espèces différentes se sont succédé, leur apparition et leur disparition étant le résultat de modifications

Plus en détail

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes Thèse Présentée pour obtenir le grade de Docteur en sciences de l université d Evry-Val d Essonne Spécialité Bioinformatique par

Plus en détail

Cours 3 : Python, les conditions

Cours 3 : Python, les conditions Cours 3 : Python, les conditions Conditions Permet d'exécuter des ordres dans certaines conditions : if condition1: code exécuté si condition1 est vraie code exécuté si condition1 est vraie... elif condition2:

Plus en détail

Hépatite chronique B Moyens thérapeutiques

Hépatite chronique B Moyens thérapeutiques Hépatite chronique B Moyens thérapeutiques Dr Olfa BAHRI Laboratoire de Virologie Clinique Institut Pasteur de Tunis INTRODUCTION Plus de 300. 10 6 porteurs chroniques de VHB dans le monde Hépatite chronique

Plus en détail

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE : N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques Les outils de génétique moléculaire Les techniques liées aux acides nucléiques Sommaire Preparation des acides nucléiques Extraction / purification Les enzymes agissant sur les acides nucléiques Les enzymes

Plus en détail

Génomique Comparative et intégrative

Génomique Comparative et intégrative Génomique Comparative et intégrative Introduction : Le big data : on peut traiter des données massives à présent, l'objectif à présent est d'éviter les transferts de données trop longs. On a tout à portée

Plus en détail

Les bases de données transcriptionnelles en ligne

Les bases de données transcriptionnelles en ligne Les bases de données transcriptionnelles en ligne Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription

Plus en détail

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION Le candidat est tenu d avoir complété tous les cours préalables à la date limite prévue, soit le 15 septembre pour le trimestre d automne et le 1 er février pour le trimestre d hiver. L Université peut

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Bibliographie Introduction à la bioinformatique

Bibliographie Introduction à la bioinformatique Bibliographie Introduction à la bioinformatique 5. Les bases de données biologiques, SQL et la programmation Python/C++ Zvelebil et Baum, Understanding bioinformatics Beighley, Head First SQL Chari, A

Plus en détail

MYRIAD. l ADN isolé n est à présent plus brevetable!

MYRIAD. l ADN isolé n est à présent plus brevetable! MYRIAD La Cour Suprême des Etats-Unis revient sur plus de 30 ans de pratique : l ADN isolé n est à présent plus brevetable! Mauvaise passe pour les inventions en biotechnologies sur le territoire américain.

Plus en détail

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription Université de Montréal Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription par Eloi Mercier Département de bioinformatique Faculté de médecine

Plus en détail

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale Annales du Contrôle National de Qualité des Analyses de Biologie Médicale ARN du virus de l hépatite C : ARN-VHC ARN-VHC 03VHC1 Novembre 2003 Edité : mars 2006 Annales ARN-VHC 03VHC1 1 / 8 ARN-VHC 03VHC1

Plus en détail

Séquence 2. L expression du patrimoine génétique. Sommaire

Séquence 2. L expression du patrimoine génétique. Sommaire Séquence 2 L expression du patrimoine génétique Sommaire 1. La synthèse des protéines 2. Phénotypes, génotypes et environnement Synthèse de la séquence 2 Exercices de la séquence 2 Glossaire des séquences

Plus en détail

Détection et prise en charge de la résistance aux antirétroviraux

Détection et prise en charge de la résistance aux antirétroviraux Détection et prise en charge de la résistance aux antirétroviraux Jean Ruelle, PhD AIDS Reference Laboratory, UCLouvain, Bruxelles Corata 2011, Namur, 10 juin 2011 Laboratoires de référence SIDA (Belgique)

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes Où trouver l'information complémentaire? MCB -11, GVII-5, 22, 23. La maturation des ARNm chez les eucaryotes Les

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

Extraction d information des bases de séquences biologiques avec R

Extraction d information des bases de séquences biologiques avec R Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)

Plus en détail

Bases de données et outils bioinformatiques utiles en génétique

Bases de données et outils bioinformatiques utiles en génétique Bases de données et outils bioinformatiques utiles en génétique Collège National des Enseignants et Praticiens de Génétique Médicale C. Beroud Date de création du document 2010-2011 Table des matières

Plus en détail

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

TP3 Test immunologique et spécificité anticorps - déterminant antigénique TP3 Test immunologique et spécificité anticorps - déterminant antigénique Partie 1 : Spécificité d'un anticorps pour un déterminant antigénique du VIH La séropositivité pour le VIH correspond à la présence

Plus en détail

Analyse des données de séquençage massif par des méthodes phylogénétiques

Analyse des données de séquençage massif par des méthodes phylogénétiques Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement

Plus en détail

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 Andrew Tolonen atolonen@genoscope.cns.fr Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 A- Généralités I- La vie sur terre telle que nous la connaissons ne

Plus en détail

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Depuis des milliers de générations, le ver à soie est l objet d une sélection Production de soie et caractéristiques des glandes séricigènes de 13 races de ver à soie (Bombyx mori) J. M. FAYARD Laboratoire de biométvie, Dépavtement de biologie générale et appliquée Université Claude

Plus en détail

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique Tuteur : Anne Muhr-Tailleux cardiovasculaires et diabète (Equipe 1) Institut

Plus en détail

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Biologie LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Février 2006 I. L'INTRODUCTION Chaque cellule d'un organisme supérieur provient de la multiplication d'une cellule préexistante (cellule

Plus en détail

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Dr Xavier Manival, Laboratoire IMoPA, CR, CNRS Françoise Tisserand-Bedri, Documentaliste, Inist-CNRS

Plus en détail

Systèmes de transmission

Systèmes de transmission Systèmes de transmission Conception d une transmission série FABRE Maxime 2012 Introduction La transmission de données désigne le transport de quelque sorte d'information que ce soit, d'un endroit à un

Plus en détail

SysFera. Benjamin Depardon

SysFera. Benjamin Depardon SysFera Passage d applications en SaaS Benjamin Depardon CTO@SysFera SysFera Technologie 2001 Création 2010 Spin Off INRIA Direction par un consortium d investisseurs 12 personnes 75% en R&D Implantation

Plus en détail

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION PRINCIPES DE BASE SUR LES DONNEES ET LE CALCUL HAUTE PERFORMANCE Lois de Gray sur l ingénierie des données 1 : Les calculs scientifiques traitent des volumes considérables

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

2 C est quoi la chimie?

2 C est quoi la chimie? PARTIE 1 AVANT LA CHIMIE VERTE... 2 C est quoi la chimie? L inconnu étant source d angoisse, nous allons essayer de définir les grands domaines de la chimie pour mieux la connaître, l appréhender et donc

Plus en détail

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS 1 sur 9 COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS (L'article intégral est paru dans Gestions Hospitalières n 357 de juin-juillet 1996) Pour plus d'informations concernant

Plus en détail

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Communiqué de presse 1 er avril 2014 GÉNOMIQUE TESTS DE DIAGNOSTIC GÉNÉTIQUE R&D Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Offre sursouscrite 4,7 fois,

Plus en détail

Univers Vivant Révision. Notions STE

Univers Vivant Révision. Notions STE Univers Vivant Révision Notions STE Chap. 13) L Écologie 1) a) Qu est-ce que l empreinte écologique? L empreinte écologique correspond à la surface terrestre et aquatique totale nécessaire à un individu,

Plus en détail

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne ULBI 101 Biologie Cellulaire L1 Le Système Membranaire Interne De la nécessité d un SMI Le volume augmente comme le cube de la dimension linéaire, alors que la surface n'est augmentée que du carré Une

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Diagnostic et suivi virologique des hépatites virales B et C. Marie-Laure Chaix Virologie Necker

Diagnostic et suivi virologique des hépatites virales B et C. Marie-Laure Chaix Virologie Necker Diagnostic et suivi virologique des hépatites virales B et C Marie-Laure Chaix Virologie Necker OUTILS DIAGNOSTIQUES VHC Transaminases Recherche des Anticorps! Tests indirects - Anticorps! ELISA! RIBA

Plus en détail

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux Jean-Baka Domelevo Entfellner To cite this version: Jean-Baka

Plus en détail

I. La levure Saccharomyces cerevisiae: mode de vie

I. La levure Saccharomyces cerevisiae: mode de vie LES LEVURES UE «levures» -5 avril: généralités (MN Simon) -6 avril: analyse génétique (MN Simon) -6 avril: Cycle cellulaire I: la réplication (E. bailly) -7 avril: Cycle cellulaire II: la mitose (E. Bailly)

Plus en détail

Les tests génétiques à des fins médicales

Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Nous avons tous hérité d une combinaison unique de gènes de la part de nos parents. Cette constitution originale et l

Plus en détail

UE6 - Cycle de vie du médicament : Conception rationnelle

UE6 - Cycle de vie du médicament : Conception rationnelle UE6 - Cycle de vie du médicament : Conception rationnelle Dr. Raphaël Terreux Faculté de Pharmacie (ISPB) Département pédagogique des Sciences Physico-Chimiques et Pharmacie Galénique 8 avenue Rockefeller,

Plus en détail

EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410

EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410 EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410 EXERCICE 1 PAGE 406 : EXPERIENCES A INTERPRETER Question : rôles respectifs du thymus et de la moelle osseuse dans la production des lymphocytes.

Plus en détail

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII ALGORITHMIQUE II NOTION DE COMPLEXITE 1 2 Comment choisir entre différents algorithmes pour résoudre un même problème? Plusieurs critères de choix : Exactitude Simplicité Efficacité (but de ce chapitre)

Plus en détail

Conception de Médicament

Conception de Médicament Conception de Médicament Approche classique HTS Chimie combinatoire Rational Drug Design Ligand based (QSAR) Structure based (ligand et ou macromolec.) 3DQSAR Docking Virtual screening Needle in a Haystack

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Prédiction de la structure d une

Prédiction de la structure d une Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Les structures protéiques

Plus en détail

L axe 5 du Cancéropole Nord Ouest

L axe 5 du Cancéropole Nord Ouest L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531) Unité Mixte du CNRS (UMR8531) Institut de Chimie Directeur : Keitaro NAKATANI (PU ENS Cachan) Courrier électronique : nakatani@ppsm.ens-cachan.fr http://www.ppsm.ens-cachan.fr Problématique générale :

Plus en détail

Principes de bonne pratique :

Principes de bonne pratique : Principes de bonne pratique : Recommandations en vue de la création de bases de données génétiques nationales Le présent document a été élaboré par le Groupe d experts d INTERPOL sur le suivi des techniques

Plus en détail

Bulletin officiel n 29 du 19 juillet 2012 Sommaire

Bulletin officiel n 29 du 19 juillet 2012 Sommaire Bulletin officiel n 29 du 9 juillet 22 Sommaire Organisation générale Administration centrale du MN et du MSR Attributions de fonctions : modification arrêté du 5-6-22 (NOR : MNA2252A) Administration centrale

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères 91030 Evry Cedex. www.mabsolut.com. intervient à chaque étape de

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères 91030 Evry Cedex. www.mabsolut.com. intervient à chaque étape de Mabsolut-DEF-HI:Mise en page 1 17/11/11 17:45 Page1 le département prestataire de services de MABLife de la conception à la validation MAB Solut intervient à chaque étape de vos projets Création d anticorps

Plus en détail

Cellules procaryotes Service histologie Pr.k.mebarek

Cellules procaryotes Service histologie Pr.k.mebarek Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes

Plus en détail

Big Data et la santé

Big Data et la santé Big Data, c'est quoi? Big Data et la santé Collecte, stockage et exploitation de masses de données Capter de façon automatique et anonyme une très grande quantité d'informations, les traiter avec des algorithmes

Plus en détail

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Objectifs : Exploiter un spectre infrarouge pour déterminer des groupes caractéristiques Relier un spectre

Plus en détail

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté Compétences travaillées : Mettre en œuvre un protocole expérimental Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique

Plus en détail

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Les risques liés à l activité de l entreprise : quels outils pour les identifier? Les risques liés à l activité de l entreprise : quels outils pour les identifier? Alger, le 23-24 Novembre 2009 Présentée par: Mlle Amina NADJI Doctorante en 3ème année sciences économiques (CRIISEA, Centre

Plus en détail

Séquence 4. Comment expliquer la localisation des séismes et des volcans à la surface du globe?

Séquence 4. Comment expliquer la localisation des séismes et des volcans à la surface du globe? Sommaire Séquence 4 Tu as constaté que les séismes et les éruptions volcaniques se déroulaient toujours aux mêmes endroits. Tu vas maintenant chercher à expliquer ce phénomène. Problématique : Comment

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010 Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010 Métabolisme du fer : hepcidine Fer absorbé par les entérocytes des villosités duodénales : transporteur

Plus en détail

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology COMMUNIQUÉ DE PRESSE le 25 mars 2014 Une étude conjointe menée par University of Tokyo Graduate School of Agricultural and Life Sciences et Kanagawa Academy of Science and Technology suggère que le sirop

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail